In [20]:
from langchain.docstore.document import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter, Language
from langchain_openai import AzureOpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from dotenv import load_dotenv
import os

In [24]:
load_dotenv()

True

In [33]:
embeddings = AzureOpenAIEmbeddings(
        azure_endpoint=os.getenv('AZURE_OPENAI_EMBEDDING_ENDPOINT'),
        api_version="2023-05-15"
)

In [15]:
def read_file(file_name):
    with open("markdowns/"+file_name, 'r') as file:
        content= file.read()
        document = Document(page_content=content, metadata={"source": file_name})

    return [document]


In [36]:
text_splitter = RecursiveCharacterTextSplitter.from_language(
        Language.MARKDOWN, chunk_size=5000, chunk_overlap=1000
    )

In [39]:
def save_vector(file_head):
    document = read_file(file_head+".md")
    docs = text_splitter.split_documents(document)
    vector_store = FAISS.from_documents(docs, embeddings)
    vector_store.save_local(f"{file_head}.faiss")

In [40]:
for f in os.listdir("markdowns"):
    if f.endswith(".md"):
        save_vector(f[:-3])

In [43]:
vector_store = FAISS.load_local(
    "vector_stores/section2.faiss",
    embeddings,
    allow_dangerous_deserialization=True
    )

In [45]:
vector_store.search("Deprem yer hareketi düzeyi", "similarity")

[Document(id='d5706fd3-a8e9-415f-8bf8-5c46c38a4894', metadata={'source': 'section2.md'}, page_content='**2.1.2 – 2.2’de tanımlanan dört farklı deprem yer hareketi düzeyi için deprem verileri,**\n22/01/2018 tarih ve 2018/11275 sayılı Bakanlar Kurulu kararı ile yürürlüğe konulan Türkiye\n_Deprem Tehlike Haritaları ile tanımlanmıştır. Bu haritalara https://tdth.afad.gov.tr/ adresli_\ninternet sitesinden erişilebilir.\n\n**2.2. DEPREM YER HAREKETİ DÜZEYLERİ**\n\nBu Yönetmelik kapsamında aşağıda belirtilen dört farklı deprem yer hareketi düzeyi\ntanımlanmıştır.\n\n**2.2.1. Deprem Yer Hareketi Düzeyi-1 (DD-1)**\n\nDD-1 Deprem Yer Hareketi, spektral büyüklüklerin 50 yılda aşılma olasılığının %2 ve buna\nkarşı gelen tekrarlanma periyodunun 2475 yıl olduğu _çok seyrek deprem yer hareketini_\nnitelemektedir. Bu deprem yer hareketi, gözönüne alınan en büyük deprem yer hareketi olarak\nda adlandırılmaktadır.\n\n**2.2.2. Deprem Yer Hareketi Düzeyi-2 (DD-2)**\n\nDD-2 Deprem Yer Hareketi, spektral bü

In [1]:
def remove_empty_rows(input_file, output_file):
    try:
        # Open the input file for reading
        with open(input_file, 'r', encoding='utf-8') as infile:
            # Read all lines and filter out empty rows
            lines = infile.readlines()
            non_empty_lines = [line for line in lines if line.strip()]

        # Write the non-empty lines to the output file
        with open(output_file, 'w', encoding='utf-8') as outfile:
            outfile.writelines(non_empty_lines)

        print(f"Empty rows have been removed. Output written to '{output_file}'.")
    except Exception as e:
        print(f"An error occurred: {e}")

In [2]:
input_file = "contents.md"
output_file = "contents_cleaned.md"

remove_empty_rows(input_file, output_file)

Empty rows have been removed. Output written to 'contents_cleaned.md'.
