# Importing libraries

In [1]:
import numpy as np
import pandas as pd
import torch
from datetime import datetime

In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import CSVLoader
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from transformers import AutoTokenizer, pipeline
from transformers import BertForQuestionAnswering, BertTokenizer
from transformers import AutoModelForCausalLM, AutoModel
from langchain.chains import RetrievalQA
from langchain_ollama import ChatOllama
from transformers import pipeline
from langchain_huggingface import HuggingFacePipeline
from langchain.llms import OpenAI

# Getting from csv and splitting

In [3]:
csv_file_path = 'clean_example_data.csv'

loader = CSVLoader(file_path=csv_file_path)

data = loader.load()

In [4]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=150
)

docs = text_splitter.split_documents(data)

In [5]:
docs[0]

Document(metadata={'source': 'clean_example_data.csv', 'row': 0}, page_content='content: ODTÜ 2022-2023 yılı sonbahar dönemi için etkileşimli kayıt sistemi 28 Eylül 2022 tarihinde, saat 09.00’da öğrencilere açılacak. Birer saat arayla, başta 4. sınıflar olmak üzere tüm sınıflara kademeli olarak açılmaya devam edecek. Etkileşimli kayıtlar 30 Eylül, saat 17.00’de sona erecektir. Danışman onayları ise 28 Eylül’de başlayıp 30 Eylül saat 23.59’da sona erecektir. Not: Kayıt programına kampüs dışından erişimlerde VPN bağlantısı şartı bulunmamaktadır.')

# Getting an pre-trained embedding model

In [6]:
model_path = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
model_kwargs = {'device': 'cuda'}
encode_kwargs = {'normalize_embeddings': False}

embeddings = HuggingFaceEmbeddings(
    model_name = model_path,      
    model_kwargs = model_kwargs,  
    encode_kwargs = encode_kwargs 
)

In [7]:
text = 'Üreten ekibe hoş geldin'
query_result = embeddings.embed_query(text)
len(query_result)

384

# Creating a vector database and a retriever

In [8]:
vector_db = FAISS.from_documents(docs, embeddings)

In [9]:
question = input("Ask a question (in Turkish):  ")

Ask a question (in Turkish):   şenlik ne zaman


In [10]:
docs = vector_db.similarity_search(query=question,k=3)
print(docs)

[Document(metadata={'source': 'clean_example_data.csv', 'row': 30}, page_content='content: ODTÜ Bahar Şenliği her yıl farklı tarihlerde fakat ortalama olarak aynı dönemde yapılmaktadır. Genelde 2. vizeler ile final haftası arasında yapılmaya çalışına Uluslararası Bahar Şenlikleri, nisan sonu mayıs başı yapılmaktadır.'), Document(metadata={'source': 'clean_example_data.csv', 'row': 74}, page_content='content: Topluluk oryantasyonları hakkında bilgi almak için buraya tıklayınız. Temel İngilizce bölümüne yeni yerleşen öğrenciler için oryantasyon programı 27 Eylül tarihindegerçekleşecektir. Hazırlık ortamını ve kampüsü tanımanız için katılmanız tavsiye edilir. Lisans programına yeni yerleştirilen öğrenciler için üniversite ve bölümlerin tanıtım programı ise 30 Eylül- 1 Ekim tarihleri arasında gerçekleşecektir. (Daha çok 1. Sınıfların ve hazırlığı atlayanların katıldığı bir program olup herkesin katılımına açıktır.)'), Document(metadata={'source': 'clean_example_data.csv', 'row': 51}, page_

# Llama 3.2 3b

In [11]:
llama_llm = ChatOllama(
    model="llama3.2:3b",
    temperature=0.1,
)

# Opus en-tr model

In [12]:
en_tr_pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-tr", device="cuda")

# Creating and calculating the speed of the chain

In [13]:
question = input("Ask a question (in Turkish):  ")

Ask a question (in Turkish):   şenlik ne zaman


In [14]:
pre_prompt = "Answer the question in English using the information above. Do not add unnecessary information."

In [15]:
time_0 = datetime.now()

docs = vector_db.similarity_search(query=question,k=3)
prompt = f"{docs[0].page_content}\n{docs[1].page_content}\n{docs[2].page_content}\n{question}\n{pre_prompt}"

time_1 = datetime.now()

en_answer = llama_llm.invoke(prompt).content

time_2 = datetime.now()

tr_answer = en_tr_pipe(en_answer)[0]["translation_text"]

time_3 = datetime.now()

print(tr_answer)

ODTÜ Bahar Şenliği tipik olarak Nisan-Mayıs ayları arasında yapılır ve kesin tarihleri yıldan yıla değişir.


In [16]:
print(en_answer)

The ODTÜ Bahar Şenliği is typically held between April and May, with exact dates varying from year to year.


In [17]:
prompt_creating_time = time_1 - time_0
llama_gen_time = time_2 - time_1
opus_translate_time = time_3 - time_2
overall_time = time_3 - time_0

print(f"Similarity search + prompt creating time: {prompt_creating_time}\nLlama answer generation time:             {llama_gen_time}\nOpus en-tr translation time:              {opus_translate_time}\nOverall execution time:                   {overall_time}")

Similarity search + prompt creating time: 0:00:00.006180
Llama answer generation time:             0:00:00.474338
Opus en-tr translation time:              0:00:00.436539
Overall execution time:                   0:00:00.917057
