In [60]:
!pip install faiss-gpu




In [61]:
!pip install sentence-transformers




In [62]:
!pip install gradio




In [63]:
!pip install  gdown




In [64]:
!pip install langchain_google_genai
!pip install langchain
!pip install langchain_community
!pip install langchain_anthropic



In [69]:
!kaggle datasets download -d haithemhermessi/sanad-dataset



Dataset URL: https://www.kaggle.com/datasets/haithemhermessi/sanad-dataset
License(s): U.S. Government Works
Downloading sanad-dataset.zip to /content
 97% 64.0M/65.7M [00:03<00:00, 24.8MB/s]
100% 65.7M/65.7M [00:03<00:00, 17.9MB/s]


In [70]:
import os
zip_file = "/content/sanad-dataset.zip"
destination_dir = "/content/sanad-dataset"

if not os.path.exists(zip_file):
    print(f"Error: {zip_file} not found.")
else:
    !unzip -q $zip_file -d $destination_dir
    !rm $zip_file

replace /content/sanad-dataset/Culture/0000.txt? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

<h1> reading data as list of lists </h1>

In [71]:
import os

def read_sanad_dataset(base_path):
    dataset = []

    for root, dirs, files in os.walk(base_path):
        category = os.path.basename(root)
        category_documents = []

        for file in files:
            if file.endswith('.txt'):
                file_path = os.path.join(root, file)
                with open(file_path, 'r', encoding='utf-8') as f:
                    content = f.read()
                    category_documents.append(content)

        if category_documents:  # Only add non-empty categories
            dataset.append(category_documents)

    return dataset

# Example usage
base_path = '/content/sanad-dataset'
sanad_data = read_sanad_dataset(base_path)


<h1> Generate embedding using paraphrase-multilingual-mpnet-base-v2 </h1>

In [74]:
from sentence_transformers import SentenceTransformer
import torch
from tqdm import tqdm

def generate_embeddings(documents, model_name='paraphrase-multilingual-mpnet-base-v2'):
    device = 'cuda' if torch.cuda.is_available() else 'cpu'

    model = SentenceTransformer(model_name, device=device)

    embeddings = []

    for category in documents:
        for doc in category:
            embedding = model.encode(doc, convert_to_tensor=True, device=device)
            embeddings.append(embedding.cpu().numpy())

    return embeddings


In [75]:
embeddings = generate_embeddings(sanad_data)


<h1>Preprocessing before indexing in Faiss vector db </h1>

In [87]:
  flattened_documents=[]
  for category in sanad_data:
      for doc in category:
          flattened_documents.append(doc)

In [77]:

embedding_dim=embeddings[0].shape[0]


<h1>store emedding in the db and save the  index</h1>

In [78]:
import faiss
import numpy as np


res = faiss.StandardGpuResources()
index_flat = faiss.IndexFlatL2(embedding_dim)
gpu_index = faiss.index_cpu_to_gpu(res, 0, index_flat)

# Convert the list of lists into a 2D NumPy array
embeddings_2d = np.array(embeddings)

# Add the embeddings to the FAISS GPU index
gpu_index.add(embeddings_2d)

In [79]:
cpu_index = faiss.index_gpu_to_cpu(gpu_index)

# Save the index to a file
faiss.write_index(cpu_index, 'sanad_faiss_index2.index')

print("Index saved successfully.")

Index saved successfully.


<h1>load the index directly</h1>

In [14]:
import gdown
import faiss

In [128]:
file_id = '1W0v7-dBjyyAL0XYP-sr3eEyHEj0IrN_9'
drive_link = f"https://drive.google.com/uc?id={file_id}"

gdown.download(drive_link, '/content/final.index', quiet=False)


Downloading...
From (original): https://drive.google.com/uc?id=1W0v7-dBjyyAL0XYP-sr3eEyHEj0IrN_9
From (redirected): https://drive.google.com/uc?id=1W0v7-dBjyyAL0XYP-sr3eEyHEj0IrN_9&confirm=t&uuid=21b81415-34dc-499b-b9db-89ce8eb7bbc9
To: /content/final.index
100%|██████████| 140M/140M [00:05<00:00, 26.0MB/s]


'/content/final.index'

In [129]:
cpu_index = faiss.read_index('/content/final.index')
res = faiss.StandardGpuResources()
gpu_index = faiss.index_cpu_to_gpu(res, 0, cpu_index)

<h1>Funcion to retrieve from the db top k results</h1>

In [130]:
from sentence_transformers import SentenceTransformer


def retrieve_similar_documents(query, model_name, gpu_index, flat_documents, k=5):

    model = SentenceTransformer(model_name, device='cuda')
    query_embedding = model.encode(query).reshape(1, -1)
    similarities, indices = gpu_index.search(query_embedding, k=k)

    flattened_indices = indices.flatten()
    retrieved_documents = [flat_documents[idx] for idx in flattened_indices]

    # Merge all retrieved documents into one string
    merged_documents = " ".join(retrieved_documents)

    # Print results
    print("Indices of the most similar documents:", indices)
    print("Distances to the query:", similarities)
    for i, doc in enumerate(retrieved_documents):
        print(f"Document {i+1}: {doc}")

    return merged_documents, similarities, indices

In [131]:
query ="ما هي ابرز انتقالات نادي تشسلسي"
retrieved_docs, sims, inds = retrieve_similar_documents(query, "paraphrase-multilingual-mpnet-base-v2", gpu_index, flattened_documents, k=10)

Indices of the most similar documents: [[24848 25686 23619 24261 23420 23950 20168 22250 19701 22813]]
Distances to the query: [[1.886543  2.0445957 2.1112902 2.1191638 2.1636639 2.183573  2.186664
  2.1919825 2.2029712 2.216236 ]]
Document 1: ابتعد تشلسي في الصدارة بعد فوزه على مضيفه وجاره فولهام متذيل الترتيب 3-،1 مستفيدا من الخدمة التي قدمها له ستوك سيتي بفوزه على أرسنال 1-صفر أمس في المرحلة الثامنة والعشرين من الدوري الإنجليزي لكرة القدم .ومرة أخرى كان للاعبي الوسط دور المنقذ بالنسبة لتشلسي إذ تعملق الألماني اندري شورله بتسجيله الأهداف الثلاثة لفريق المدرب البرتغالي جوزيه مورينيو الذي يعاني حتى الآن ضعف شهية مهاجميه الثلاثة الإسباني فرناندو توريس والكاميروني صامويل إيتو والسنغالي دمبا با الذين سجلوا مجتمعين ما مجموعه 11 هدفاً فقط .بدأ مورينيو اللقاء بإشراك توريس وحيدا في خط المقدمة بعد الهدف الثمين الذي سجله الإسباني في منتصف الأسبوع على ارض غلطة سراي التركي (1-1) في ذهاب الدور الثاني من مسابقة دوري أبطال أوروبا، فيما دخل با في الثواني الأخيرة وغاب إيتو عن التشكيلة باكملها .وانتظر 

In [132]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain_google_genai import GoogleGenerativeAI
from langchain_anthropic import ChatAnthropic

Claude = ChatAnthropic(anthropic_api_key='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',model="claude-3-sonnet-20240229", temperature=0.2, max_tokens=4096)

prompt = PromptTemplate(
    input_variables=['document', 'question'],
    template="""
    You are an AI tasked with providing only the short and accurate answer based on the relevant information from the provided document.

    Document: "{document}"

    Question: "{question}"

    Instructions:
    - Read the document carefully.
    - Generate only the answer to the question without any additional text.
    - Ensure the answer is derived solely from the content of the document.
    """
)
chain_claude=LLMChain(llm=Claude,prompt=prompt)

In [133]:
def generate_answer(query,top_doc):
    answer=chain_claude.run(document=top_doc,question=query)
    return answer



In [134]:
def qa_interface(query):
    similar_articles = retrieve_similar_documents(query, "paraphrase-multilingual-mpnet-base-v2", gpu_index, flat_documents, k=5)
    generated_answer = generate_answer(query,similar_articles)
    return similar_articles, generated_answer

In [135]:
similar_articles_str, generated_answer=qa_interface('ما هي ابرز انتقالات نادي تشيلسي')

Indices of the most similar documents: [[22524 22813 24848 23420 22250]]
Distances to the query: [[2.0655909 2.07062   2.077846  2.128697  2.1624398]]
Document 1: اعتادت جماهير تشلسي متابعة لاعبيها الجدد في بداية كل موسم، لكن هذا العام يوجد اسم واحد مألوف يتوقع أن يخطف الأضواء في النادي المنتمي للدوري الإنجليزي الممتاز لكرة القدم .وكان سيسك فابريغاس من نجوم الدوري الإنجليزي خلال ثماني سنوات قضاها في صفوف لندن غريم تشلسي قبل أن يعود في 2011 إلى ناديه الإسباني برشلونة الذي شهد بداية مشواره .وربما تمثل عودة فابريغاس إلى لندن واحدة من أهم صفقات كرة القدم الإنجليزية خلال الصيف الجاري .ويتطلع جوزيه مورينيو مدرب تشلسي للاستفادة من إمكانات فابريغاس في وسط الملعب لمساعدة الفريق الذي عانى كثيراً على تسجيل الأهداف خلال موسم 2013-2014 .وفاز تشلسي بكل مبارياته على منافسيه في المربع الذهبي للدوري الموسم الماضي باستثناء مواجهة واحدة لكنه أهدر النقاط أمام فرق أقل قوة كانت تلجأ إلى الدفاع، وهو ما كلفه خسارة اللقب .وينتظر مورينيو أن ينجح فابريغاس في سد فراغ المخضرم فرانك لامبارد الذي ساعدته نزعته الهجوم

In [136]:
generated_answer

'سيسك فابريغاس، دييغو كوستا، فيليبي لويز، تيبو كورتوا'

In [137]:
import gradio as gr

iface = gr.Interface(
    fn=qa_interface,
    inputs="text",
    outputs=[
                gr.Textbox(label="All Relevant Documents Merged"),
        gr.Textbox(label="Answer")

    ],
    title="Question Answering System",
    description="Input a question to get the most similar articles and a generated answer."
)

# Launch the interface
iface.launch()


Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://678997b0a9a06a205e.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


