<a href="https://colab.research.google.com/github/SARA3SAEED/abu-LLM/blob/main/6_abu_session_02_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install sentence-transformers==3.0.1 datasets

## Download Dataset

In [None]:
from datasets import load_dataset
from tqdm.auto import tqdm
import pandas as pd

In [None]:
ds = load_dataset("Cohere/wikipedia-22-12", "ar", streaming=True, trust_remote_code=True)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading builder script:   0%|          | 0.00/3.39k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/3.87k [00:00<?, ?B/s]

Repo card metadata block was not found. Setting CardData to empty.


In [None]:
max_titles = 500
all_titles = set()
collected_recs = []

progress_bar = tqdm(total=max_titles)

for rec in ds["train"]:
    if rec["title"] not in all_titles:
        all_titles.add(rec["title"])
        progress_bar.update(1)

    collected_recs.append(rec)

    if len(all_titles) > max_titles:
        break

  0%|          | 0/500 [00:00<?, ?it/s]

In [None]:
collected_df = pd.DataFrame(collected_recs)
collected_df.shape

In [None]:
collected_df["text_len"] = collected_df["text"].apply( lambda text: len(text) )

In [None]:
collected_df["text_len"].describe()

In [None]:
cleaned_collected_df = collected_df[ collected_df["text_len"] < 1500 ]
cleaned_collected_df["text_len"].describe()

In [None]:
cleaned_collected_df = cleaned_collected_df.sample(frac=1, random_state=101)

In [None]:
cleaned_collected_df.head()

### Ollama Embeddings

In [None]:
!pip install ollama==0.3.2
!curl https://ollama.ai/install.sh | sh

In [None]:
ollama_model_id = "paraphrase-multilingual"

In [None]:
# run ollama server
!nohup ollama serve &
!sleep 8 && tail nohup.out

In [None]:
!ollama pull {ollama_model_id}

In [None]:
!nohup ollama run {ollama_model_id} &
!sleep 8 && tail nohup.out

### Evaluate Ollama Embedding

In [None]:
from sentence_transformers.util import semantic_search, cos_sim
import torch
import ollama

In [None]:
corpus = cleaned_collected_df["text"].values[:50]

corpus_embeddings = []
for text in tqdm(corpus):
    corpus_embeddings.append(
        ollama.embeddings(model=ollama_model_id, prompt=text)["embedding"]
    )

  0%|          | 0/50 [00:00<?, ?it/s]

In [None]:
question_text = "من مترجم كتابات ابن حيان؟"
question_embedding =  ollama.embeddings(
                        model='paraphrase-multilingual',
                        prompt=question_text,
                    )['embedding']

In [None]:
question_embedding = torch.FloatTensor([question_embedding])
corpus_embeddings = torch.FloatTensor(corpus_embeddings)

In [None]:
similar_documents = semantic_search(
    query_embeddings=question_embedding,
    corpus_embeddings=corpus_embeddings,
    top_k=10
)

In [None]:
for document in similar_documents[0]:
    _id = document["corpus_id"]
    text = corpus[_id]
    score = document["score"]

    print("Score:", score)
    print("Text:", text)
    print("="*30)

Score: 0.5641813278198242
Text: أعطى الملحن اللبناني فيلمون وهبي (1918ـــ 1985) ألحانه لـ 27 أغنية من أغاني فيروز، منها 18 أغنية من تأليف وتوزيع وإشراف الأخوين رحباني غنتها فيروز في الفترة من 1962-1976، وثماني أغنيات لحنها لها فيلمون بعد انفصالها عن الأخوين رحباني غنتها فيروز في الفترة من 1980-1985، وجميعها من كلمات جوزيف حرب عدا واحدة فقط من كلمات طلال حيدر وهي أغنية (يا رايح)، ولا تزال هذه الأعمال حاضرة في الذاكرة اللبنانية والعربية فقد كان فيلمون هو الاستثناء الوحيد الذي تعاون معه الأخوين رحباني كملحن من خارج الأسرة الرحبانية، وقد اعترف منصور الرحباني بالنجاح الكبير الذي حققته ألحان فيلمون على حنجرة فيروز فيقول :.
Score: 0.5345969796180725
Text: وقد ذكرنا فيما تقدم أن الحجاج حج بالناس في هذه السنة الخارجة، وكان في الحج ابن عمر، وقد كتب عبد الملك إلى الحجاج أن يأتم بابن عمر في المناسك كما ثبت ذلك في الصحيحين.
Score: 0.529414176940918
Text: استطاع الفنانون الإيرانيون أن يبدعوا في الفن التصويري لمضامين المخطوطات الفارسية والعربية، كما نجحوا في تجويد الخط وتحسينه وتطويره، فقد امتاز الخط

## Test Sbert Embeddings

In [None]:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import semantic_search, cos_sim
import torch
from tqdm.auto import tqdm

model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')

In [None]:
corpus = cleaned_collected_df["text"].values[:50]

corpus_embeddings = []
for text in tqdm(corpus):
    corpus_embeddings.append(
        model.encode(text).tolist()
    )

  0%|          | 0/50 [00:00<?, ?it/s]

In [None]:
question_text = "من مترجم كتابات ابن حيان؟"
question_embedding =  model.encode(question_text).tolist()

In [None]:
question_embedding = torch.FloatTensor([question_embedding])
corpus_embeddings = torch.FloatTensor(corpus_embeddings)

In [None]:
similar_documents = semantic_search(
    query_embeddings=question_embedding,
    corpus_embeddings=corpus_embeddings,
    top_k=10
)

In [None]:
for document in similar_documents[0]:
    _id = document["corpus_id"]
    text = corpus[_id]
    score = document["score"]

    print("Score:", score)
    print("Text:", text)
    print("="*30)

Score: 0.5286891460418701
Text: تعود شهرة جابر بن حيان إلى مؤلفاته العديدة، ومنها «كتاب الرسائل السبعين»، ترجمه إلى اللاتينية جيرار الكريموني سنة 1187م وتضاف إلى هذه الكتب تصانيف أخرى عديدة تتناول، إلى جانب الكيمياء، شروحاً لكتب أرسطو وأفلاطون؛ ورسائل في الفلسفة، والتنجيم، والرياضيات، الطب، والموسيقى. وجاء في «الأعلام» للزركلي أن جابراً له تصانيف كثيرة تتراوح ما بين مائتين واثنين وثلاثين (232) وخمسمائة (500) كتاب، لكن ضاع أكثرها. وقد ترجمت بعض كتب جابر إلى اللغة اللاتينية في أوائل القرن الثاني عشر، كما ترجم بعضها من اللاتينية إلى الإنجليزية عام 1678. وظل الأوربيون يعتمدون على كتبه لعدة قرون، وقد كان لها أثر كبير في تطوير الكيمياء الحديثة. وفي هذا يقول ماكس مايرهوف: يمكن إرجاع تطور الكيمياء في أوروبا إلى جابر ابن حيان بصورة مباشرة. وأكبر دليل على ذلك أن كثيراً من المصطلحات التي ابتكرها ما زالت مستعملة في مختلف اللغات الأوربية.
Score: 0.4976058006286621
Text: أعطى الملحن اللبناني فيلمون وهبي (1918ـــ 1985) ألحانه لـ 27 أغنية من أغاني فيروز، منها 18 أغنية من تأليف وتوزيع وإشراف الأخوين رح