<a href="https://colab.research.google.com/github/RahafSobh/RahafSobh/blob/main/Untitled7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import numpy as np
import pandas as pd

def build_tfidf_matrix_option3():
    """
    בונה מטריצת TF-IDF לדוגמה:
    10 מסמכים, 6 מונחים, ערכים רציפים.
    """
    vocab = [f"term{i+1}" for i in range(6)]
    doc_ids = [f"doc{i+1}" for i in range(10)]

    # נשתמש בערכים ידניים/רנדומליים קבועים
    rng = np.random.default_rng(123)
    tfidf_values = rng.random((10, 6))  # ערכים בין 0 ל-1

    df = pd.DataFrame(tfidf_values, index=doc_ids, columns=vocab)
    return df, vocab, doc_ids


def build_query_vector_tfidf(vocab, terms_in_query):
    """
    בונה וקטור TF-IDF פשוט לשאילתא:
    1 עבור terms שבשאילתא, 0 לאחרים.
    """
    q_vec = np.zeros(len(vocab), dtype=float)
    for t in terms_in_query:
        if t in vocab:
            q_vec[vocab.index(t)] = 1.0
    return q_vec


def run_option3():
    print("=== אפשרות 3: Cosine Similarity על TF-IDF ===\n")

    tfidf_df, vocab, doc_ids = build_tfidf_matrix_option3()

    print(">> טבלת קלט – ציוני TF-IDF לכל מסמך ולכל term:")
    print(tfidf_df, "\n")

    # שאילתא – 3–4 terms מתוך ה-vocabulary
    query_terms = ["term1", "term3", "term5"]
    print(">> שאילתא (terms):", query_terms)

    q_vec = build_query_vector_tfidf(vocab, query_terms)

    # חישוב cosine similarity
    doc_vecs = tfidf_df.values
    doc_norms = np.linalg.norm(doc_vecs, axis=1)
    q_norm = np.linalg.norm(q_vec)

    eps = 1e-10
    cosine_scores = (doc_vecs @ q_vec) / ((doc_norms + eps) * (q_norm + eps))

    result_df = pd.DataFrame({
        "doc_id": tfidf_df.index,
        "cosine_score": cosine_scores
    }).sort_values(by="cosine_score", ascending=False).reset_index(drop=True)

    print("\n>> טבלת פלט – ציון לכל מסמך (cosine similarity) ומיון מהגבוה לנמוך:")
    print(result_df, "\n")


if __name__ == "__main__":
    run_option3()


=== אפשרות 3: Cosine Similarity על TF-IDF ===

>> טבלת קלט – ציוני TF-IDF לכל מסמך ולכל term:
          term1     term2     term3     term4     term5     term6
doc1   0.682352  0.053821  0.220360  0.184372  0.175906  0.812095
doc2   0.923345  0.276574  0.819755  0.889893  0.512970  0.244965
doc3   0.824242  0.213763  0.741467  0.629940  0.927407  0.231908
doc4   0.799125  0.518165  0.231556  0.165904  0.497789  0.582725
doc5   0.184338  0.014895  0.471133  0.728243  0.918600  0.625534
doc6   0.917123  0.864690  0.218143  0.866127  0.730752  0.277865
doc7   0.797044  0.865222  0.299438  0.527042  0.071487  0.583238
doc8   0.237906  0.764964  0.173632  0.312742  0.014474  0.032552
doc9   0.496702  0.468313  0.127690  0.257563  0.003181  0.381068
doc10  0.575873  0.427299  0.835102  0.616491  0.266084  0.811022 

>> שאילתא (terms): ['term1', 'term3', 'term5']

>> טבלת פלט – ציון לכל מסמך (cosine similarity) ומיון מהגבוה לנמוך:
  doc_id  cosine_score
0   doc3      0.895173
1   doc2      0.