# Algorithme TF-IDF

Dans ce notebook, nous allons :

- construire un vocabulaire à partir d'un petit ensemble de documents en utilisant le modèle "Bag-of-Words" (BoW).
- calculer la fréquence de terme (TF) pour chaque mot dans chaque document.
- calculer la fréquence inverse des documents (IDF) pour chaque mot dans l'ensemble des documents.
- combiner TF et IDF pour obtenir le score TF-IDF pour chaque mot dans chaque document.

L'objectif est de bien comprendre le fonctionnement de TF-IDF. 

Pour cela, <span style="background-color: yellow;">vous devez implémenter les `# TODO`s dans le code, afin de passer les "tests" (`assert`)</span>

Nous reprenons les 3 documents des slides. <span style="background-color: yellow;">**Vous devriez obtenir les mêmes résultats que dans les slides.**</span>



## Documents



In [None]:
import math

documents = [
    "It is a dog.",
    "my cat is old",
    "It is not a dog, it a is wolf."
]

## Prétraitement (preprocessing / cleanup)

In [None]:
def preprocess(txt:str) -> [str]:
    '''
    Convertir en minuscules et supprimer la ponctuation (points et virgules); séparer aux espaces
    '''
    return txt # TODO

# "tests" à passer
assert preprocess("Hello, world.") == ['hello',  'world']
assert preprocess("It is a dog.") == ['it',  'is',  'a', 'dog']

## Création du vocabulaire

In [None]:
cleaned_docs = []
vocabulary = set()

for doc in documents:
    words = # TODO
    
    # Ajouter les mots au vocabulaire
    vocabulary.update(words)
    cleaned_docs.append(words)

# Trier le vocabulaire alphabétiquement
vocabulary = sorted(list(vocabulary))

print(f"Vocabulaire :\n {vocabulary}")

In [None]:
assert vocabulary == ['a', 'cat', 'dog', 'is', 'it', 'my', 'not', 'old', 'wolf']

assert cleaned_docs[0], ['it', 'is', 'a', 'dog']
assert cleaned_docs[1], ['my', 'cat', 'is', 'old']
assert cleaned_docs[2], ['it', 'is', 'not', 'a', 'dog', 'it', 'is', 'a', 'wolf']

## Calcul de la matrice de fréquence des termes (Term Frequency - TF)

In [None]:
# matrice de fréquence des termes, correspond à la slide "Term Frequency (TF)"
term_frequencies = []  # contient 3 éléments qui correspondent aux 3 documents

for i, doc_words in enumerate(cleaned_docs):
    print(f'\nDoc {i} =====================')
    # dict qui stocke le nombre d'occurrences de chaque mot, pour ce document
    word_counts = {}
    for word in doc_words:
        word_counts[word] = # TODO
    print(f'word_counts: {word_counts}')
    
    # calculer TF pour chaque mot du vocabulaire
    doc_tf = []
    for word in vocabulary:
        # calculer la fréquence (nombre d'occurrences / nombre total de mots)
        tf = # TODO
        doc_tf.append(round(tf, 3))

    print(f'doc_tf: {doc_tf}')
    term_frequencies.append(doc_tf)

In [None]:
assert term_frequencies[0] == [0.25, 0.0, 0.25, 0.25, 0.25, 0.0, 0.0, 0.0, 0.0]
assert term_frequencies[1] == [0.0, 0.25, 0.0, 0.25, 0.0, 0.25, 0.0, 0.25, 0.0]
assert term_frequencies[2] == [0.222, 0.0, 0.111, 0.222, 0.222, 0.0, 0.111, 0.0, 0.111]

## Calcul de l'inverse de la fréquence des documents (Inverse Document Frequency - IDF)

In [None]:
# nombre total de documents
total_docs = # TODO

# calculer l'IDF pour chaque mot
idf_values = []
for word in vocabulary:
    # compter dans combien de documents le mot apparaît
    docs_with_word = # TODO
    
    # calcul de l'IDF
    idf = math.log10(# TODO)
    
    print(f'"{word}"\t occurs {docs_with_word} times --> idf = {idf}')
    idf_values.append(round(idf, 3))

In [None]:
assert idf_values[0] == 0.176 # idf pour 'a'
assert idf_values[1] == 0.477 # idf pour 'cat'
assert idf_values[2] == 0.176 # idf pour 'dog'
assert idf_values[3] == 0.0   # idf pour 'is'
assert idf_values[4] == 0.176 # idf pour 'it'
assert idf_values[5] == 0.477 # idf pour 'my'
assert idf_values[6] == 0.477 # idf pour 'not'
assert idf_values[7] == 0.477 # idf pour 'old'
assert idf_values[8] == 0.477 # idf pour 'wolf'

# Calcul de TF-IDF

In [None]:
# matrice de fréquence des termes, correspond à la slide "Term Freq.-Inverse Doc. Freq (TF-IDF)"
tfidf_scores = []  # contient 3 éléments qui correspondent aux 3 documents

for doc_tf in term_frequencies:
    # calculer TF-IDF pour chaque mot du document
    doc_tfidf = [TODO for tf, idf in zip(doc_tf, idf_values)]
    tfidf_scores.append(doc_tfidf)

print("\nScores TF-IDF :")
for i, doc_tfidf in enumerate(tfidf_scores, 1):
    print(f"doc {i}: {doc_tfidf}")

In [None]:
assert tfidf_scores[0] == [0.044, 0.0, 0.044, 0.0, 0.044, 0.0, 0.0, 0.0, 0.0]
assert tfidf_scores[1] == [0.0, 0.119, 0.0, 0.0, 0.0, 0.119, 0.0, 0.119, 0.0]
assert tfidf_scores[2] == [0.039, 0.0, 0.02, 0.0, 0.039, 0.0, 0.053, 0.0, 0.053]

# Recherche et classement des documents

Correspond aux slides "Scoring and Ranking a query (using TF-IDF)"

In [None]:
def search_documents(query):
    """
    Rechercher et classer les documents en fonction de la requête.
    """
    cleaned_query = preprocess(query)  # important de réutiliser le même preprocessing qu'à l'indexation
    print(f"cleaned_query: {cleaned_query}\n")
    
    doc_scores = []

    for j, doc_tfidf in enumerate(tfidf_scores):
        # doc_tfidf represents the tf-idf scores for this document
        print(f'tfidf scores pour document {j}: {doc_tfidf}')

        doc_score = 0
        for i, word in enumerate(vocabulary):
            word_tf = # TODO
            word_score = # TODO
            print(f"{word} contributes for {word_score}")
            doc_score += word_score
        print(f'doc_score: {doc_score}\n')
        doc_scores.append(doc_score)
    
    # trier et afficher les scores
    ranked_docs = sorted(enumerate(doc_scores, 1), key=lambda x: x[1], reverse=True)
    for rank, (doc_index, score) in enumerate(ranked_docs, 1):
        print(f"Rang {rank}: doc {doc_index} (score: {score})")

    return ranked_docs


ranking = search_documents("cat is wolf")
assert ranking == [(2, 0.119), (3, 0.053), (1, 0.0)]  # correspond aux slides "Scoring and Ranking a query (using TF-IDF)

In [None]:
ranking = search_documents("a cat is not a wolf")
assert ranking == [(3, 0.184), (2, 0.119), (1, 0.088)]  # correspond aux slides "Scoring and Ranking a query (using TF-IDF)