# Interruption du fou

La dernière fois que vous avez vu ces textes de Nietzsche, vous les avez quittés avec une matrice d’occurrences sans ne rien en faire de plus. Il est temps de la transformer en une matrice termes-documents pondérée par l’algorithme TF-IDF.

Exécutez ci-dessous le code afin de créer une matrice des occurrences :

In [None]:
import numpy as np
import pandas as pd
from collections import Counter
from nltk.tokenize import RegexpTokenizer

# a corpus of documents
corpus = [
    "Tous les hommes qui sentent qu’il leur faut les paroles et les intonations les plus violentes, les attitudes et les gestes les plus éloquents pour pouvoir agir, les politiciens révolutionnaires, les socialistes, les prédicateurs, avec ou sans christianisme, tous ceux qui veulent éviter les demi-succès : tous ceux-là parlent de devoirs, et toujours de devoirs qui ont un caractère absolu - autrement ils n’auraient point droit à leur pathos démesuré : ils le savent fort bien.",
    "Il faut connaître non seulement la marche hardie, légère, délicate et rapide de ses propres pensées, mais avant tout la disposition aux grandes responsabilités, la hauteur et la profondeur du regard impérieux, le sentiment d’être séparé de la foule, des devoirs et des vertus de la foule, la protection et la défense bienveillante de ce qui est mal compris et calomnié, que ce soit Dieu ou le diable ; le penchant et l’habileté à la suprême justice, l’art du commandement, l’ampleur de la volonté, la lenteur du regard qui rarement admire, rarement se lève, et aime rarement…",
    "Je vous le dis : il faut encore porter en soi un chaos, pour pouvoir mettre au monde une étoile dansante. Je vous le dis : vous portez encore un chaos en vous."
]

# configure a tokenizer
tokenizer = RegexpTokenizer('\w+')

# tokenization
doc_tokens = [
    [
        token.lower()
        for token in tokenizer.tokenize(doc)
    ]
    for doc in corpus
]

doc_occurrences = [
    Counter(tokens)
    for tokens in doc_tokens
]

# tokens are the word-forms and
# vocabulary is an ordered list of unique tokens
vocabulary = sorted(set([
    token
    for doc in doc_tokens
    for token in doc
]))

# a null matrix
matrix = np.zeros((len(doc_tokens), len(vocabulary)))

# fill the matrix
for i, occurrences in enumerate(doc_occurrences):
    for j, word in enumerate(vocabulary):
        matrix[i, j] = occurrences[word]

df = pd.DataFrame(matrix, columns=vocabulary)

display(df)

## Une mesure TF-IDF à la main

Pour les besoins de l’exercice, vous ne vous concentrerez que sur le terme *devoirs* :

In [None]:
display(df.devoirs)

### La fréquence du terme

La formule qui permet de calculer $\text{TF}$ est la suivante :

$$
\text{TF}(t, d) = \frac{t}{d}
$$

Sachant que $t$ est le nombre d’occurrences du token dans un document et $d$ le nombre total de tokens du vocabulaire, quelle est la mesure TF de *devoirs* dans le corpus ?

Avant de calculer, vous avez besoin de connaître les informations suivantes :

In [None]:
n_tokens = matrix.sum(axis=1)
idx_devoirs = df.columns.get_loc('devoirs')
n_occ_devoirs = matrix[:, 29]

print(
    "Nombre de tokens dans chaque texte :",
    f"A : {n_tokens[0]}",
    f"B : {n_tokens[1]}",
    f"C : {n_tokens[2]}",
    "=" * 30,
    "Nombre d’apparitions du terme 'devoirs' par texte :",
    f"A : {n_occ_devoirs[0]}",
    f"B : {n_occ_devoirs[1]}",
    f"C : {n_occ_devoirs[2]}",
    sep="\n"
)

**Réponse :**

### La fréquence inverse de document

La mesure IDF est régie par la formule ci-dessous dans sa variante non lissée :

$$
\text{IDF}(t) = \ln{\frac{N}{\text{df}(t)}}
$$

Sachant que $N$ est le nombre total de documents (3) dans le corpus et $\text{df}(t)$ le nombre de documents où le terme *devoirs* apparaît (2), quel est son IDF ?

**Réponse :**

### Calcul du TF-IDF

Il reste maintenant à appliquer la formule pour chaque document du corpus :

$$
\text{TF-IDF}(t, d) = \text{TF} \cdot \text{IDF}
$$

**Réponse :**

Des scores négatifs signifient que le mot est sur-représenté dans les documents, mais notre interprétation doit être soumise à caution car le corpus est extrêmement restreint.

## Pondération de la matrice d’occurrences

Vous pouvez mettre à profit les structures de *Numpy* pour calculer la pondération TF-IDF directement. Commencez par calculer le nombre de documents dans une variable `N` grâce à la propriété `.shape` :

In [None]:
# your code here

Divisez ensuite l’objet `matrix` par le nombre des termes dans chaque document. Vous pouvez obtenir ce résultat en utilisant la méthode `.sum()` avec le paramètre `axis=1`. Pensez à rajouter le paramètre `keepdims=True` afin de vous assurer que le résultat sera bien diffusé dans toute la matrice. Enregistrez le résultat dans un objet `tf` :

In [None]:
# your code here



# should print the TF score of token 'devoirs'
display(tf[:, idx_devoirs])

Constituez une autre matrice `df` pour le nombre de documents dans lesquels chaque terme apparaît :

In [None]:
# your code here



# should print '2'
display(df[idx_devoirs])

Calculez désormais dans un objet `idf` le coefficient IDF grâce à la méthode `.log()` :

In [None]:
# your code here



# should print the IDF of 'devoirs'
display(idf[idx_devoirs])

Enfin, calculez le TF-IDF dans une matrice `tfidf` :

In [None]:
# your code here



# should display the TF-IDF for 'devoirs'
display(tfidf_df.devoirs)