# Quelle chaleur !

Si vous avez toujours rêvé de vectoriser un épisode de la série *Kaamelott*, non seulement vous n’êtes pas très sain·e d’esprit mais en plus vous êtes au bon endroit. De la segmentation au calcul de similarités entre vecteurs en passant par la constitution d’un sac de mots (*bag of words*), vous mettrez en application quelques techniques essentielles en traitement du langage automatique.

## Le texte de l’épisode

Chargeons dans une variable `text` le contenu de l’épisode :

In [3]:
with open("../data/S01E01-heat.pos") as f:
    text = [ line.split('\t')[1] for line in f.readlines() ]
    text = "".join(text)

Chaque ligne correpond à une réplique de l’épisode avec, pour chaque mot, des annotations pour renseigner son étiquette grammaticale et son lemme :

```
La/DET/le femelle/NC/femelle lièvre/NC/lièvre ,/PONCT/, c'/CLS/ce est/V/être la/DET/le hase/NC/hase ./PONCT/.
```

## Préparation du sac de mots

### Segmentation du texte

Transformez le texte en un ensemble de tuples `(lemma, pos)` :

In [None]:
# your code here

**Remarque :** nous proposons comme structure de données un ensemble parce que dans l’encodage *one-hot* nous n’avons pas besoin de garder trace de la fréquence des mots.

### Épurer la liste de tokens

Plusieurs pistes communes pour réduire le volume du sac de mots :

- retirer les signes de ponctuation ;
- retirer les mots vides du français.

**Remarque :** les annotations n’ayant pas été corrigées, certaines données sont aberrantes. Pour l’exercice, vous retirerez également toutes les occurrences de la forme `-`.

In [None]:
# your code here

## Vectorisation de l’épisode

Avant toute chose, et pour des raisons d’efficacité, transformez la variable `tokens` en liste :

In [None]:
tokens = list(tokens)

### Conversion du sac de mots en classificateurs binaires

Pour la vectorisation, nous allons soumettre la liste des tuples à la méthode de l’encodage *one-hot* en mobilisant la classe `OneHotEncoder` de la librairie *Scikit-Learn* :

In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse_output=False)

Grâce à la méthode `.fit()`, nous ajustons ensuite notre encodeur avec les tokens :

In [None]:
_ = encoder.fit(tokens)

L’encodeur est prêt. Notez que la propriété spéciale `.categories_` permet de retrouver la liste des différents classificateurs de notre corpus :

In [None]:
encoder.categories_

Et pour utiliser l’encodeur, il suffit de lui envoyer une structure de données similaire à celle avec laquelle il a été entraîné, à savoir ici une liste de tuples :

In [None]:
encoder.transform(
    [ ('ailleurs', 'ADV') ]
)

**Remarque :** le paramètre `sparse_output` transmis au constructeur de la classe `OneHotEncoder` a permis l’affichage de cette matrice creuse.

### Un dictionnaire de vecteurs

À partir de la liste des `(lemma, pos)` constituez un dictionnaire de vecteurs, de telle manière que l’instruction `vectors[('ailleurs', 'ADV')]` renvoie la matrice obtenue plus haut :

In [None]:
# your code here

**Astuce :** pensez à la structure `defaultdict` à charger depuis le module `paquet`.

Vérifiez que la création de votre dictionnaire a fonctionné :

In [None]:
vectors[('ailleurs', 'ADV')]

## Similarité entre vecteurs binaires

Isolons trois vecteurs afin de les comparer :

In [None]:
chevreuil = vectors[('chevreuil', 'NC')]
animal = vectors[('animal', 'NC')]
creuser = vectors[('creuser', 'V')]

### L’indice de Jaccard

Étant en présence de vecteurs binaires, ou plus exactement de matrices de vecteurs binaires, l’indice Jaccard est tout indiqué pour calculer leur similarité :

In [None]:
from sklearn.metrics import jaccard_score

print(
    f'L’indice de Jaccard pour "chevreuil" et "animal" est de : {jaccard_score(chevreuil[0], animal[0]):.3f}',
    f'L’indice de Jaccard pour "chevreuil" et "creuser" est de : {jaccard_score(chevreuil[0], creuser[0]):.3f}',
    sep="\n"
)

### La similarité cosinus

On aurait pu également opter pour la similarité cosinus :

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

print(
    f'La similarité cosinus pour "chevreuil" et "animal" est de : {cosine_similarity(chevreuil, animal)}',
    f'La similarité cosinus pour "chevreuil" et "creuser" est de : {cosine_similarity(chevreuil, creuser)}',
    sep="\n"
)