# Une compagnie chaleureuse

En vous reposant sur les répliques du tout premier épisode de la série *Kaamelott*, vous apprendrez à travers cet exercice à mieux vous servir du transformateur `CountVectorizer`.

## Préparation des outils et du corpus à analyser

Commencez par charger le transformateur en mémoire :

In [None]:
# your code here

from sklearn.feature_extraction.text import CountVectorizer

Puis le corpus :

In [None]:
import pickle

with open('../data/cues-in-heat.pickle', 'rb') as handle:
    corpus = pickle.load(handle)

Le corpus est constitué d’une liste des répliques. Chaque réplique, qu’elle soit composée d’une ou deux plusieurs phrases, est par conséquent considérée comme un document :

In [None]:
for n, cue in enumerate(corpus[:3]):
    print(f"Réplique { n } : { cue }")

## Comprendre les étapes de la vectorisation

### Concevoir la matrice des occurrences

Créez une nouvelle instance de la classe `CountVectorizer` dans une variable `vectorizer` :

In [None]:
# your code here

vectorizer = CountVectorizer()

Puis ajustez votre transformateur sur le corpus avant de l’exécuter, le tout avec la méthode `.fit_transform()` :

In [None]:
# your code here

X = vectorizer.fit_transform(corpus)

### Comprendre la génération du vocabulaire

Lorsque vous ne fournissez aucun vocabulaire au constructeur, il appelle un analyseur qui retient les mots de deux lettres minimum. La méthode `.get_feature_names_out()` révèle les attributs conservés :

In [None]:
# your code here

vectorizer.get_feature_names_out()

Une autre manière d’afficher le vocabulaire serait de passer par l’attribut spécial `.vocabulary_` qui expose un dictionnaire avec les mots retenus comme clés et leurs indices comme valeurs :

In [None]:
# your code here

vectorizer.vocabulary_

La sortie étant de type `dict`, il est permis d’utiliser les méthodes liées aux dictionnaires pour manipuler le vocabulaire :

In [None]:
# index of the word 'lièvre'
vectorizer.vocabulary_.get('lièvre')

**Remarque :** une fois le transformateur ajusté sur le corpus, les mots inconnus n’auront aucun effet lors de tout appel ultérieur à une quelconque transformation :

In [None]:
vectorizer.transform(["The french word for 'hare' is 'lièvre'"]).toarray()

### Analyser explicitement un document

L’étape de tokenisation est totalement transparente. Si vous avez besoin de la révéler, vous pouvez utiliser une méthode `.build_analyzer()` :

In [None]:
analyze = vectorizer.build_analyzer()
analyze("Vous ne manquez pas de souffle !")

### Manipuler la matrice

Vérifiez le bon résultat de la transformation avec la méthode `.toarray()` :

In [None]:
# your code here

X.toarray()

En interrogeant l’attribut `.shape`, vérifiez maintenant que vous disposez bien d’une matrice $(52, 278)$, signifiant que votre vocabulaire est composé de 278 mots et que votre corpus contient 52 documents (les répliques) :

In [None]:
# your code here

X.shape

Comme la matrice des occurrences représente la fréquence brute de chaque mot du vocabulaire dans les répliques de l’épisode, vous pouvez rapidement retrouver où le mot *lièvre*, situé à l’indice 142, est utilisé en la transposant :

In [None]:
print(X.T[142])

Au besoin, vérifiez directement dans le corpus :

In [None]:
print(corpus[0], corpus[2], corpus[5], sep="\n")

## Vectoriser des $n$-grammes

L’une des fonctionnalités les plus intéressantes de la classe `CountVectorizer` est de pouvoir ajouter au vocabulaire des associations de mots comme, par exemple, des bigrammes :

In [None]:
bigram_vectorizer = CountVectorizer(ngram_range=(1, 2))
X_2 = bigram_vectorizer.fit_transform(corpus)

X_2.shape

Pour se limiter aux 2-grammes sans inclure les 1-grammes, il convient de jouer avec la borne inférieure du paramètre `ngram_range` :

In [None]:
bigram_vectorizer = CountVectorizer(ngram_range=(2, 2))
X_2 = bigram_vectorizer.fit_transform(corpus)

X_2.shape

En combinant avec un autre paramètre, `min_df`, on peut se contenter de n’inclure que des $n$-grammes qui répondent à un critère de fréquence :

In [None]:
bigram_vectorizer = CountVectorizer(
    ngram_range=(2, 2),
    min_df=3
)

X_2 = bigram_vectorizer.fit_transform(corpus)

print(bigram_vectorizer.vocabulary_)