#### Visualisation de la méthode de vectorisation utilisé dans le mémoire :

Nous utilisons la fonction `CountVectorizer` de `Sklearn`. 

In [6]:

from sklearn.feature_extraction.text import CountVectorizer


Nous allons appliquer la vectorisation sur un ensemble de 4 commentaires (les mêmes que dans l'article). Cette ensemble correspond à $\Omega$.

In [7]:
liste = ["I like this phone !", "It is good place, i like !", "  Good ! ! I really love this movie.","  I had a good time, I like this place" ]

In [8]:
print(liste)
print("L'ensemble est formé de ",len(liste) ," commentaires.")

['I like this phone !', 'It is good place, i like !', '  Good ! ! I really love this movie.', '  I had a good time, I like this place']
4



Dans un premier dans la machine crée le dictionnaire local $\mathscr{D}. C'est à dire répertorie tous les mots de l'ensemble. 
La fonction `CountVectorizer` supprime à ce moment là les mots vides c'est à dire les mots qui reviennent constamment dans le langage courant et donc inutile à la prise de décision.

Visualisons dans un premier dans le dictionnaire local.



In [18]:
vectorizer = CountVectorizer()
tf = vectorizer.fit_transform(liste)
print("Le dictionnaire local est" , sorted(vectorizer.vocabulary_))
print("Il est composé de ", len(sorted(vectorizer.vocabulary_)), "mots.")

Le dictionnaire local est ['good', 'had', 'is', 'it', 'like', 'love', 'movie', 'phone', 'place', 'really', 'this', 'time']
Il est composé de  12 mots.


La machine stocke les mots en utilisant des identifiants. Regardons les identifiants attribués aux mots du dictionnaire : 

In [16]:
vectorizer.vocabulary_

{'like': 4,
 'this': 10,
 'phone': 7,
 'it': 3,
 'is': 2,
 'good': 0,
 'place': 8,
 'really': 9,
 'love': 5,
 'movie': 6,
 'had': 1,
 'time': 11}

`CountVectorizer` va parcourir ce dictionnaire local, et pour chaque mot, il va compter combien de fois ce mot apparaît dans $\Omega$.\\

Une matrice de taille :$\; \#\Omega \times \#\mathscr{D}$ est créée afin d'enregistrer les résultats :  
La première colonne correspond au mot good (identifiant 0) et la dernière colonne correspond au mot "time" (identifiant 11).
La première ligne correspond à la première phrase de l'ensemble $\Omega$.

In [10]:
tf.toarray()

array([[0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0],
       [1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0],
       [1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0],
       [1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1]], dtype=int64)