# Clustering et word2vec

Sur la base des éléments méthodologiques et des enseignements techniques présentés lors du cours théorique, il est demandé dans le cadre de ce TP :
- d’effectuer un clustering des bulletins pour une décennie au choix et d’interpréter les résultats
- d’entraîner un modèle word2vec sur l’ensemble des bulletins et d’explorer les relations entre vecteurs

Pour ce faire, vous utiliserez différentes librairies Python vues au cours comme scikit-learn et gensim.

## 1. Clustering

## 2. Word2Vec

#### Librairies nécessaires

In [1]:
import sys

from gensim.models.phrases import Phrases, Phraser
from gensim.models import Word2Vec

import nltk
from nltk.tokenize import wordpunct_tokenize
from unidecode import unidecode

# stopwords
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

#### Fichier à nettoyer

In [2]:
infile = f"../data/sents_2.txt"

#### Chargement des phrases

In [3]:
class MySentences(object):
    """Tokenize and Lemmatize sentences"""
    def __init__(self, filename):
        self.filename = filename

    def __iter__(self):
        for line in open(self.filename, encoding='utf-8', errors="backslashreplace"):
            yield [unidecode(w.lower()) for w in wordpunct_tokenize(line)]

In [4]:
sentences = MySentences(infile)

#### Création des bigrammes

In [5]:
bigram_phrases = Phrases(sentences)

In [6]:
len(bigram_phrases.vocab.keys())

5978799

In [7]:
# exploration des bigrammes

key_ = list(bigram_phrases.vocab.keys())[145]
print(key_)

maladie


In [8]:
# score de la clé

bigram_phrases.vocab[key_]

2929

In [9]:
print(list(bigram_phrases.vocab.keys())[:100])

['v', 'i', 'v_i', 'l', 'i_l', 'l_l', 'e', 'l_e', 'de', 'e_de', 'bruxelles', 'de_bruxelles', 'bulletin', 'bruxelles_bulletin', 'ires', 'bulletin_ires', '8eanas', 'ires_8eanas', 'dl', '8eanas_dl', '!', 'dl_!', 'conseil', 'communal', 'conseil_communal', 'annee', 'communal_annee', '1847', 'annee_1847', '.', '1847_.', 'au', 'ville', 'au_ville', 'ville_de', 'b', 'de_b', 'r', 'b_r', 'u', 'r_u', 'x', 'u_x', 'x_e', 'e_l', 's', 'e_s', 's_.', 'bulletin_conseil', 'aes', 'conseil_aes', 'seances', 'aes_seances', 'seances_communal', 'communal_.', ',', 'bruxelles_,', 'imprimerie', ',_imprimerie', 'd', 'imprimerie_d', 'd_e', 'j', 'e_j', 'j_.', 'h', 'h_.', '._b', 'r_i', 'a', 'i_a', 'a_r', 'r_d', 'd_,', 'rite', ',_rite', 'n', 'rite_n', 'n_e', 'e_u', 'u_v', 'v_e', 'e_,', '3', ',_3', '1', '3_1', '1_,', 'faubourg', ',_faubourg', 'faubourg_de', 'de_n', 'n_a', 'm', 'a_m', 'm_u', 'u_r', 'r_,', ',_1', '84']


In [10]:
%time bigram_phrases[sentences]

CPU times: user 1.89 ms, sys: 10 µs, total: 1.9 ms
Wall time: 4.9 ms


<gensim.interfaces.TransformedCorpus at 0x7f53085b7670>

In [11]:
bigram_phraser = Phraser(phrases_model=bigram_phrases)

In [12]:
%time bigram_phraser[sentences]

CPU times: user 3.05 ms, sys: 16 µs, total: 3.06 ms
Wall time: 7.13 ms


<gensim.interfaces.TransformedCorpus at 0x7f53085cf850>

In [13]:
corpus = list(bigram_phraser[sentences])

KeyboardInterrupt: 

In [None]:
print(corpus[:10])

In [None]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=5, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=2 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

In [None]:
outfile = f"../data/bulletins_tp3_1.model"
model.save(outfile)

In [None]:
model = Word2Vec.load("../data/bulletins_tp3_1.model")

In [None]:
model.wv["bruxelles"]

In [None]:
model.wv["boucher"]

In [None]:
model.wv.similarity("boucher", "boulanger")

In [None]:
model.wv.most_similar("bruxelles", topn=10)

In [None]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

In [None]:
print(model.wv.most_similar(positive=['homme', 'roi'], negative=['femme']))

In [None]:
print(model.wv.most_similar(positive=['homme', 'bourgmestre'], negative=['femme']))

In [None]:
print(model.wv.most_similar(positive=['bourgmestre', 'bruxelles'], negative=['echevin']))

In [None]:
print(model.wv.most_similar(positive=['bruxelles', 'paris'], negative=['belgique']))

In [None]:
print(model.wv.most_similar(positive=['homme', 'fidelite'], negative=['femme']))

In [None]:
print(model.wv.most_similar(positive=['femme', 'fidelite'], negative=['homme']))

In [None]:
print(model.wv.most_similar(positive=['femme', 'homme'], negative=['fidelite']))