# Clustering de documents

## Imports

In [7]:
import collections
import os
import string
import sys
import nltk

import pandas as pd
from nltk import word_tokenize
from nltk.corpus import stopwords
from pprint import pprint
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cosine
from timeout_decorator import timeout, TimeoutError
from threading import Timer
from nltk.tokenize import sent_tokenize
from gensim.models.phrases import Phrases, Phraser
from gensim.models import Word2Vec
from nltk.tokenize import wordpunct_tokenize
from unidecode import unidecode

In [None]:
import nltk

nltk.download('punkt')

In [None]:
data_path = "../data/txt/"

## Choisir une décennie

In [None]:
DECADE = '1890'

## Charger tous les  fichiers de la décennie et en créer une liste de textes

In [None]:
files = [f for f in sorted(os.listdir(data_path)) if f"_{DECADE[:-1]}" in f]

In [None]:
texts = [open(data_path + f, "r", encoding="utf-8").read() for f in files]

## Vectoriser les documents à l'aide de TF-IDF

In [None]:
# Création d'une fonction de pré-traitement
def preprocessing(text, stem=True):
    """ Tokenize text and remove punctuation """
    text = text.translate(string.punctuation)
    tokens = word_tokenize(text)
    return tokens

### Instancier le modèle TF-IDF avec ses arguments

In [None]:
vectorizer = TfidfVectorizer(
    tokenizer=preprocessing,
    stop_words=stopwords.words('french'),
    max_df=0.5,
    min_df=0.1,
    lowercase=True)

### Construire la matrice de vecteurs à l'aide de la fonction `fit_transform`

In [None]:
tfidf_vectors = vectorizer.fit_transform(texts)

In [None]:
# Détail de la matrice
tfidf_vectors

### Imprimer le vecteur tf-IDF du premier document

In [None]:
pd.Series(
    tfidf_vectors[0].toarray()[0],
    index=vectorizer.get_feature_names_out()
    ).sort_values(ascending=False)

## Comprendre les vecteurs et leurs "distances"

In [None]:
cosine([1, 2, 3], [1, 2, 3])

In [None]:
cosine([1, 2, 3], [1, 2, 2])

In [None]:
cosine([1, 2, 3], [2, 2, 2])

### Tests sur nos documents

In [None]:
tfidf_array = tfidf_vectors.toarray()

In [None]:
# Vecteur du document 0
tfidf_array[0]

In [None]:
# Vecteur du document 1
tfidf_array[1]

In [None]:
cosine(tfidf_array[0], tfidf_array[1])

## Appliquer un algorithme de clustering sur les vecteurs TF-IDF des documents

Pour en savoir plus sur le KMeans clustering :
- https://medium.com/dataseries/k-means-clustering-explained-visually-in-5-minutes-b900cc69d175

### Définir un nombre de clusters

In [None]:
N_CLUSTERS = 3
# définir le nombre de clusters

### Instancier le modèle K-Means et ses arguments

In [None]:
km_model = KMeans(n_clusters=N_CLUSTERS)

### Appliquer le clustering à l'aide de la fonction `fit_predict`

In [None]:
clusters = km_model.fit_predict(tfidf_vectors)

In [None]:
clustering = collections.defaultdict(list)

for idx, label in enumerate(clusters):
    clustering[label].append(files[idx])

In [None]:
pprint(dict(clustering))

In [None]:
# Lecture du  contenu des clusters avec une limite de temps
def read_file_content(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        return f.read()

# gestion  du  délai d'exécution
def timeout_handler():
    raise TimeoutError("Function execution timed out")

# Exploration des données brutes de chaque cluster
for cluster_label, files_in_cluster in clustering.items():
    print(f"Cluster {cluster_label} - Raw Data:")
    #pprint(files_in_cluster)
    print("\n")

    # Stocke du contenu de ces fichiers dans une liste
    content_list = []
    for txt in files_in_cluster:
        timer = Timer(5, timeout_handler)  # Définissez le délai en secondes
        try:
            timer.start()
            content = read_file_content(os.path.join(data_path, txt))
            content_list.append(content)
        except TimeoutError:
            print(f"Reading {txt} took too long. Skipping.")
            continue
        finally:
            timer.cancel()

    # Afficher le contenu de chaque texte dans le cluster
    for idx, text in enumerate(content_list):
        print(f"Text {idx + 1} in Cluster {cluster_label}:")
        print(text)
        print("\n")

## Visualiser les clusters

### Réduire les vecteurs à 2 dimensions à l'aide de l'algorithme PCA
Cette étape est nécessaire afin de visualiser les documents dans un espace 2D

https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales

In [None]:
pca = PCA(n_components=2)
reduced_vectors = pca.fit_transform(tfidf_vectors.toarray())

In [None]:
reduced_vectors[:10]

### Générer le plot

In [None]:
x_axis = reduced_vectors[:, 0]
y_axis = reduced_vectors[:, 1]

plt.figure(figsize=(10,10))
scatter = plt.scatter(x_axis, y_axis, s=100, c=clusters)

# Ajouter les centroïdes
centroids = pca.transform(km_model.cluster_centers_)
plt.scatter(centroids[:, 0], centroids[:, 1],  marker = "x", s=100, linewidths = 2, color='black')

# Ajouter la légende
plt.legend(handles=scatter.legend_elements()[0], labels=set(clusters), title="Clusters")

## Fichiers d'inputs et d'outputs

In [3]:
infile = "../data/all.txt"
outfile = "../data/sents.txt"

**Important** : pour traiter le corpus complet, indiquez `LIMIT = None`

In [4]:
LIMIT = 1000000

In [8]:
with open(outfile, 'w', encoding="utf-8") as output:
    with open(infile, encoding="utf-8", errors="backslashreplace") as f:
        content = f.readlines()
        content = content[:LIMIT] if LIMIT is not None else content
        n_lines = len(content)
        for i, line in enumerate(content):
            if i % 100 == 0:
                print(f'processing line {i}/{n_lines}')
            sentences = sent_tokenize(line)
            for sent in sentences:
                output.write(sent + "\n")
print("Done")

processing line 0/7936
processing line 100/7936
processing line 200/7936
processing line 300/7936
processing line 400/7936
processing line 500/7936
processing line 600/7936
processing line 700/7936
processing line 800/7936
processing line 900/7936
processing line 1000/7936
processing line 1100/7936
processing line 1200/7936
processing line 1300/7936
processing line 1400/7936
processing line 1500/7936
processing line 1600/7936
processing line 1700/7936
processing line 1800/7936
processing line 1900/7936
processing line 2000/7936
processing line 2100/7936
processing line 2200/7936
processing line 2300/7936
processing line 2400/7936
processing line 2500/7936
processing line 2600/7936
processing line 2700/7936
processing line 2800/7936
processing line 2900/7936
processing line 3000/7936
processing line 3100/7936
processing line 3200/7936
processing line 3300/7936
processing line 3400/7936
processing line 3500/7936
processing line 3600/7936
processing line 3700/7936
processing line 3800/793

## Chargement et traitement des phrases du corpus

### Création d'un objet qui *streame* les lignes d'un fichier pour économiser de la RAM

In [6]:
class MySentences(object):
    """Tokenize and Lemmatize sentences"""
    def __init__(self, filename):
        self.filename = filename

    def __iter__(self):
        for line in open(self.filename, encoding='utf-8', errors="backslashreplace"):
            yield [unidecode(w.lower()) for w in wordpunct_tokenize(line)]

In [None]:
infile = f"../data/sents.txt"
sentences = MySentences(infile)

### Détection des bigrams

Article intéressant sur le sujet : https://towardsdatascience.com/word2vec-for-phrases-learning-embeddings-for-more-than-one-word-727b6cf723cf

In [None]:
bigram_phrases = Phrases(sentences)

L'object `phrases` peut être vu comme un large dictionnaire d'expressions multi-mots associées à un score, le *PMI-like scoring*. Ce dictionnaire est construit par un apprentissage sur base d'exemples.
Voir les références ci-dessous :
- https://arxiv.org/abs/1310.4546
- https://en.wikipedia.org/wiki/Pointwise_mutual_information

In [None]:
type(bigram_phrases.vocab)

Il contient de nombreuses clés qui sont autant de termes observés dans le corpus

In [None]:
len(bigram_phrases.vocab.keys())

Prenons une clé au hasard :

In [None]:
key_ = list(bigram_phrases.vocab.keys())[144]
print(key_)

Le dictionnaire indique le score de cette coocurrence :

In [None]:
bigram_phrases.vocab[key_]

Lorsque l'instance de `Phrases` a été entraînée, elle peut concaténer les bigrams dans les phrases lorsque c'est pertinent.

### Conversion des `Phrases` en objet `Phraser`

`Phraser` est un alias pour `gensim.models.phrases.FrozenPhrases`, voir ici https://radimrehurek.com/gensim/models/phrases.html.

Le `Phraser` est une version *light* du `Phrases`, plus optimale pour transformer les phrases en concaténant les bigrams.

In [None]:
bigram_phraser = Phraser(phrases_model=bigram_phrases)

Le `Phraser` est un objet qui convertit certains unigrams d'une liste en bigrams lorsqu'ils ont été identifiés comme pertinents.

### Extraction des trigrams

Nous répétons l'opération en envoyant cette fois la liste de bigrams afin d'extraire les trigrams.

In [None]:
trigram_phrases = Phrases(bigram_phraser[sentences])

In [None]:

trigram_phraser = Phraser(phrases_model=trigram_phrases)

### Création d'un corpus d'unigrams, bigrams, trigrams

In [None]:
corpus = list(trigram_phraser[bigram_phraser[sentences]])

In [None]:
print(corpus[:100])

## Entrainement d'un modèle Word2Vec sur ce corpus

In [None]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=52, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=4, # La taille du "contexte", ici 7 mots avant et après le mot observé
    min_count=4, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descente de gradient, aka. epochs.
)

#### Remarque

Vous voyez ici que l'entrainement du modèle est parallélisé (sur 4 workers).

Lors qu'on parallélise l'entrainement du modèle, 4 modèles "séparés" sont entrainés sur environ un quart des phrases.

Ensuite, les résultats sont agrégés pour ne plus faire qu'un seul modèle.

On ne peut prédire quel worker aura quelle phrase, car il y a des aléas lors de la parallélisation (p. ex. un worker qui serait plus lent, etc.).

Du coup, les valeurs peuvent varier légèrement d'un entrainement à l'autre.

Mais, globalement, les résultats restent cohérents.

### Sauver le modèle dans un fichier

In [None]:
outfile = f"../data/newspapers.model"
model.save(outfile)

## Explorer le modèle

### Charger le modèle en mémoire

In [None]:
model = Word2Vec.load("../data/newspapers.model")

### Imprimer le vecteur d'un terme

In [None]:
model.wv["joie"]

### Calculer la similarité entre deux termes

In [None]:
model.wv.similarity("chat", "souris")

In [None]:
model.wv.similarity("chat", "souris")

In [None]:
model.wv.similarity("cafe", "croissant")

In [None]:
model.wv.similarity("paris", "londres")

### Chercher les mots les plus proches d'un terme donné

In [None]:
model.wv.most_similar("nation", topn=15)

In [None]:
model.wv.most_similar("art" , topn=15)

In [None]:
model.wv.most_similar("femme", topn=10)

### Faire des recherches complexes à travers l'espace vectoriel

In [None]:
print(model.wv.most_similar(positive=['paris', 'londres'], negative=['belgique']))


# on entraine notre modèle avec de nouvelles paramètre en mettant le 
##window=8
##min_count=9

In [None]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=8, # La taille du "contexte", ici 7 mots avant et après le mot observé
    min_count=9, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descente de gradient, aka. epochs.
)

In [None]:
model.wv["joie"]

In [None]:
model.wv.similarity("chat", "souris")

In [None]:
model.wv.similarity("cafe", "croissant")

In [None]:
model.wv.similarity("paris", "londres")

In [None]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=10, # La taille du "contexte", ici 7 mots avant et après le mot observé
    min_count=15, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descente de gradient, aka. epochs.
)

## on entraine encore le modèle avec comme la taille de window=10 et le min_count=15

In [None]:
model.wv["joie"]

In [None]:
model.wv.similarity("chat", "souris")

In [None]:
model.wv.similarity("cafe", "croissant")

In [None]:
model.wv.similarity("paris", "londres")

### Chercher les mots les plus proches d'un terme donné avec les nouvelles données de window et mint_count

In [None]:
model.wv.most_similar("nation", topn=15)

In [None]:
model.wv.most_similar("art" , topn=15)

In [None]:
model.wv.most_similar("femme", topn=10)