# Clustering des documents 1960-1969

## Imports et initialisation du datapath

In [None]:
import collections
import os
import string
import sys

import pandas as pd
from nltk import word_tokenize
from nltk.corpus import stopwords
from pprint import pprint
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cosine

import nltk
nltk.download('punkt')

data_path = "../data/txt/"

## Chois de la décenie 1960

In [None]:
DECADE = '1960'

## Charger tous les  fichiers de la décennie et en créer une liste de textes

In [None]:
files = [f for f in sorted(os.listdir(data_path)) if f"_{DECADE[:-1]}" in f]

texts = [open(data_path + f, "r", encoding="utf-8").read() for f in files]



## Vectoriser les documents à l'aide de TF-IDF

In [None]:
# Création d'une fonction de pré-traitement
def preprocessing(text, stem=True):
    """ Tokenize text and remove punctuation """
    text = text.translate(string.punctuation)
    tokens = word_tokenize(text)
    return tokens

### Instancier le modèle TF-IDF avec ses arguments

In [None]:
vectorizer = TfidfVectorizer(
    tokenizer=preprocessing,
    stop_words=stopwords.words('french'),
    max_df=0.5,
    min_df=0.1,
    lowercase=True)

### Construire la matrice de vecteurs à l'aide de la fonction `fit_transform`

In [None]:
tfidf_vectors = vectorizer.fit_transform(texts)

# Détail de la matrice
tfidf_vectors

### Imprimer le vecteur tf-IDF du premier document

In [None]:
pd.Series(
    tfidf_vectors[0].toarray()[0],
    index=vectorizer.get_feature_names_out()
    ).sort_values(ascending=False)

## Appliquer un algorithme de clustering sur les vecteurs TF-IDF des documents

### Définir un nombre de clusters

In [None]:
N_CLUSTERS = 3

### Instancier le modèle K-Means et ses arguments


In [None]:
km_model = KMeans(n_clusters=N_CLUSTERS)

### Appliquer le clustering à l'aide de la fonction `fit_predict`

In [None]:
clusters = km_model.fit_predict(tfidf_vectors)

clustering = collections.defaultdict(list)

for idx, label in enumerate(clusters):
    clustering[label].append(files[idx])

pprint(dict(clustering))


## Visualiser les clusters

### Réduire les vecteurs à 2 dimensions à l'aide de l'algorithme PCA
Cette étape est nécessaire afin de visualiser les documents dans un espace 2D

https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales

In [None]:
pca = PCA(n_components=2)
reduced_vectors = pca.fit_transform(tfidf_vectors.toarray())

reduced_vectors[:20]

### Générer le plot

In [None]:
x_axis = reduced_vectors[:, 0]
y_axis = reduced_vectors[:, 1]

plt.figure(figsize=(10,10))
scatter = plt.scatter(x_axis, y_axis, s=100, c=clusters)

# Ajouter les centroïdes
centroids = pca.transform(km_model.cluster_centers_)
plt.scatter(centroids[:, 0], centroids[:, 1],  marker = "x", s=100, linewidths = 2, color='black')

# Ajouter la légende
plt.legend(handles=scatter.legend_elements()[0], labels=set(clusters), title="Clusters")

for label, texts in clustering.items():
    print(f"Cluster {label}:")
    print(texts)
    print()


## Récupération du wordcloud de cette décennie

### Imports et stopwords
j'ai rajouté des stopwords

In [None]:
from collections import Counter
from wordcloud import WordCloud
import os
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from IPython.display import Image

# Stopwords (Idem que dans s1)
sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout",
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu", "ville", "rossel", "dem"]
sw += ["où", "apparemment", "décidément", "déjà", "alors", "toutes", "leurs", "avant", "celui", "toute", "elles",
       "dés", "très", "peu", "rue", "brux"]

sw = set(sw)

### Ecriture de tous les contenus de chaque clusters dans un fichier par cluster

In [None]:
# Ecrire tout le contenu dans un fichier temporaire
temp_path = '../data/tmp'
if not os.path.exists(temp_path):
    os.mkdir(temp_path)
for label, texts in clustering.items():
    with open(os.path.join(temp_path, f'{label}.txt'), 'w', encoding='utf-8') as f:
        content_list = [open(data_path + f, "r", encoding="utf-8").read() for f in texts]
        f.write(' '.join(content_list))

### Nettoyage

In [None]:
def clean_text(year, folder=None):
    if folder is None:
        input_path = f"{year}.txt"
        output_path = f"{year}_clean.txt"
    else:
        input_path = f"{folder}/{year}.txt"
        output_path = f"{folder}/{year}_clean.txt"
    output = open(output_path, "w", encoding='utf-8')
    with open(input_path, 'r', encoding='utf-8') as f:
        text = f.read()
        words = nltk.wordpunct_tokenize(text)
        kept = [w.upper() for w in words if len(w) > 2 and w.isalpha() and w.lower() not in sw]
        kept_string = " ".join(kept)
        output.write(kept_string)
    return f'Output has been written in {output_path}!'

for i in range(N_CLUSTERS):
    clean_text(i, folder=temp_path)

 ### Résultat des mots les plus communs et enregistrement des wordclouds.
 Voir rapport pour constater les wordclouds

In [None]:
for label, texts in clustering.items():
    # Vérifier le résultat
    print(f"Cluster {label}:")
    with open(os.path.join(temp_path, f'{label}_clean.txt'), 'r', encoding='utf-8') as f:
        after = f.read()

    frequencies = Counter(after.split())
    print(frequencies.most_common(10))

    cloud = WordCloud(width=2000, height=1000, background_color='white').generate_from_frequencies(frequencies)
    cloud.to_file(os.path.join(temp_path, f"{label}.png"))
    Image(filename=os.path.join(temp_path, f"{label}.png"))

## Word2vec

### Imports

In [None]:
import sys

from gensim.models.phrases import Phrases, Phraser
from gensim.models import Word2Vec

import nltk
from nltk.tokenize import wordpunct_tokenize
from unidecode import unidecode

### Chargement et traitement des phrases du corpus

#### Création d'un objet qui *streame* les lignes d'un fichier pour économiser de la RAM

In [None]:
class MySentences(object):
    """Tokenize and Lemmatize sentences"""
    def __init__(self, filename):
        self.filename = filename

    def __iter__(self):
        for line in open(self.filename, encoding='utf-8', errors="backslashreplace"):
            yield [unidecode(w.lower()) for w in wordpunct_tokenize(line)]

infile = f"../data/sents.txt"
sentences = MySentences(infile)

### Détection des bigrams

Article intéressant sur le sujet : https://towardsdatascience.com/word2vec-for-phrases-learning-embeddings-for-more-than-one-word-727b6cf723cf

In [None]:
bigram_phrases = Phrases(sentences)

### Conversion des `Phrases` en objet `Phraser`

`Phraser` est un alias pour `gensim.models.phrases.FrozenPhrases`, voir ici https://radimrehurek.com/gensim/models/phrases.html.

Le `Phraser` est une version *light* du `Phrases`, plus optimale pour transformer les phrases en concaténant les bigrams.

In [None]:
bigram_phraser = Phraser(phrases_model=bigram_phrases)

### Extraction des trigrams

In [None]:
trigram_phrases = Phrases(bigram_phraser[sentences])

In [None]:
trigram_phraser = Phraser(phrases_model=trigram_phrases)

### Création d'un corpus d'unigrams, bigrams, trigrams

In [None]:
corpus = list(trigram_phraser[bigram_phraser[sentences]])

## Entrainement d'un modèle Word2Vec sur ce corpus

In [None]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=5, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descente de gradient, aka. epochs.
)

### Sauver le modèle dans un fichier

J'ai fait en sorte que mes modèles aient des noms différents afin de pouvoir les réexplorer plus tard au cas où.

In [None]:
outfile = f"../data/newspapersWindow"+str(model.window)+"MinCount"+str(model.min_count)+".model"
model.save(outfile)

## Explorer le modèle

Attention à bien changer les chiffres pour explorer le bon modèle !

In [None]:
model = Word2Vec.load("../data/newspapersWindow5MinCount5.model")

### Calculer la similarité entre deux termes

In [None]:
model.wv.similarity("communisme", "capitalisme")

In [None]:
model.wv.similarity("communisme", "journalisme")

In [None]:
model.wv.similarity("journalisme", "capitalisme")

### Chercher les mots les plus proches d'un terme donné

In [None]:
model.wv.most_similar("capitalisme", topn=10)

In [None]:
model.wv.most_similar("communisme", topn=10)

In [None]:
model.wv.most_similar("journalisme", topn=10)