# Clustering

Imports

In [None]:
import collections
import os
import string
import sys

import pandas as pd
from nltk import word_tokenize
from nltk.corpus import stopwords
from pprint import pprint
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cosine

In [None]:
import nltk

nltk.download('punkt')

In [None]:
data_path = "../data/txt/"

### Choisir une décennie

In [None]:
DECADE = '1890'

Charger tous les  fichiers de la décennie et en créer une liste de textes

In [None]:
files = [f for f in sorted(os.listdir(data_path)) if f"_{DECADE[:-1]}" in f]

In [None]:
texts = [open(data_path + f, "r", encoding="utf-8").read() for f in files]

### Vectoriser les documents à l'aide de TF-IDF

In [None]:
# Création d'une fonction de pré-traitement
def preprocessing(text, stem=True):
    """ Tokenize text and remove punctuation """
    text = text.translate(string.punctuation)
    tokens = word_tokenize(text)
    return tokens

Instancier le modèle TF-IDF avec ses arguments

In [None]:
vectorizer = TfidfVectorizer(
    tokenizer=preprocessing,
    stop_words=stopwords.words('french'),
    max_df=0.5,
    min_df=0.1,
    lowercase=True)

Construire la matrice de vecteurs à l'aide de la fonction `fit_transform`

In [None]:
tfidf_vectors = vectorizer.fit_transform(texts)

In [None]:
# Détail de la matrice
tfidf_vectors

Imprimer le vecteur tf-IDF du premier document

In [None]:
pd.Series(
    tfidf_vectors[0].toarray()[0],
    index=vectorizer.get_feature_names_out()
    ).sort_values(ascending=False)

Appliquer un algorithme de clustering sur les vecteurs TF-IDF des documents

### Définir un nombre de clusters

In [None]:
N_CLUSTERS = 3

Instancier le modèle K-Means et ses arguments

In [None]:
km_model = KMeans(n_clusters=N_CLUSTERS)

Appliquer le clustering à l'aide de la fonction `fit_predict`

In [None]:
clusters = km_model.fit_predict(tfidf_vectors)

In [None]:
clustering = collections.defaultdict(list)

for idx, label in enumerate(clusters):
    clustering[label].append(files[idx])

In [None]:
pprint(dict(clustering))

### Visualiser les clusters

Réduire les vecteurs à 2 dimensions à l'aide de l'algorithme PCA

In [None]:
pca = PCA(n_components=2)
reduced_vectors = pca.fit_transform(tfidf_vectors.toarray())

In [None]:
reduced_vectors[:10]

### Générer le plot

In [None]:
x_axis = reduced_vectors[:, 0]
y_axis = reduced_vectors[:, 1]

plt.figure(figsize=(10,10))
scatter = plt.scatter(x_axis, y_axis, s=100, c=clusters)

# Ajouter les centroïdes
centroids = pca.transform(km_model.cluster_centers_)
plt.scatter(centroids[:, 0], centroids[:, 1],  marker = "x", s=100, linewidths = 2, color='black')

# Ajouter la légende
plt.legend(handles=scatter.legend_elements()[0], labels=set(clusters), title="Clusters")

# Extraction de Keywords

Imports

In [None]:
import os
import yake

### Extraire les keywords sur tous les documents

In [None]:
for f in sorted(files)[:len(files)]:
    text = open(os.path.join(data_path, f), 'r', encoding="utf-8").read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2:
            kept.append(kw)
    print(f"{f} keywords: {', '.join(kept)}...")

# Nuages de mots

Imports et stopwords

In [None]:
from collections import Counter
from wordcloud import WordCloud
import os
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from IPython.display import Image

In [None]:
# Stopwords (Idem que dans s1)
sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout",
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre"]
sw = set(sw)


### Ecrire tout le contenu dans un fichier temporaire

In [None]:
temp_path = '../data/tmp'
if not os.path.exists(temp_path):
    os.mkdir(temp_path)
with open(os.path.join(temp_path, f'{DECADE}.txt'), 'w', encoding='utf-8') as f:
    f.write(' '.join(texts))

### Nettoyer le fichier à l'aide d'une fonction de nettoyage

Créer la fonction de nettoyage

In [None]:
def clean_text(year, folder=None):
    if folder is None:
        input_path = f"{year}.txt"
        output_path = f"{year}_clean.txt"
    else:
        input_path = f"{folder}/{year}.txt"
        output_path = f"{folder}/{year}_clean.txt"
    output = open(output_path, "w", encoding='utf-8')
    with open(input_path, 'r', encoding='utf-8') as f:
        text = f.read()
        words = nltk.wordpunct_tokenize(text)
        kept = [w.upper() for w in words if len(w) > 2 and w.isalpha() and w.lower() not in sw]
        kept_string = " ".join(kept)
        output.write(kept_string)
    return f'Output has been written in {output_path}!'

Appliquer la fonction sur le fichier complet de la décennie

In [None]:
clean_text(DECADE, folder=temp_path)

In [None]:
# Vérifier le résultat
with open(os.path.join(temp_path, f'{DECADE}_clean.txt'), 'r', encoding='utf-8') as f:
    after = f.read()

after[:500]

### Générer le nuage de mots

Afficher les termes les plus fréquents


In [None]:
frequencies = Counter(after.split())
print(frequencies.most_common(10))

Créer, stocker et afficher le nuage de mots

In [None]:
cloud = WordCloud(width=2000, height=1000, background_color='white').generate_from_frequencies(frequencies)
cloud.to_file(os.path.join(temp_path, f"{DECADE}.png"))
Image(filename=os.path.join(temp_path, f"{DECADE}.png"))

# Word Embeddings : le modèle Word2Vec

Imports

In [None]:
import sys

from gensim.models.phrases import Phrases, Phraser
from gensim.models import Word2Vec

import nltk
from nltk.tokenize import wordpunct_tokenize
from unidecode import unidecode

### Chargement et traitement des phrases du corpus

Création d'un objet qui *streame* les lignes d'un fichier pour économiser de la RAM

In [None]:
class MySentences(object):
    """Tokenize and Lemmatize sentences"""
    def __init__(self, filename):
        self.filename = filename

    def __iter__(self):
        for line in open(self.filename, encoding='utf-8', errors="backslashreplace"):
            yield [unidecode(w.lower()) for w in wordpunct_tokenize(line)]

In [None]:
infile = f"../data/txt/sents.txt"
sentences = MySentences(infile)

Détection des bigrams

In [None]:
bigram_phrases = Phrases(sentences)

In [None]:
type(bigram_phrases.vocab)

In [None]:
#Il contient de nombreuses clés qui sont autant de termes observés dans le corpus
len(bigram_phrases.vocab.keys())

In [None]:
# Test sur une clé au hasard :
key_ = list(bigram_phrases.vocab.keys())[144]
print(key_)

In [None]:
#Le dictionnaire indique le score de cette coocurrence :
bigram_phrases.vocab[key_]

Conversion des `Phrases` en objet `Phraser`

In [None]:
bigram_phraser = Phraser(phrases_model=bigram_phrases)

Extraction des trigrams

In [None]:
trigram_phrases = Phrases(bigram_phraser[sentences])

In [None]:
trigram_phraser = Phraser(phrases_model=trigram_phrases)

Création d'un corpus d'unigrams, bigrams, trigrams

In [None]:
corpus = list(trigram_phraser[bigram_phraser[sentences]])

In [None]:
print(corpus[:100])

### Entrainement d'un modèle Word2Vec sur ce corpus

In [None]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=5, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descente de gradient, aka. epochs.
)

Sauver le modèle dans un fichier

In [None]:
outfile = f"../data/newspapers.model"
model.save(outfile)

### Explorer le modèle

Charger le modèle en mémoire

In [None]:
model = Word2Vec.load("../data/newspapers.model")

Imprimer le vecteur d'un terme

In [None]:
model.wv["ministre"]

Calculer la similarité entre deux termes

In [None]:
model.wv.similarity("ministre", "roi")

Chercher les mots les plus proches d'un terme donné

In [None]:
model.wv.most_similar("ministre", topn=10)

Faire des recherches complexes à travers l'espace vectoriel

In [None]:
print(model.wv.most_similar(positive=['ministre', 'roi'], negative=['bruxelles']))