# 22 textes pour marionnettes de Duranty #

## Etape 2 : Classification non supervisée ##

### Préambule ###

Nous allons faire ici de la classification non supervisée grâce au package SKLearn, librairie dédiée au Machine Learning.

L'objectif est de soumettre librement le corpus à l'ordinateur et de le laisser créer des clusters, c'est à dire des regroupements de textes. Pour cela, l'ordinateur va vectoriser chaque terme de chaque abstract du corpus, permettant d'attribuer à chaque mot une valeur unique pondérée. Grâce à ces calculs, nous obtenons une représentation des textes dans l'espace, que l'ordinateur peut ensuite réunir en calculant la proximité de chacun des vecteurs / textes depuis certains points (les centroids) disposés aléatoirement. La répétition de cette expérience aléatoire permet de définir une classification supposée objective.

Pour la vectorisation, nous utilisons la méthode TF-IDF de SKLearn. La TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de calcul de la valeur attribuée à chaque mot qui se différencie d'abord de la fréquence brut (compte du nombre d'occurence) et de la fréquence relative (compte du nombre d'occurence divisé par le nombre de mots du texte) **en divisant la fréquence d'un mot par le nombre de corpus où ce mot est présent**.
Cette méthode a l'avantage de pouvoir résoudre un problème dans la fouille de texte : il a été effectivement remarqué qu'un terme fréquent dans un texte est généralement fréquent également dans les autres documents du corpus. Ainsi, **la TF-IDF permet de relever des termes qui sont fréquents distinctement dans un texte au regard des autres textes du corpus**, et non plus simplement des termes fréquents dans un texte. Nous pouvons alors distinguer un texte des autres, et rassembler des textes ensemble.

Cela nous permet un premier aperçu du recueil de textes de 1864 de Duranty.

### Les packages ### 


Il faut lancer la cellule ci-dessous pour importer les packages dédiés.

La librairie SKLearn permet, grâce à la TF-IDF, de vectoriser les textes, c'est à dire d'attribuer à chaque mot un vecteur unique le caractérisant dans l'espaces. KMeans permet en outre de définir des clusters.

La librairie spaCy permet de lemmatiser, tandis que la librairie PorterStemmer de NLTK permet de stemmer.

Les librairies Pandas, Numpy et Scipy permettent de traiter la donnée et de produire des tableaux à partir des textes vectorisés.

In [2]:
import os
import csv
import sys

# Vectorisation
import sklearn
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer


#Pour la représentation des clusters dans la partie graphique
import pandas as pd
import numpy as np
import scipy as sp

#Pour une ébauche de topic modeling à partir de NMF
from sklearn.decomposition import NMF
from sklearn.preprocessing import normalize

### Choisir son corpus de travail ###

Ensuite, il faut choisir quel set sera loadé et analysé entre les textes lemmatisés et les abstracts loadés. Le résultat change entre les deux versions. Pour un premier essai, il est premier de travailler avec la version lemmatisée.

In [3]:
#Pour utiliser les textes stemmés, c'est ici

documents = []
Path = "./cache1864/cacheSTEM/"
filelist = os.listdir(Path) #filelist est une liste regroupant tous les chemins vers les différents textes.

for abstract in filelist:
    with open(Path + abstract, "r", encoding="UTF-8") as y:
        texte = y.read()
        documents.append(texte)

In [4]:
#Pour utiliser les textes lemmatisés, c'est ici

documents = []
Path = "./cache1864/cacheLEM/"
filelist = os.listdir(Path) #filelist est une liste regroupant tous les chemins vers les différents textes.

for abstract in filelist:
    with open(Path + abstract, "r", encoding="UTF-8") as y:
        texte = y.read()
        documents.append(texte)





## Définir les clusters ##

Après avoir tokennisé et lemmatisé/stemmé nos textes, nous allons maintenant les vectoriser (représenter chaque mot sous la forme d'un vecteur sur un plan ordonné en deux dimensions) puis ensuite nous allons laisser la machine définir des clusters, c'est à dire des groupes de mots qui ont un sens commun.

Ici, on associe à chaque mot de tous les textes une coordonnée unique à chaque mot utilisé, pour ensuite pouvoir les placer sur un plan en 2D et ainsi relever des ressemblances.

In [5]:
from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop
final_stopwords_list = list(fr_stop) + ["el"] #je rajoute "el" car c'est une erreur récurrente de l'OCR pour "il"
vectorizer = TfidfVectorizer(stop_words=final_stopwords_list)
X = vectorizer.fit_transform(documents)

  'stop_words.' % sorted(inconsistent))


Ensuite, on réunit les termes vectorisés en cluster, c'est à dire en groupe de ressemblance.

In [6]:
#clusterise les documents, ici 15 clusters. C'est un optimum relevé par une étude préalable
true_k = 15
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=100,
       n_clusters=15, n_init=1, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

Enfin, on montre les termes que l'ordinateur a pu rassembler ensemble.

In [7]:
#montre le top 10 des mot-clés les plus représentatifs de chaque cluster
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
    print("Cluster %d:" % i)
    for ind in order_centroids[i, :10]:
        print(' %s' % terms[ind])
        

        


Top terms per cluster:
Cluster 0:
 roi
 astrologue
 comète
 orfévre
 médecin
 pierrot
 balibubutte
 ro
 cabaretier
 fille
Cluster 1:
 colombine
 cassandre
 polichinelle
 pierrot
 miroir
 portrait
 fille
 peintre
 faire
 peinture
Cluster 2:
 polichinelle
 pierrot
 sorcier
 baillenflé
 jardinier
 cassandre
 tonneau
 main
 aller
 faire
Cluster 3:
 cataclysterium
 niflanguille
 domestique
 docteur
 drogue
 maladie
 mortier
 aller
 malade
 cataclysteriun
Cluster 4:
 patissier
 pierrot
 apothicaire
 gendarme
 médor
 ouah
 aller
 faire
 pâte
 pâtissier
Cluster 5:
 trifouillon
 pierrot
 mariage
 gendarme
 fauteuil
 bouillon
 gai
 marion
 épouser
 tirelire
Cluster 6:
 avocat
 bégriche
 pierrot
 perroquet
 commissaire
 chat
 plaider
 monsieur
 cause
 faire
Cluster 7:
 gripandouille
 boudin
 charcutier
 panier
 vieille
 chien
 élégant
 ouah
 gendarme
 aller
Cluster 8:
 arlequin
 berlingue
 pierrot
 capitaine
 malle
 polichinelle
 cassandre
 colombine
 marchand
 commissaire
Cluster 9:
 gribiche
 p

### Comprendre ses clusters avec NMF ###

Grâce à la librairie NMF (Factorisation Matricielle Non-négative), je peux essayer de comprendre les clusters produits pour la machine en lui demandant de sortir les mots les plus représentatifs de chaque cluster. 

Nous allons donc pouvoir utiliser la librairie NMF qui se base sur la vectorisation de SKLearn pour reconstruire les clusters, mais cette fois-ci en sortant les mot-clés les plus utilisés.

In [8]:
transformer = TfidfTransformer(smooth_idf=True)
x_tfidf = transformer.fit_transform(X) #j'insère X, c'est à dire les documents vectorisés
xtfidf_norm = normalize(x_tfidf, norm='l1', axis=1) #normalisation des vecteurs pour rentrer dans la matrice

In [9]:
num_topics = 15
modelnmf = NMF(n_components=num_topics) #Je construis l'algorithme de NMF
modelnmf.fit(xtfidf_norm) #J'entre mes vecteurs normalisés dans l'algorithme de NMF

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
    n_components=15, random_state=None, shuffle=False, solver='cd', tol=0.0001,
    verbose=0)

In [10]:
def get_nmf_topics(model, n_top_words):
    
    # Je récupère ici un dictionnaire avec le mot en clé et son vecteur en valeur. Permet de récupérer les mots.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {}
    for i in range(num_topics):
        
        #Pour chaque cluster j'obtiens les plus gros vecteurs, et j'ajoute les mots dans le dictionnaires initialisés "word_dict".
        words_ids = modelnmf.components_[i].argsort()[:-20 - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Cluster n° ' + '{:02d}'.format(i+1)] = words
    
    return pd.DataFrame(word_dict);

In [11]:

get_nmf_topics(modelnmf, 10)

Unnamed: 0,Cluster n° 01,Cluster n° 02,Cluster n° 03,Cluster n° 04,Cluster n° 05,Cluster n° 06,Cluster n° 07,Cluster n° 08,Cluster n° 09,Cluster n° 10,Cluster n° 11,Cluster n° 12,Cluster n° 13,Cluster n° 14,Cluster n° 15
0,gribiche,avocat,cataclysterium,corbeau,baillenflé,polichinelle,patissier,gripandouille,trifouillon,berlingue,gigogne,moricaud,charbonnier,cababuche,astrologue
1,polichinelle,bégriche,niflanguille,ramoneur,tonneau,colombine,pierrot,boudin,pierrot,malle,mère,jeannette,niflanguille,cababuch,comète
2,biche,perroquet,domestique,noir,polichinelle,arlequin,médor,charcutier,mariage,arlequin,polichinelle,cassandre,charbon,cassandre,roi
3,ami,chat,docteur,azur,crocodile,pierrot,apothicaire,panier,marion,marchand,notaire,nègue,barbandu,gripandouille,orfévre
4,vieux,plaider,drogue,cuisinière,niflanguille,cassandre,ouah,vieille,fauteuil,commissaire,maquignon,domestique,sac,polichinelle,médecin
5,chien,pierrot,maladie,princesse,sorcier,miroir,gendarme,élégant,bouillon,mall,niflanguille,habit,pierrot,voisin,balibubutte
6,gri,commissaire,mortier,coa,croco,jardinier,pâtissier,chien,gai,gendarme,charcutier,botte,poids,soupe,cabaretier
7,honneur,plaideur,cataclysteriun,roi,ensorceler,capitaine,pâte,ouah,tirelire,lingue,cheval,pti,seigneur,lettre,ro
8,commissaire,plaidera,coucher,cage,soldat,porc,pétissier,boutique,armoire,apothicaire,enfant,cirer,gendarme,monsieur,royal
9,mord,avocal,malade,four,scène,scène,ahigne,huître,gendarme,taisez,mere,pauve,carrosse,commissaire,pierrot


Les clusters ainsi formés ont, comme on aurait pu l'imaginer, aucun sens pour un être humain malheureusement.