# Classification de documents : prise en main des outils

Le but de ce TP est de classer des documents textuels... Dans un premier temps, nous allons vérifier le bon fonctionnement des outils sur des données jouets puis appliquer les concepts sur des données réelles.


## Conception de la chaine de traitement
Pour rappel, une chaine de traitement de documents classique est composée des étapes suivantes:
1. Lecture des données et importation
    - Dans le cadre de nos TP, nous faisons l'hypothèse que le corpus tient en mémoire... Si ce n'est pas le cas, il faut alors ajouter des structures de données avec des buffers (*data-reader*), bien plus complexes à mettre en place.
    - Le plus grand piège concerne l'encodage des données. Dans le TP... Pas (ou peu) de problème. Dans la vraie vie: il faut faire attention à toujours maitriser les formats d'entrée et de sortie.
1. Traitement des données brutes paramétrique. Chaque traitement doit être activable ou desactivable + paramétrable si besoin.
    - Enlever les informations *inutiles* : chiffre, ponctuations, majuscules, etc... <BR>
    **L'utilité dépend de l'application!**
    - Segmenter en mots (=*Tokenization*)
    - Elimination des stop-words
    - Stemming/lemmatisation (racinisation)
    - Byte-pair encoding pour trouver les mots composés (e.g. Sorbonne Université, Ville de Paris, Premier Ministre, etc...)
1. Traitement des données numériques
    - Normalisation *term-frequency* / binarisation
    - Normalisation *inverse document frequency*
    - Elimination des mots rares, des mots trop fréquents
    - Construction de critère de séparabilité pour éliminer des mots etc...
1. Apprentissage d'un classifieur
    - Choix du type de classifieur
    - Réglage des paramètres du classifieur (régularisation, etc...)

## Exploitation de la chaine de traitement

On appelle cette étape la réalisation d'une campagne d'expériences: c'est le point clé que nous voulons traviller en TAL cette année.
1. Il est impossible de tester toutes les combinaisons par rapport aux propositions ci-dessus... Il faut donc en éliminer un certain nombre.
    - En discutant avec les experts métiers
    - En faisant des tests préliminaires
1. Après ce premier filtrage, il faut:
    - Choisir une évaluation fiable et pas trop lente (validation croisée, leave-one-out, split apprentissage/test simple)
    - Lancer des expériences en grand
        - = *grid-search*
        - parallèliser sur plusieurs machines
        - savoir lancer sur un serveur et se déconnecter
1. Collecter et analyser les résultats


## Inférence

L'inférence est ensuite très classique: la chaine de traitement optimale est apte à traiter de nouveaux documents

# Etape 1: charger les données

In [1]:
import numpy as np
import matplotlib.pyplot as plt

import codecs
import re
import os.path

In [2]:
# Chargement des données:
def load_pres(fname):
    alltxts = []
    alllabs = []
    s=codecs.open(fname, 'r','utf-8') # pour régler le codage
    while True:
        txt = s.readline()
        if(len(txt))<5:
            break
        #
        lab = re.sub(r"<[0-9]*:[0-9]*:(.)>.*","\\1",txt)
        txt = re.sub(r"<[0-9]*:[0-9]*:.>(.*)","\\1",txt)
        if lab.count('M') >0:
            alllabs.append(-1)
        else: 
            alllabs.append(1)
        alltxts.append(txt)
    return alltxts,alllabs


In [51]:
def load_pres_test(fname):
    alltxts = []
    alllabs = []
    s=codecs.open(fname, 'r','utf-8') # pour régler le codage
    while True:
        txt = s.readline()
        if(len(txt))<5:
            break
        #
        lab = re.sub(r"<[0-9]*:[0-9]*(.)>*","\\1",txt)
        txt = re.sub(r"<[0-9]*:[0-9]*()>*","\\1",txt)
        if lab.count('M') >0:
            alllabs.append(-1)
        else: 
            alllabs.append(1)
        alltxts.append(txt)
    return alltxts,alllabs

In [35]:
fname = "./AFDpresidentutf8/corpus.tache1.learn.utf8"

alltxtsPresidents,alllabsPresidents = load_pres(fname)

In [52]:
fname = "./AFDpresidentutf8/corpus.tache1.test.utf8"

alltxtsPresidentsTests,_ = load_pres_test(fname)

In [53]:
print(len(alltxtsPresidentsTests))
print(alltxtsPresidentsTests[0])
print(alltxtsPresidentsTests[-1])


27162
 En répondant à votre invitation, en effectuant cette première visite d'Etat d'un Président français en Algérie depuis l'indépendance, j'ai conscience d'ouvrir avec vous un chapitre nouveau de notre histoire commune, le chapitre de la confiance, de l'estime, du respect mutuel, de l'amitié et de la solidarité.

 Dans cette perspective, je demanderai à une grande personnalité de l'industrie de me faire des propositions sur les moyens de renforcer la coopération scientifique et industrielle avec les pays émergents, les transferts de technologie vers ces pays et le financement de leur développement propre.



In [54]:
print(len(alltxtsPresidents),len(alllabsPresidents))
print(alltxtsPresidents[0])
print(alllabsPresidents[0])
print(alltxtsPresidents[-1])
print(alllabsPresidents[-1])



57413 57413
 Quand je dis chers amis, il ne s'agit pas là d'une formule diplomatique, mais de l'expression de ce que je ressens.

1
 Je compte sur vous.

1


In [60]:
def load_movies(path2data): # 1 classe par répertoire
    alltxts = [] # init vide
    labs = []
    cpt = 0
    for cl in os.listdir(path2data): # parcours des fichiers d'un répertoire
        for f in os.listdir(path2data+cl):
            txt = open(path2data+cl+'/'+f).read()
            alltxts.append(txt)
            labs.append(cpt)
        cpt+=1 # chg répertoire = cht classe
        
    return alltxts,labs

In [61]:
path = "./movies1000/"

alltxtsMovies,alllabsMovies = load_movies(path)

PermissionError: [Errno 13] Permission denied: './movies1000/test/data'

In [79]:
def load_sentimentsTests(filename):
    alltxts = [] # init vide
    labs = []
    cpt = 0
    
    with open(filename, encoding='utf8') as f:
        lines = [line.rstrip('\n') for line in f]
        print(lines)
    return alltxts,labs

In [59]:
filename = "./movies1000/test/"

alltxtsSentimentsTest,alllabsSentimentsTest = load_movies(filename)

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 920561: character maps to <undefined>

In [54]:
print(len(alltxtsSentimentsTest),len(alllabsSentimentsTest))
print(alltxtsSentimentsTest[0])
print(alllabsSentimentsTest[0])
print("\n#######################################\n\n")
print(alltxtsSentimentsTest[-1])
print(alllabsSentimentsTest[-1])

196 196
Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it's singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it's better than you might think with some good cinematography by future great Vilmos Zsigmond. Future stars Sally Kirkland and Frederic Forrest can be seen briefly.

1

#######################################


 The wife here has a sharp tongue and a strong will, and so Taylor plays her movie star heroine with more spirit than she was given credit for
1


In [8]:
print(len(alltxtsMovies),len(alllabsMovies))
print(alltxtsMovies[0])
print(alllabsMovies[0])
print("\n#######################################\n\n")
print(alltxtsMovies[-1])
print(alllabsMovies[-1])

2000 2000
plot : two teen couples go to a church party , drink and then drive . 
they get into an accident . 
one of the guys dies , but his girlfriend continues to see him in her life , and has nightmares . 
what's the deal ? 
watch the movie and " sorta " find out . . . 
critique : a mind-fuck movie for the teen generation that touches on a very cool idea , but presents it in a very bad package . 
which is what makes this review an even harder one to write , since i generally applaud films which attempt to break the mold , mess with your head and such ( lost highway & memento ) , but there are good and bad ways of making all types of films , and these folks just didn't snag this one correctly . 
they seem to have taken this pretty neat concept , but executed it terribly . 
so what are the problems with the movie ? 
well , its main problem is that it's simply too jumbled . 
it starts off " normal " but then downshifts into this " fantasy " world in which you , as an audience member , 

# Transformation paramétrique du texte

Vous devez tester, par exemple, les cas suivants:
- transformation en minuscule ou pas
- suppression de la ponctuation
- transformation des mots entièrement en majuscule en marqueurs spécifiques
- suppression des chiffres ou pas
- conservation d'une partie du texte seulement (seulement la première ligne = titre, seulement la dernière ligne = résumé, ...)
- stemming
- ...


Vérifier systématiquement sur un exemple ou deux le bon fonctionnement des méthodes sur deux documents (au moins un de chaque classe).

In [9]:
import re
import unicodedata
import string
from nltk.corpus import stopwords

def transform(text, punc=False,accentMaj=False,nb=False, stopW=False) :
    text_transf = text
    
    for i in range(len(text)) :
        
        if punc:
            punc = string.punctuation  # recupération de la ponctuation
            punc += '\n\r\t'
            text_transf[i] = text_transf[i].translate(str.maketrans(punc, ' ' * len(punc)))  
        if accentMaj:
            # suppression des accents et des caractères non normalisés
            text_transf[i] = unicodedata.normalize('NFD', text_transf[i]).encode('ascii', 'ignore').decode("utf-8")
            text_transf[i] = text_transf[i].lower()
        
        if nb:
            # suppression des nombres
            text_transf[i] = re.sub('[0-9]+', '', text_transf[i]) # remplacer une séquence de chiffres par rien
        if stopW:
            for w in stopwords.words('english'):
                text_transf[i] = text_transf[i].replace(w, '') 
    return text_transf

In [10]:
txt_transform_movies = transform(alltxtsMovies,punc=True,accentMaj=True,nb=True, stopW=False)

In [36]:
txt_transform_presidents = transform(alltxtsPresidents,punc=True,accentMaj=True,nb=True, stopW=False)

# Extraction du vocabulaire

Exploration préliminaire des jeux de données.

- Quelle est la taille d'origine du vocabulaire?
- Que reste-t-il si on ne garde que les 100 mots les plus fréquents? [word cloud]
- Quels sont les 100 mots dont la fréquence documentaire est la plus grande? [word cloud]
- Quels sont les 100 mots les plus discriminants au sens de odds ratio? [word cloud]
- Quelle est la distribution d'apparition des mots (Zipf)
- Quels sont les 100 bigrammes/trigrammes les plus fréquents?


In [12]:
mots = []

for t in txt_transform_movies:
    mots += (t.split())

In [14]:
from collections import Counter

dico = Counter(mots)
#print(dico)

In [15]:
def extraction() :
    
    # Taille d'origine du vocabulaire
    print("taille du voc ", len(dico))
    # 100 mots les plus fréquents
    print(dico.most_common(100))
    # 100 mots à la fréquence documentaire la plus grande
    
    # 100 mots les plus discriminants au sens de odds ratio
    
    # Distribution d'apparition des mots
    
    # Bigrammes et trigrammes

In [17]:
trans = dict(zip(list(dico.keys()), np.arange(len(dico)).tolist()))

In [19]:
len(trans)

38960

In [20]:
d = np.zeros((len(txt_transform_movies),len(trans)))

for ind_txt in range(len(txt_transform_movies)):
    for m in txt_transform_movies[ind_txt].split():
        d[ind_txt][trans[m]] += 1

In [21]:
len(txt_transform_movies)

2000

In [23]:
# passage à une matrice sparse
from scipy.sparse import coo_matrix

ds = coo_matrix(d)

Question qui devient de plus en plus intéressante avec les approches modernes:
est-il possible d'extraire des tri-grammes de lettres pour représenter nos documents?

Quelle performances attendrent? Quels sont les avantages et les inconvénients d'une telle approche?

# Modèles de Machine Learning

Avant de lancer de grandes expériences, il faut se construire une base de travail solide en étudiant les questions suivantes:

- Combien de temps ça prend d'apprendre un classifieur NB/SVM/RegLog sur ces données en fonction de la taille du vocabulaire?
- La validation croisée est-elle nécessaire? Est ce qu'on obtient les mêmes résultats avec un simple *split*?
- La validation croisée est-elle stable? A partir de combien de fold (travailler avec différentes graines aléatoires et faire des statistiques basiques)?

In [25]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import sklearn.naive_bayes as nb
from sklearn import svm
from sklearn import linear_model

vectorizer = CountVectorizer()
X_movies = vectorizer.fit_transform(txt_transform_movies)

#print(X)

In [37]:
vectorizer2 = CountVectorizer()
X_presidents = vectorizer.fit_transform(txt_transform_presidents)

In [38]:
print(X_presidents.shape)
print(len(alllabsPresidents))

(57413, 27054)
57413


In [26]:
print(ds.shape)
print(X.shape)
print(len(alllabsMovies))

(2000, 38960)
(2000, 38890)
2000


In [39]:
clf = nb.MultinomialNB()

In [40]:
svc = svm.LinearSVC()

In [41]:
lin = linear_model.LogisticRegression()

In [42]:
from sklearn.model_selection import GridSearchCV

In [47]:
param_grid = {}
# Grid Search CV implementation
grid_cv = GridSearchCV(clf, param_grid, n_jobs=-1, cv=3)
grid_cv.fit(X_presidents, alllabsPresidents)
# Return set of parameters with the best performance
grid_cv.best_params_
# Return the performance metric score
grid_cv.best_score_

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.8953198363934006

In [95]:
from sklearn.model_selection import cross_val_score

# usage en boucle implicite
# le classifieur est donné en argument, tout ce fait implicitement (possibilité de paralléliser avec @@n_jobs@@)
scores = cross_val_score( clf,ds, alllabs, cv=5)
scoresSVC = cross_val_score( svc,ds, alllabs, cv=5)
scoreslin = cross_val_score( svc,ds, alllabs, cv=5)

print(scores)
print(scoresSVC)
print(scoreslin)

[0.8075 0.79   0.7725 0.8325 0.78  ]
[0.7525 0.78   0.78   0.7825 0.7675]
[0.7525 0.78   0.78   0.7825 0.7675]


## Première campagne d'expériences

Les techniques sur lesquelles nous travaillons étant sujettes au sur-apprentissage: trouver le paramètre de régularisation dans la documentation et optimiser ce paramètre au sens de la métrique qui vous semble la plus appropriée (cf question précédente).

## Equilibrage des données

Un problème reconnu comme dur dans la communauté est celui de l'équilibrage des classes (*balance* en anglais). Que faire si les données sont à 80, 90 ou 99% dans une des classes?
Le problème est dur mais fréquent; les solutions sont multiples mais on peut isoler 3 grandes familles de solution.

1. Ré-équilibrer le jeu de données: supprimer des données dans la classe majoritaire et/ou sur-échantilloner la classe minoritaire.<BR>
   $\Rightarrow$ A vous de jouer pour cette technique
1. Changer la formulation de la fonction de coût pour pénaliser plus les erreurs dans la classe minoritaire:
soit une fonction $\Delta$ mesurant les écarts entre $f(x_i)$ et $y_i$ 
$$C = \sum_i  \alpha_i \Delta(f(x_i),y_i), \qquad \alpha_i = \left\{
\begin{array}{ll}
1 & \mbox{si } y_i \in \mbox{classe majoritaire}\\
B>1 & \mbox{si } y_i \in \mbox{classe minoritaire}\\
\end{array} \right.$$
<BR>
   $\Rightarrow$ Les SVM et d'autres approches sklearn possèdent des arguments pour régler $B$ ou $1/B$... Ces arguments sont utiles mais pas toujours suffisant.
1. Courbe ROC et modification du biais. Une fois la fonction $\hat y = f(x)$ apprise, il est possible de la *bidouiller* a posteriori: si toutes les prédictions $\hat y$ sont dans une classe, on va introduire $b$ dans $\hat y = f(x) + b$ et le faire varier jusqu'à ce qu'un des points change de classe. On peut ensuite aller de plus en plus loin.
Le calcul de l'ensemble des scores associés à cette approche mène directement à la courbe ROC.

**Note:** certains classifieurs sont intrinsèquement plus résistante au problème d'équilibrage, c'est par exemple le cas des techniques de gradient boosting que vous verrez l'an prochain.