# Classification de documents : prise en main des outils

Le but de ce TP est de classer des documents textuels... Dans un premier temps, nous allons vérifier le bon fonctionnement des outils sur des données jouets puis appliquer les concepts sur des données réelles.


## Conception de la chaine de traitement
Pour rappel, une chaine de traitement de documents classique est composée des étapes suivantes:
1. Lecture des données et importation
    - Dans le cadre de nos TP, nous faisons l'hypothèse que le corpus tient en mémoire... Si ce n'est pas le cas, il faut alors ajouter des structures de données avec des buffers (*data-reader*), bien plus complexes à mettre en place.
    - Le plus grand piège concerne l'encodage des données. Dans le TP... Pas (ou peu) de problème. Dans la vraie vie: il faut faire attention à toujours maitriser les formats d'entrée et de sortie.
1. Traitement des données brutes paramétrique. Chaque traitement doit être activable ou desactivable + paramétrable si besoin.
    - Enlever les informations *inutiles* : chiffre, ponctuations, majuscules, etc... <BR>
    **L'utilité dépend de l'application!**
    - Segmenter en mots (=*Tokenization*)
    - Elimination des stop-words
    - Stemming/lemmatisation (racinisation)
    - Byte-pair encoding pour trouver les mots composés (e.g. Sorbonne Université, Ville de Paris, Premier Ministre, etc...)
1. Traitement des données numériques
    - Normalisation *term-frequency* / binarisation
    - Normalisation *inverse document frequency*
    - Elimination des mots rares, des mots trop fréquents
    - Construction de critère de séparabilité pour éliminer des mots etc...
1. Apprentissage d'un classifieur
    - Choix du type de classifieur
    - Réglage des paramètres du classifieur (régularisation, etc...)

## Exploitation de la chaine de traitement

On appelle cette étape la réalisation d'une campagne d'expériences: c'est le point clé que nous voulons traviller en TAL cette année.
1. Il est impossible de tester toutes les combinaisons par rapport aux propositions ci-dessus... Il faut donc en éliminer un certain nombre.
    - En discutant avec les experts métiers
    - En faisant des tests préliminaires
1. Après ce premier filtrage, il faut:
    - Choisir une évaluation fiable et pas trop lente (validation croisée, leave-one-out, split apprentissage/test simple)
    - Lancer des expériences en grand
        - = *grid-search*
        - parallèliser sur plusieurs machines
        - savoir lancer sur un serveur et se déconnecter
1. Collecter et analyser les résultats


## Inférence

L'inférence est ensuite très classique: la chaine de traitement optimale est apte à traiter de nouveaux documents

# Etape 1: charger les données

In [4]:
import numpy as np
import matplotlib.pyplot as plt
import utils as ut

from nltk.stem.snowball import SnowballStemmer
from nltk.corpus import stopwords


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

import sklearn.naive_bayes as nb
import sklearn.svm as sv
#import sklearn.ensemble as ens

#import sklearn.pipeline as pipe
#from sklearn.metrics import f1_score,accuracy_score,confusion_matrix,classification_report,roc_auc_score

# commande TRES utile pour recharger automatiquement le code que vous modifiez dans les modules
%load_ext autoreload
%autoreload 2

In [5]:
fname = "./AFDpresidentutf8/corpus.tache1.learn.utf8"
fname_test = "./AFDpresidentutf8/corpus.tache1.test.utf8"
#path = "/Users/vguigue/Documents/Cours/TAL/tp/tme2/ressources/movies/movies1000/"


alltxts,alllabs = ut.load_pres(fname)
alltxts_test,alllabs_test = ut.load_pres(fname_test)
#alltxts_movies,alllabs_movies = ut.load_movies(path)

alltxts = ut.stemming_corpus(alltxts,stemmer)

stop_word_fr = [ut.supprime_accents(i) for i in stopwords.words("french")]
stemmer = SnowballStemmer("french")

# Transformation paramétrique du texte

Vous devez tester, par exemple, les cas suivants:
- transformation en minuscule ou pas
- suppression de la ponctuation
- transformation des mots entièrement en majuscule en marqueurs spécifiques
- suppression des chiffres ou pas
- conservation d'une partie du texte seulement (seulement la première ligne = titre, seulement la dernière ligne = résumé, ...)
- stemming
- ...


Vérifier systématiquement sur un exemple ou deux le bon fonctionnement des méthodes sur deux documents (au moins un de chaque classe).

In [None]:
#def stemmed_words(doc):
#    return (stemmer.stem(w) for w in analyzer(doc))
#analyzer = CountVectorizer().build_analyzer()
#vectorizer = CountVectorizer(analyzer=stemmed_words,stop_words=stop_word_fr,strip_accents='ascii',lowercase=True,min_df=i,max_df=j) 
#vectorizer = CountVectorizer(stop_words=stop_word_fr,strip_accents='ascii',lowercase=True,ngram_range=(1,2),min_df=i,max_df=j) 
#vectorizer.fit_transform(X_train,y_train)
#vectorizer2.fit_transform(X_train,y_train)
#vectorizer3 = pipe.FeatureUnion([('A',vectorizer),('B',vectorizer2)])

In [11]:
i = 0.0001
j = 0.05

vectorizer = CountVectorizer(stop_words=stop_word_fr,strip_accents='ascii',lowercase=True,ngram_range=(1,2),min_df=i,max_df=j) 

X_train,X_test,y_train,y_test = train_test_split(alltxts,alllabs,test_size=0.33,random_state=1)
X_train_2 = vectorizer.fit_transform(X_train,y_train)
X_test_2 = vectorizer.transform(X_test)

clf = nb.MultinomialNB()
#clf = sv.LinearSVC(C=1000, class_weight="balanced")
#clf = ens.GradientBoostingClassifier(learning_rate=0.001)
X_train_3 = clf.fit(X_train_2,y_train)
y_pred = clf.predict(X_test_2)

print("------------------------------")
print(i," ",j)
print("classifieur:",accuracy_score(y_test,y_pred)) # pour rentrer dans le classifieur... Depend évidemment du classifieur!
print("classifieur:",f1_score(y_test,y_pred)) # pour rentrer dans le classifieur... Depend évidemment du classifieur!
print("classifieur:",roc_auc_score(y_test,y_pred)) # pour rentrer dans le classifieur... Depend évidemment du classifieur!
print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))

------------------------------
0.0001   0.05
classifieur: 0.8824616034200665
classifieur: 0.9327901011015542
classifieur: 0.7209385382215827
[[ 1266  1263]
 [  964 15454]]
              precision    recall  f1-score   support

          -1       0.57      0.50      0.53      2529
           1       0.92      0.94      0.93     16418

    accuracy                           0.88     18947
   macro avg       0.75      0.72      0.73     18947
weighted avg       0.88      0.88      0.88     18947



In [12]:
print(len(vectorizer.get_feature_names()))

21547


# Extraction du vocabulaire

Exploration préliminaire des jeux de données.

- Quelle est la taille d'origine du vocabulaire?
- Que reste-t-il si on ne garde que les 100 mots les plus fréquents? [word cloud]
- Quels sont les 100 mots dont la fréquence documentaire est la plus grande? [word cloud]
- Quels sont les 100 mots les plus discriminants au sens de odds ratio? [word cloud]
- Quelle est la distribution d'apparition des mots (Zipf)
- Quels sont les 100 bigrammes/trigrammes les plus fréquents?


Question qui devient de plus en plus intéressante avec les approches modernes:
est-il possible d'extraire des tri-grammes de lettres pour représenter nos documents?

Quelle performances attendrent? Quels sont les avantages et les inconvénients d'une telle approche?

# Modèles de Machine Learning

Avant de lancer de grandes expériences, il faut se construire une base de travail solide en étudiant les questions suivantes:

- Combien de temps ça prend d'apprendre un classifieur NB/SVM/RegLog sur ces données en fonction de la taille du vocabulaire?
- La validation croisée est-elle nécessaire? Est ce qu'on obtient les mêmes résultats avec un simple *split*?
- La validation croisée est-elle stable? A partir de combien de fold (travailler avec différentes graines aléatoires et faire des statistiques basiques)?

## Première campagne d'expériences

Les techniques sur lesquelles nous travaillons étant sujettes au sur-apprentissage: trouver le paramètre de régularisation dans la documentation et optimiser ce paramètre au sens de la métrique qui vous semble la plus appropriée (cf question précédente).

## Equilibrage des données

Un problème reconnu comme dur dans la communauté est celui de l'équilibrage des classes (*balance* en anglais). Que faire si les données sont à 80, 90 ou 99% dans une des classes?
Le problème est dur mais fréquent; les solutions sont multiples mais on peut isoler 3 grandes familles de solution.

1. Ré-équilibrer le jeu de données: supprimer des données dans la classe majoritaire et/ou sur-échantilloner la classe minoritaire.<BR>
   $\Rightarrow$ A vous de jouer pour cette technique
1. Changer la formulation de la fonction de coût pour pénaliser plus les erreurs dans la classe minoritaire:
soit une fonction $\Delta$ mesurant les écarts entre $f(x_i)$ et $y_i$ 
$$C = \sum_i  \alpha_i \Delta(f(x_i),y_i), \qquad \alpha_i = \left\{
\begin{array}{ll}
1 & \mbox{si } y_i \in \mbox{classe majoritaire}\\
B>1 & \mbox{si } y_i \in \mbox{classe minoritaire}\\
\end{array} \right.$$
<BR>
   $\Rightarrow$ Les SVM et d'autres approches sklearn possèdent des arguments pour régler $B$ ou $1/B$... Ces arguments sont utiles mais pas toujours suffisant.
1. Courbe ROC et modification du biais. Une fois la fonction $\hat y = f(x)$ apprise, il est possible de la *bidouiller* a posteriori: si toutes les prédictions $\hat y$ sont dans une classe, on va introduire $b$ dans $\hat y = f(x) + b$ et le faire varier jusqu'à ce qu'un des points change de classe. On peut ensuite aller de plus en plus loin.
Le calcul de l'ensemble des scores associés à cette approche mène directement à la courbe ROC.

**Note:** certains classifieurs sont intrinsèquement plus résistante au problème d'équilibrage, c'est par exemple le cas des techniques de gradient boosting que vous verrez l'an prochain.