# Classification de documents : prise en main des outils

Le but de ce TP est de classer des documents textuels... Dans un premier temps, nous allons vérifier le bon fonctionnement des outils sur des données jouets puis appliquer les concepts sur des données réelles.


## Conception de la chaine de traitement
Pour rappel, une chaine de traitement de documents classique est composée des étapes suivantes:
1. Lecture des données et importation
    - Dans le cadre de nos TP, nous faisons l'hypothèse que le corpus tient en mémoire... Si ce n'est pas le cas, il faut alors ajouter des structures de données avec des buffers (*data-reader*), bien plus complexes à mettre en place.
    - Le plus grand piège concerne l'encodage des données. Dans le TP... Pas (ou peu) de problème. Dans la vraie vie: il faut faire attention à toujours maitriser les formats d'entrée et de sortie.
1. Traitement des données brutes paramétrique. Chaque traitement doit être activable ou desactivable + paramétrable si besoin.
    - Enlever les informations *inutiles* : chiffre, ponctuations, majuscules, etc... <BR>
    **L'utilité dépend de l'application!**
    - Segmenter en mots (=*Tokenization*)
    - Elimination des stop-words
    - Stemming/lemmatisation (racinisation)
    - Byte-pair encoding pour trouver les mots composés (e.g. Sorbonne Université, Ville de Paris, Premier Ministre, etc...)
1. Traitement des données numériques
    - Normalisation *term-frequency* / binarisation
    - Normalisation *inverse document frequency*
    - Elimination des mots rares, des mots trop fréquents
    - Construction de critère de séparabilité pour éliminer des mots etc...
1. Apprentissage d'un classifieur
    - Choix du type de classifieur
    - Réglage des paramètres du classifieur (régularisation, etc...)

## Exploitation de la chaine de traitement

On appelle cette étape la réalisation d'une campagne d'expériences: c'est le point clé que nous voulons traviller en TAL cette année.
1. Il est impossible de tester toutes les combinaisons par rapport aux propositions ci-dessus... Il faut donc en éliminer un certain nombre.
    - En discutant avec les experts métiers
    - En faisant des tests préliminaires
1. Après ce premier filtrage, il faut:
    - Choisir une évaluation fiable et pas trop lente (validation croisée, leave-one-out, split apprentissage/test simple)
    - Lancer des expériences en grand
        - = *grid-search*
        - parallèliser sur plusieurs machines
        - savoir lancer sur un serveur et se déconnecter
1. Collecter et analyser les résultats


## Inférence

L'inférence est ensuite très classique: la chaine de traitement optimale est apte à traiter de nouveaux documents

# Etape 1: charger les données

In [1]:
import numpy as np
import matplotlib.pyplot as plt

import codecs
import re
import os.path

In [2]:
# Chargement des données:
def load_pres(fname):
    alltxts = []
    alllabs = []
    s=codecs.open(fname, 'r','utf-8') # pour régler le codage
    while True:
        txt = s.readline()
        if(len(txt))<5:
            break
        #
        lab = re.sub(r"<[0-9]*:[0-9]*:(.)>.*","\\1",txt)
        txt = re.sub(r"<[0-9]*:[0-9]*:.>(.*)","\\1",txt)
        if lab.count('M') >0:
            alllabs.append(-1)
        else: 
            alllabs.append(1)
        alltxts.append(txt)
    return alltxts,alllabs


In [3]:
fname = "corpus.tache1.learn.utf8"

alltxts,alllabs = load_pres(fname)
dataset_debat, labels_debat = load_pres(fname)

In [4]:
print(len(alltxts),len(alllabs)) # sample, label
print(alltxts[0])
print(alllabs[0])
print(alltxts[-1])
print(alllabs[-1])


57413 57413
 Quand je dis chers amis, il ne s'agit pas là d'une formule diplomatique, mais de l'expression de ce que je ressens.

1
 Je compte sur vous.

1


In [5]:
def load_movies(path2data): # 1 classe par répertoire
    alltxts = [] # init vide
    labs = []
    cpt = 0
    for cl in os.listdir(path2data): # parcours des fichiers d'un répertoire
        for f in os.listdir(path2data+cl):
            txt = open(path2data+cl+'/'+f).read()
            alltxts.append(txt)
            labs.append(cpt)
        cpt+=1 # chg répertoire = cht classe
        
    return alltxts,labs


In [6]:
path = "movies1000/"

alltxts,alllabs = load_movies(path)

# Transformation paramétrique du texte

Vous devez tester, par exemple, les cas suivants:
- transformation en minuscule ou pas
- suppression de la ponctuation
- transformation des mots entièrement en majuscule en marqueurs spécifiques
- suppression des chiffres ou pas
- conservation d'une partie du texte seulement (seulement la première ligne = titre, seulement la dernière ligne = résumé, ...)
- stemming
- ...


Vérifier systématiquement sur un exemple ou deux le bon fonctionnement des méthodes sur deux documents (au moins un de chaque classe).

In [7]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words('french'))

In [8]:
import string
import unicodedata


punc = string.punctuation  # recupération de la ponctuation
punc += '\n\r\t'

def preprocess_txt(text): 
    # preprocess
    text = re.sub(r'\d+', '', text)
    text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode("utf-8")
    text = text.translate(str.maketrans(punc, ' ' * len(punc))) 
    text = text.lower()
    return text

In [36]:
from nltk.stem.snowball import FrenchStemmer
from sklearn.feature_extraction.text import CountVectorizer
import time


stemmer = FrenchStemmer()


class StemmedCountVectorizer(CountVectorizer):
    """
        A custom class to pass a stemmer to CountVectorizer
    """
    # TODO : 
    # fix attributes
    def __init__(self, stemmer, preprocessor, stop_words, max_features, min_df):
        super(StemmedCountVectorizer, self).__init__(
            preprocessor=preprocessor,
            stop_words=stop_words,
            max_features=max_features,
            min_df=min_df
        )
        self.stemmer = stemmer

    def fit_transform(self, raw_documents, y=None): 
        """
            basic fit transform but with time execution
            TODO : write seperatly
        """
        start = time.clock()
        res = super().fit_transform(raw_documents, y)
        end = time.clock()
        print(f"Fit tranform on {self.__class__.__name__} with data of length {len(raw_documents)} exec in {end - start} secs")
        return res
        
    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizer, self).build_analyzer()
        return lambda doc:(self.stemmer.stem(w) for w in analyzer(doc))
    
    def report(self):
        """
            A simple report regarding the name of the features and the different 
            parameters
        """
        vocab = super().get_feature_names()
        params = super().get_params()
        del params["stop_words"]
        del params["preprocessor"]
        del params["stemmer"]
        
        print(f"Found vocab of length {len(vocab)} with the following params \n {params}")


In [37]:
# params
max_features = 100
min_df = 2

In [None]:
ngram = [1, 2, 3]
min_freq = []
max_frq = []


for ng in ngram: 
    for mf in min_frq: 
        
        creer un vectorizer 
        récupérer le vocab
        X.toarray
        
        train split 
        
        train model 
        

In [38]:
vectorizer = StemmedCountVectorizer(
    preprocessor=preprocess_txt, 
    stop_words=stop_words, 
    stemmer=stemmer, 
    max_features=max_features, 
    min_df=min_df
)
X = vectorizer.fit_transform(dataset_debat)
X.toarray() # data

  'stop_words.' % sorted(inconsistent))


Fit tranform on StemmedCountVectorizer with data of length 57413 exec in 24.671614800000043 secs




array([[0, 0, 0, ..., 0, 0, 0],
       [1, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 1, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [39]:
features = vectorizer.get_feature_names()
print(features)

['abord', 'action', 'an', 'anne', 'aujourd', 'auss', 'autr', 'aven', 'beaucoup', 'bien', 'cel', 'certain', 'cet', 'ceux', 'chacun', 'comm', 'commun', 'dat', 'democrat', 'depuis', 'deux', 'developp', 'devon', 'dir', 'doit', 'don', 'dont', 'droit', 'econom', 'effort', 'elle', 'encor', 'enfin', 'engag', 'ensembl', 'entre', 'entrepris', 'etait', 'etat', 'ete', 'etre', 'europ', 'europeen', 'fair', 'fait', 'faut', 'forc', 'fort', 'franc', 'francais', 'gouvern', 'grand', 'histoir', 'homm', 'hui', 'ici', 'import', 'international', 'jeun', 'leur', 'mem', 'mond', 'monsieur', 'moyen', 'nation', 'national', 'naturel', 'nom', 'not', 'nouveau', 'nouvel', 'paix', 'parc', 'part', 'pay', 'peupl', 'peut', 'plac', 'plus', 'polit', 'premi', 'president', 'quelqu', 'relat', 'respect', 'san', 'securit', 'servic', 'seul', 'si', 'social', 'societ', 'souhait', 'temp', 'toujour', 'tous', 'tout', 'tre', 'union', 'vi']


In [40]:
vectorizer.report()

Found vocab of length 100 with the following params 
 {'max_features': 100, 'min_df': 2}


## Extraction du vocabulaire

Exploration préliminaire des jeux de données.

- Quelle est la taille d'origine du vocabulaire?
- Que reste-t-il si on ne garde que les 100 mots les plus fréquents? [word cloud]
- Quels sont les 100 mots dont la fréquence documentaire est la plus grande? [word cloud]
- Quels sont les 100 mots les plus discriminants au sens de odds ratio? [word cloud]
- Quelle est la distribution d'apparition des mots (Zipf)
- Quels sont les 100 bigrammes/trigrammes les plus fréquents?


Question qui devient de plus en plus intéressante avec les approches modernes:
est-il possible d'extraire des tri-grammes de lettres pour représenter nos documents?

Quelle performances attendrent? Quels sont les avantages et les inconvénients d'une telle approche?

# Modèles de Machine Learning

Avant de lancer de grandes expériences, il faut se construire une base de travail solide en étudiant les questions suivantes:

- Combien de temps ça prend d'apprendre un classifieur NB/SVM/RegLog sur ces données en fonction de la taille du vocabulaire?
- La validation croisée est-elle nécessaire? Est ce qu'on obtient les mêmes résultats avec un simple *split*?
- La validation croisée est-elle stable? A partir de combien de fold (travailler avec différentes graines aléatoires et faire des statistiques basiques)?

In [46]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, labels_debat, test_size=0.2, random_state=0) 

##### GridSearchCV : "computes the score during the fit of an estimator on a parameter grid and chooses the parameters to maximize the cross-validation score"

### Methodology 

![image.png](attachment:image.png)

In [63]:
import sklearn.naive_bayes as nb
from sklearn import svm
from sklearn import linear_model as lin
from sklearn.model_selection import cross_val_score, GridSearchCV


# TODO : train "nb" : nb.MultinomialNB seperatly using the "alpha param" 

clfs = {
    "logreg" : lin.LogisticRegression,
    "svm" : svm.LinearSVC
}


## Première campagne d'expériences

Les techniques sur lesquelles nous travaillons étant sujettes au sur-apprentissage: trouver le paramètre de régularisation dans la documentation et optimiser ce paramètre au sens de la métrique qui vous semble la plus appropriée (cf question précédente).

In [64]:
import pandas as pd # for reporting

In [72]:
import os 

CURR_DIR = os.getcwd()
REPORTS_DIR = os.path.join(CURR_DIR, "reports")

In [73]:
from sklearn.metrics import accuracy_score, precision_score, recall_score
import warnings # TODO fix warnings
warnings.filterwarnings('ignore')

C = np.logspace(-6, 1, 10)

grid_params = {
    "C" : C
}

reports = pd.DataFrame({
    "best_score" : [], 
    "best_C" : [], 
    "clf" : [], 
    "time" : []
})


for name, clf in clfs.items(): 
    print(f"GridSearch on estimator {name}")
    clf = GridSearchCV(estimator=clf(), param_grid=grid_params,n_jobs=-1)
    start = time.clock()
    clf.fit(X_train, y_train)
    end = time.clock()
    print(f"Trained {name} with GridSearch for {(end - start):.2f} secs ")

    reports = reports.append({
        "best_score" : clf.best_score_, 
        "best_C" : clf.best_estimator_.C, 
        "clf" : name, 
        "time" : end-start
    }, ignore_index=True)

print("Training DONE !")
    

GridSearch on estimator logreg
Trained logreg with GridSearch for 10.69 secs 
GridSearch on estimator svm
Trained svm with GridSearch for 65.35 secs 
Training DONE !


In [75]:
reports.head(10)

# saving the report
naive_report_path = os.path.join(REPORTS_DIR, "naive_report_gridsearch")
reports.to_csv(naive_report_path)

## Equilibrage des données

Un problème reconnu comme dur dans la communauté est celui de l'équilibrage des classes (*balance* en anglais). Que faire si les données sont à 80, 90 ou 99% dans une des classes?
Le problème est dur mais fréquent; les solutions sont multiples mais on peut isoler 3 grandes familles de solution.

1. Ré-équilibrer le jeu de données: supprimer des données dans la classe majoritaire et/ou sur-échantilloner la classe minoritaire.<BR>
   $\Rightarrow$ A vous de jouer pour cette technique
1. Changer la formulation de la fonction de coût pour pénaliser plus les erreurs dans la classe minoritaire:
soit une fonction $\Delta$ mesurant les écarts entre $f(x_i)$ et $y_i$ 
$$C = \sum_i  \alpha_i \Delta(f(x_i),y_i), \qquad \alpha_i = \left\{
\begin{array}{ll}
1 & \mbox{si } y_i \in \mbox{classe majoritaire}\\
B>1 & \mbox{si } y_i \in \mbox{classe minoritaire}\\
\end{array} \right.$$
<BR>
   $\Rightarrow$ Les SVM et d'autres approches sklearn possèdent des arguments pour régler $B$ ou $1/B$... Ces arguments sont utiles mais pas toujours suffisant.
1. Courbe ROC et modification du biais. Une fois la fonction $\hat y = f(x)$ apprise, il est possible de la *bidouiller* a posteriori: si toutes les prédictions $\hat y$ sont dans une classe, on va introduire $b$ dans $\hat y = f(x) + b$ et le faire varier jusqu'à ce qu'un des points change de classe. On peut ensuite aller de plus en plus loin.
Le calcul de l'ensemble des scores associés à cette approche mène directement à la courbe ROC.

**Note:** certains classifieurs sont intrinsèquement plus résistante au problème d'équilibrage, c'est par exemple le cas des techniques de gradient boosting que vous verrez l'an prochain.