# Classification de documents : prise en main des outils

Le but de ce TP est de classer des documents textuels... Dans un premier temps, nous allons vérifier le bon fonctionnement des outils sur des données jouets puis appliquer les concepts sur des données réelles.


## Conception de la chaine de traitement
Pour rappel, une chaine de traitement de documents classique est composée des étapes suivantes:
1. Lecture des données et importation
    - Dans le cadre de nos TP, nous faisons l'hypothèse que le corpus tient en mémoire... Si ce n'est pas le cas, il faut alors ajouter des structures de données avec des buffers (*data-reader*), bien plus complexes à mettre en place.
    - Le plus grand piège concerne l'encodage des données. Dans le TP... Pas (ou peu) de problème. Dans la vraie vie: il faut faire attention à toujours maitriser les formats d'entrée et de sortie.
1. Traitement des données brutes paramétrique. Chaque traitement doit être activable ou desactivable + paramétrable si besoin.
    - Enlever les informations *inutiles* : chiffre, ponctuations, majuscules, etc... <BR>
    **L'utilité dépend de l'application!**
    - Segmenter en mots (=*Tokenization*)
    - Elimination des stop-words
    - Stemming/lemmatisation (racinisation)
    - Byte-pair encoding pour trouver les mots composés (e.g. Sorbonne Université, Ville de Paris, Premier Ministre, etc...)
1. Traitement des données numériques
    - Normalisation *term-frequency* / binarisation
    - Normalisation *inverse document frequency*
    - Elimination des mots rares, des mots trop fréquents
    - Construction de critère de séparabilité pour éliminer des mots etc...
1. Apprentissage d'un classifieur
    - Choix du type de classifieur
    - Réglage des paramètres du classifieur (régularisation, etc...)

## Exploitation de la chaine de traitement

On appelle cette étape la réalisation d'une campagne d'expériences: c'est le point clé que nous voulons traviller en TAL cette année.
1. Il est impossible de tester toutes les combinaisons par rapport aux propositions ci-dessus... Il faut donc en éliminer un certain nombre.
    - En discutant avec les experts métiers
    - En faisant des tests préliminaires
1. Après ce premier filtrage, il faut:
    - Choisir une évaluation fiable et pas trop lente (validation croisée, leave-one-out, split apprentissage/test simple)
    - Lancer des expériences en grand
        - = *grid-search*
        - parallèliser sur plusieurs machines
        - savoir lancer sur un serveur et se déconnecter
1. Collecter et analyser les résultats


## Inférence

L'inférence est ensuite très classique: la chaine de traitement optimale est apte à traiter de nouveaux documents

In [2]:
import numpy as np
import matplotlib.pyplot as plt

# Fonction de traitement des chaines de caractères

Voici quelques fonctions de traitements des chaines de caractères. Il faut:
1. Comprendre le fonctionnement des fonctions suivantes
1. Les intégrer dans une ou plusieurs fonctions permettant d'activer/desactiver les traitements.

In [3]:
doc = 'Le chat est devant la maison, 9 rue du zoo. Le chien attend à l\'intérieur.\nSon site web préféré est www.spa.fr '
print(doc)

Le chat est devant la maison, 9 rue du zoo. Le chien attend à l'intérieur.
Son site web préféré est www.spa.fr 


In [4]:
# récupération de la ponctuation
import string

punc = string.punctuation  # recupération de la ponctuation
punc += '\n\r\t'
doc = doc.translate(str.maketrans(punc, ' ' * len(punc)))  
print(doc)

Le chat est devant la maison  9 rue du zoo  Le chien attend à l intérieur  Son site web préféré est www spa fr 


In [5]:
# suppression des accents et des caractères non normalisés
import unicodedata

doc = unicodedata.normalize('NFD', doc).encode('ascii', 'ignore').decode("utf-8")
doc = doc.lower()
print(doc )

le chat est devant la maison  9 rue du zoo  le chien attend a l interieur  son site web prefere est www spa fr 


In [6]:
# suppression des nombres
import re
doc = re.sub('[0-9]+', '', doc) # remplacer une séquence de chiffres par rien
print(doc)

le chat est devant la maison   rue du zoo  le chien attend a l interieur  son site web prefere est www spa fr 


# Division de la chaine de caractères, construction d'un dictionnaire, stockage dans une matrice

J'utilise volontairement des structures de données qui doivent être nouvelles... Vous devez les comprendre a minima. N'hésitez pas à jeter un oeil sur la documentation

In [7]:
# liste de mots
mots = doc.split() # on peut choisir les séparateurs dans la tokenisation

# comptage
from collections import Counter

dico = Counter(mots)
print(dico)

Counter({'le': 2, 'est': 2, 'chat': 1, 'devant': 1, 'la': 1, 'maison': 1, 'rue': 1, 'du': 1, 'zoo': 1, 'chien': 1, 'attend': 1, 'a': 1, 'l': 1, 'interieur': 1, 'son': 1, 'site': 1, 'web': 1, 'prefere': 1, 'www': 1, 'spa': 1, 'fr': 1})


In [8]:
# construction d'un mapping dictionnaire : mot => indice du mot dans le dictionnaire

trans = dict(zip(list(dico.keys()), np.arange(len(dico)).tolist()))

print(trans)

{'le': 0, 'chat': 1, 'est': 2, 'devant': 3, 'la': 4, 'maison': 5, 'rue': 6, 'du': 7, 'zoo': 8, 'chien': 9, 'attend': 10, 'a': 11, 'l': 12, 'interieur': 13, 'son': 14, 'site': 15, 'web': 16, 'prefere': 17, 'www': 18, 'spa': 19, 'fr': 20}


In [9]:
# stockage dans une matrice 

d = np.zeros(len(trans))
# remplissage
for m in mots:
    d[trans[m]] += 1
    
print(d)

[2. 1. 2. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [10]:
# passage à une matrice sparse
from scipy.sparse import coo_matrix

ds = coo_matrix(d)

print(ds) # evidemment, pour l'instant le vecteur est plein, la démonstration est moins impressionnante!

  (0, 0)	2.0
  (0, 1)	1.0
  (0, 2)	2.0
  (0, 3)	1.0
  (0, 4)	1.0
  (0, 5)	1.0
  (0, 6)	1.0
  (0, 7)	1.0
  (0, 8)	1.0
  (0, 9)	1.0
  (0, 10)	1.0
  (0, 11)	1.0
  (0, 12)	1.0
  (0, 13)	1.0
  (0, 14)	1.0
  (0, 15)	1.0
  (0, 16)	1.0
  (0, 17)	1.0
  (0, 18)	1.0
  (0, 19)	1.0
  (0, 20)	1.0


## Pré-traitements statistiques

A partir de l'objet dico, on peut éliminer les mots rares, les mots fréquents etc...

A partir de la matrice de documents, on peut calculer les tf, idf et autres critères de contraste.

1. Tracer des histogrammes de fréquence d'apparition des mots pour retrouver la loi de zipf
<a href="https://en.wikipedia.org/wiki/Zipf%27s_law">wikipedia</a>

1. Prendre en main une librairie de word cloud pour l'affichage: ce n'est pas très scientifique... Mais ça permet de voir des choses intéressantes et c'est un outil dont vous aurez besoin en entreprise.
Vous pourrez par exemple utiliser : 
<a href="https://github.com/amueller/word_cloud">github</a> (qui est installable par pip)
    
1. Pour calculer une fréquence documentaire, il faut plusieurs documents: ajouter manuellement quelques entrées pour valider votre code.


## Passage à une fonction automatique:

La fonction ```sklearn.feature_extraction.text.CountVectorizer``` permet de réaliser les opérations précédentes automatiquement, avec même un certain nombre d'options supplémentaires:

1. La documentation est disponible ici: <a href="https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html"> lien </a>
    - tester cette fonction sur vos données jouets pour comprendre son fonctionnement
    - vérifier votre capacité à retrouver les mots associés à un indices
    - vérifier le filtrage des mots peu fréquents ou très fréquents pour comprendre la signification des paramètres

1. Parmi les options supplémentaires, étudiez la possibilité d'extraire des bi-grammes ou des tri-grammes de mots et visualiser le dictionnaire associé.

1. Il est essentiel de distinguer la consitution du dictionnaire et l'exploitation du dictionnaire pour les données de test. Re-faire un dictionnaire pour les données de test mènerait inévitablemenet à une catastrophe: il faut faire attention à ne pas tomber dans le piège.
    - séparer votre jeu de données jouet en deux
    - constituer le dictionnaire sur les données d'apprentissage
    - appliquer sur les données de test et vérifier que les indices d'un même mot sont bien identiques entre l'apprentissage et le test.
    
**ATTENTION** à ne pas confondre *fit_transform* = construction + usage du dictionnaire avec *transform* (usage seul). Il faut se poser cette question avec en tête la distinction apprentissage / test

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [\
     'This is the first document.',\
     'This document is the second document.',\
     'And this is the third one.',\
     'Is this the first document?',\
 ]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

print(X.toarray())

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


In [13]:
vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(2, 2))
X2 = vectorizer2.fit_transform(corpus)
print(vectorizer2.get_feature_names())
print(X2.toarray())

['and this', 'document is', 'first document', 'is the', 'is this', 'second document', 'the first', 'the second', 'the third', 'third one', 'this document', 'this is', 'this the']
[[0 0 1 1 0 0 1 0 0 0 0 1 0]
 [0 1 0 1 0 1 0 1 0 0 1 0 0]
 [1 0 0 1 0 0 0 0 1 1 0 1 0]
 [0 0 1 0 1 0 1 0 0 0 0 0 1]]


## Prise en main de scikit-learn: les classifieurs

L'architecture de scikit learn est objet: tous les classifieurs sont interchangeables... Ainsi que les procédures d'évaluations. Voici quelques lignes pour prendre en main les classifieurs qui nous intéressent dans l'UE.
La base proposée est minimale et obligatoire... Mais rien ne vous empêche d'aller au-delà.

In [22]:
import numpy as np
import sklearn.naive_bayes as nb
from sklearn import svm
from sklearn import linear_model as lin

# données ultra basiques, à remplacer par vos corpus vectorisés
N = 100
X = np.random.randn(N,2) 
X[:int(N/2), :] += 2
X[int(N/2):, :] -= 2
y = np.array([1]*int(N/2) + [-1]*int(N/2))

# SVM => Penser à utiliser des SVM linéaire !!!!
clf = svm.LinearSVC()
# Naive Bayes
clf = nb.MultinomialNB()
# regression logistique
clf = lin.LogisticRegression()

# apprentissage
clf.fit(X, y)  
yhat = clf.predict([[2., 2.]]) # usage sur une nouvelle donnée

print("prédiction:",yhat)
print("classifieur:",clf.coef_) # pour rentrer dans le classifieur... Depend évidemment du classifieur!

prédiction: [1]
classifieur: [[1.48490813 1.30218492]]


In [23]:
# Solution 1 pour l'évaluation: validation croisée classique intégrée

from sklearn.model_selection import cross_val_score

# usage en boucle implicite
# le classifieur est donné en argument, tout ce fait implicitement (possibilité de paralléliser avec @@n_jobs@@)
scores = cross_val_score(clf, X, y, cv=5)

print(scores)

[0.95 1.   1.   1.   1.  ]


In [8]:
# SOlution 2: simplifiée en train/test
from sklearn.model_selection import train_test_split

# avec une graine pour la reproductibilité
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.4, random_state=0) 
clf.fit(X_train, y_train)

# Application 
yhat = clf.predict(X_test)
print(yhat)

# calcul d'indicateurs

[ 1 -1  1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1  1  1  1  1  1  1  1  1 -1  1 -1
  1  1  1 -1 -1 -1 -1 -1 -1 -1 -1  1  1 -1 -1 -1]




In [10]:
# SOlution 3: validation croisée "explicite" avec accès aux classifieurs à chaque étape
from sklearn.model_selection import KFold

kf = KFold(n_splits=2)
for train, test in kf.split(X):
    print("%s %s" % (train, test))
    X_train = X[train]
    y_train = y[train]
    X_test  = X[test]
    y_test  = y[test]
    # apprentissage
    # evaluation

[50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
 98 99] [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49] [50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
 98 99]
