# Premier exemple pratique avec le Machine Learning pour le traitement du langage naturel

## Un exemple rapide : la prédiction du genre du nom

Supposons que nous ayons collecté une liste de noms personnels et que nous ayons leurs étiquettes de genre correspondantes, c'est-à-dire si le nom est masculin ou féminin.

Le but de cet exemple est de créer un classificateur qui classerait automatiquement un prénom en masculin ou féminin.

## Installation des outils et bibliothèques

#### Installation des outils

1. Installation de Python

2. Installation de Anaconda

Pour plus de détails sur l'installation de ces deux outils, vous pouvez suivre notre vidéo YouTube. Source: https://www.youtube.com/watch?v=Qef4GESFM0I&ab_channel=OnesimeMb 

#### Installation des bibliothèques

In [None]:
!pip install Numpy
!pip install nltk.corpus.names
!pip install scikit-learn


### Préparer les données

- Nous utilisons les données fournies dans NLTK. Veuillez télécharger les données du corpus si nécessaire.
- Nous chargeons le corpus, `nltk.corpus.names` et le randomisons avant de continuer

In [3]:
import numpy as np
import nltk
from nltk.corpus import names
import random

In [6]:
import nltk
nltk.download('names')

[nltk_data] Downloading package names to C:\Users\Onesime
[nltk_data]     Mb\AppData\Roaming\nltk_data...
[nltk_data]   Package names is already up-to-date!


True

In [7]:
 = ([(name, 'male') for name in names.words('male.txt')] +
                 [(name, 'female') for name in names.words('female.txt')])
random.shuffle(etiquettes_noms)

### Feature Engineering ou Ingénierie des fonctionnalités

- Maintenant, notre unité de classification est un nom.
- En **ingénierie de fonctionnalités**, notre objectif est de transformer les textes (c'est-à-dire les noms) en représentations vectorisées.
- Pour commencer, représentons chaque texte (nom) en utilisant son dernier caractère comme caractéristiques.

In [25]:
def vectorisation_texte(mot):
    return {'dernière lettre': mot[-1]}


vectorisation_texte('Onesime')

{'dernière lettre': 'e'}

### Division de Jeu de donnees en Train-Test sets

- Nous appliquons ensuite la méthode d'ingénierie des fonctionnalités à chaque texte des données et divisons les données en **Training** et **test**.

In [26]:
featuresets = [(vectorisation_texte(n), gender) for (n, gender) in etiquettes_noms]
train_set, test_set = featuresets[500:], featuresets[:500]

 ### Entrainement du modèle

- Un bon début est d'essayer le simple classificateur Naive Bayes

In [27]:
classificateur = nltk.NaiveBayesClassifier.train(train_set)

### Model Prediction

In [28]:
print(classificateur.classify(vectorisation_texte('Eric')))
print(classificateur.classify(vectorisation_texte('Patrick')))
print(classificateur.classify(vectorisation_texte('Aimee')))
print(classificateur.classify(vectorisation_texte('Tina')))

male
male
female
female


In [29]:
print(nltk.classify.accuracy(classificateur, test_set))

0.774


### Analyse post-hoc

- L'une des étapes les plus importantes après la formation du modèle consiste à examiner quelles caractéristiques contribuent le plus à la prédiction du classificateur de la classe.

In [30]:
classificateur.show_most_informative_features(5)

Most Informative Features
         dernière lettre = 'a'            female : male   =     35.4 : 1.0
         dernière lettre = 'k'              male : female =     31.5 : 1.0
         dernière lettre = 'p'              male : female =     20.0 : 1.0
         dernière lettre = 'f'              male : female =     16.1 : 1.0
         dernière lettre = 'v'              male : female =     10.6 : 1.0


- Veuillez noter que dans **NLTK**, nous pouvons utiliser **apply_features** pour créer des ensembles Training et de teste.
- Lorsque vous disposez d'un très grand ensemble de fonctionnalités, cela peut être plus efficace en termes de gestion de la mémoire.

- Il s'agit de notre précédente méthode de création d'ensembles de formation et de test :

```
featuresets = [(vectorisation_texte(n), gender) for (n, gender) in etiquettes_noms]
train_set, test_set = featuresets[500:], featuresets[:500]
```



In [32]:
from nltk.classify import apply_features
train_set = apply_features(vectorisation_texte, etiquettes_noms[500:])
test_set = apply_features(vectorisation_texte, etiquettes_noms[:500])

## Comment pouvons-nous améliorer le modèle/classificateur ?

Dans ce qui suit, nous parlerons des méthodes que nous pourrions envisager pour améliorer davantage la formation du modèle.

- Ingénierie des fonctionnalités
- Erreur d'analyse
- Validation croisée
- Essayez différents algorithmes d'apprentissage automatique
- (Méthodes d'ensemble)

## Ingénierie de fonctionnalités plus avancée

- Nous pouvons extraire plus de fonctionnalités des noms.
- Utilisez les fonctionnalités suivantes pour les représentations vectorisées des noms :
     - La première/dernière lettre
     - Fréquences des 26 alphabets dans les noms

In [37]:
def vectorisation_texte2(nom):
    features = {}
    features["first_letter"] = nom[0].lower()
    features["last_letter"] = nom[-1].lower()
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = nom.lower().count(letter)
        features["has({})".format(letter)] = (letter in nom.lower())
    return features


vectorisation_texte2('carolle')

{'first_letter': 'c',
 'last_letter': 'e',
 'count(a)': 1,
 'has(a)': True,
 'count(b)': 0,
 'has(b)': False,
 'count(c)': 1,
 'has(c)': True,
 'count(d)': 0,
 'has(d)': False,
 'count(e)': 1,
 'has(e)': True,
 'count(f)': 0,
 'has(f)': False,
 'count(g)': 0,
 'has(g)': False,
 'count(h)': 0,
 'has(h)': False,
 'count(i)': 0,
 'has(i)': False,
 'count(j)': 0,
 'has(j)': False,
 'count(k)': 0,
 'has(k)': False,
 'count(l)': 2,
 'has(l)': True,
 'count(m)': 0,
 'has(m)': False,
 'count(n)': 0,
 'has(n)': False,
 'count(o)': 1,
 'has(o)': True,
 'count(p)': 0,
 'has(p)': False,
 'count(q)': 0,
 'has(q)': False,
 'count(r)': 1,
 'has(r)': True,
 'count(s)': 0,
 'has(s)': False,
 'count(t)': 0,
 'has(t)': False,
 'count(u)': 0,
 'has(u)': False,
 'count(v)': 0,
 'has(v)': False,
 'count(w)': 0,
 'has(w)': False,
 'count(x)': 0,
 'has(x)': False,
 'count(y)': 0,
 'has(y)': False,
 'count(z)': 0,
 'has(z)': False}

In [39]:
vectorisation_texte2('Onesime')

{'first_letter': 'o',
 'last_letter': 'e',
 'count(a)': 0,
 'has(a)': False,
 'count(b)': 0,
 'has(b)': False,
 'count(c)': 0,
 'has(c)': False,
 'count(d)': 0,
 'has(d)': False,
 'count(e)': 2,
 'has(e)': True,
 'count(f)': 0,
 'has(f)': False,
 'count(g)': 0,
 'has(g)': False,
 'count(h)': 0,
 'has(h)': False,
 'count(i)': 1,
 'has(i)': True,
 'count(j)': 0,
 'has(j)': False,
 'count(k)': 0,
 'has(k)': False,
 'count(l)': 0,
 'has(l)': False,
 'count(m)': 1,
 'has(m)': True,
 'count(n)': 1,
 'has(n)': True,
 'count(o)': 1,
 'has(o)': True,
 'count(p)': 0,
 'has(p)': False,
 'count(q)': 0,
 'has(q)': False,
 'count(r)': 0,
 'has(r)': False,
 'count(s)': 1,
 'has(s)': True,
 'count(t)': 0,
 'has(t)': False,
 'count(u)': 0,
 'has(u)': False,
 'count(v)': 0,
 'has(v)': False,
 'count(w)': 0,
 'has(w)': False,
 'count(x)': 0,
 'has(x)': False,
 'count(y)': 0,
 'has(y)': False,
 'count(z)': 0,
 'has(z)': False}

In [44]:
train_set = apply_features(vectorisation_texte2, etiquettes_noms[500:])
test_set = apply_features(vectorisation_texte2, etiquettes_noms[:500])
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))

0.786


In [45]:
classifier.show_most_informative_features(n=20)

Most Informative Features
             last_letter = 'a'            female : male   =     35.4 : 1.0
             last_letter = 'k'              male : female =     31.5 : 1.0
             last_letter = 'p'              male : female =     20.0 : 1.0
             last_letter = 'f'              male : female =     16.1 : 1.0
             last_letter = 'v'              male : female =     10.6 : 1.0
                count(v) = 2              female : male   =      9.1 : 1.0
             last_letter = 'd'              male : female =      8.9 : 1.0
             last_letter = 'm'              male : female =      8.6 : 1.0
             last_letter = 'o'              male : female =      8.2 : 1.0
             last_letter = 'r'              male : female =      6.8 : 1.0
             last_letter = 'g'              male : female =      5.3 : 1.0
             last_letter = 'w'              male : female =      5.1 : 1.0
            first_letter = 'w'              male : female =      4.7 : 1.0

## Répartition des données en training et test pour l'analyse des erreurs

- Normalement, nous avons des répartitions de données **entraînement**-**tests**
- Parfois, nous pouvons utiliser l'ensemble **development (dev)** pour l'analyse des erreurs et l'ingénierie des fonctionnalités.
- Cet ensemble de développement doit être indépendant des ensembles de formation et de test.

- Entraînons maintenant le modèle sur l'**ensemble d'entraînement** et vérifions d'abord les performances du classificateur sur l'ensemble **dev**.
- Nous identifions ensuite les erreurs commises par le classificateur dans l'ensemble **dev**.
- Nous effectuons une analyse des erreurs pour une amélioration ultérieure.
- Nous testons uniquement notre **modèle final** sur l'ensemble de test. (Remarque : l'ensemble de test ne peut être utilisé qu'**une seule**.)

In [47]:
train_names = etiquettes_noms[1500:]
devtest_names = etiquettes_noms[500:1500]
test_names = etiquettes_noms[:500]

train_set = [(vectorisation_texte2(n), gender) for (n, gender) in train_names]
devtest_set = [(vectorisation_texte2(n), gender) for (n, gender) in devtest_names]
test_set = [(vectorisation_texte2(n), gender) for (n, gender) in test_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set))

0.761


In [49]:
errors = []
for (name, tag) in devtest_names:
    guess = classifier.classify(vectorisation_texte2(name))
    if guess != tag:
        errors.append((tag, guess, name))

In [50]:
import csv

with open('error-analysis.csv', 'w') as f:

    # using csv.writer method from CSV package
    write = csv.writer(f)
    write.writerow(['tag', 'guess', 'name'])
    write.writerows(errors)

- Idéalement, nous pouvons inspecter les erreurs dans une feuille de calcul et proposer de meilleures règles (fonctionnalités) qui pourraient aider à améliorer le classificateur.

In [51]:
import pandas as pd
## check first and last N rows
pd.read_csv('error-analysis.csv').iloc[[*range(10), *range(-10, 0)],]

Unnamed: 0,tag,guess,name
0,male,female,Ajay
1,female,male,Charlott
2,male,female,Mattias
3,male,female,Randi
4,female,male,Fortune
5,male,female,Aaron
6,male,female,Lorrie
7,male,female,Clarke
8,male,female,Gabriele
9,female,male,Myriam


## Evaluation

![](../images/confusion-matrix.jpeg)

- Matrice de confusion :
     - Les **vrais positifs** sont des éléments pertinents que nous avons correctement identifiés comme pertinents.
     - Les **vrais négatifs** sont des éléments non pertinents que nous avons correctement identifiés comme non pertinents.
     - Les **faux positifs** (ou erreurs de type I) sont des éléments non pertinents que nous avons identifiés à tort comme pertinents.
     - Les **faux négatifs** (ou erreurs de type II) sont des éléments pertinents que nous avons identifiés à tort comme non pertinents.
    

Compte tenu de ces quatre nombres, nous pouvons définir les métriques d'évaluation du modèle suivantes:
- **Accuracy** : combien d'éléments ont été correctement classés, -c'est-à-dire., $\frac{VP + FN}{N}$
- **Précision** : combien d'éléments identifiés par le classificateur comme pertinents sont effectivement pertinents, c'est-à-dire., $\frac{VP}{VP+FP}$.
- **Rappel** : combien d'éléments véritablement pertinents ont été identifiés avec succès par le classificateur, c'est-à-dire., $\frac{VP}{VP+FN}$.
- **F-Measure (ou F-Score)** : la moyenne harmonique de la précision et du rappel,c'est-à-dire.:
    

$$ 
F= \frac{(2 × Precision × Recall)}{(Precision + Recall)} 
$$

:::{noter}

Lorsque nous traitons de distributions de classes déséquilibrées, nous devons prendre en compte les performances de base dans notre évaluation de modèle. Par exemple. si la distribution de la `Class 0` et de la `Class 1` est de 9 : 1, alors un classificateur naïf pourrait tout aussi bien classer tous les cas comme `Class 0`, produisant une performance de haute **précision** (c'est-à-dire Précision = 90 %).

Compte tenu de cette base de référence, pour mieux évaluer le classificateur sur un ensemble de données déséquilibré, les **taux de rappel** du classificateur sont probablement plus importants.

:::

In [53]:
print('Accuracy: {:4.2f}'.format(nltk.classify.accuracy(classifier, test_set)))

Accuracy: 0.79


In [54]:
## Compute the Confusion Matrix
t_f = [feature for (feature, label) in test_set]  # features of test set
t_l = [label for (feature, label) in test_set]  # labels of test set
t_l_pr = [classifier.classify(f) for f in t_f]  # predicted labels of test set
cm = nltk.ConfusionMatrix(t_l, t_l_pr)

In [55]:
cm = nltk.ConfusionMatrix(t_l, t_l_pr)
print(cm.pretty_format(sort_by_count=True, show_percents=True, truncate=9))

       |      f        |
       |      e        |
       |      m      m |
       |      a      a |
       |      l      l |
       |      e      e |
-------+---------------+
female | <49.6%> 10.2% |
  male |  11.2% <29.0%>|
-------+---------------+
(row = reference; col = test)



In [56]:
def createCM(classifier, test_set):
    t_f = [feature for (feature, label) in test_set]
    t_l = [label for (feature, label) in test_set]
    t_l_pr = [classifier.classify(f) for f in t_f]
    cm = nltk.ConfusionMatrix(t_l, t_l_pr)
    print(cm.pretty_format(sort_by_count=True, show_percents=True, truncate=9))

In [57]:
createCM(classifier, test_set)

       |      f        |
       |      e        |
       |      m      m |
       |      a      a |
       |      l      l |
       |      e      e |
-------+---------------+
female | <49.6%> 10.2% |
  male |  11.2% <29.0%>|
-------+---------------+
(row = reference; col = test)



## Validation croisée

- Nous pouvons également vérifier les performances moyennes de notre modèle en utilisant la méthode de validation croisée.

In [58]:
import sklearn.model_selection
kf = sklearn.model_selection.KFold(n_splits=10)
acc_kf = []  ## accuracy holder

## Cross-validation
for train_index, test_index in kf.split(train_set):
    #print("TRAIN:", train_index, "TEST:", test_index)
    classifier = nltk.NaiveBayesClassifier.train(
        train_set[train_index[0]:train_index[len(train_index) - 1]])
    cur_fold_acc = nltk.classify.util.accuracy(
        classifier, train_set[test_index[0]:test_index[len(test_index) - 1]])
    acc_kf.append(cur_fold_acc)
    print('accuracy:', np.round(cur_fold_acc, 2))

accuracy: 0.77
accuracy: 0.79
accuracy: 0.77
accuracy: 0.79
accuracy: 0.77
accuracy: 0.79
accuracy: 0.79
accuracy: 0.78
accuracy: 0.79
accuracy: 0.78


In [59]:
np.mean(acc_kf)

0.7813193686427171

## Formation de différents algorithmes de machine learning

- Il existe de nombreux algorithmes ML pour les tâches de classification.
- Ici, nous allons démontrer quelques classificateurs supplémentaires implémentés dans NLTK, notamment :
     - Classificateur d'entropie maximale (régression logistique)
     - Classificateur d'arbre de décision
- De plus, dans NLTK, nous pouvons également utiliser les méthodes de classification fournies dans `sklearn`, notamment :
     - Bayes naïf
     - Régression logistique
     - Machine à vecteurs de support

- Lorsque nous essayons un autre algorithme ML, nous procédons comme suit :
     - entraîner le modèle
     - vérifier les performances du modèle (matrice de précision et de confusion)
     - vérifier les fonctionnalités les plus informatives
     - obtenir des performances moyennes en utilisant la validation croisée *k*-fold

# Classificateur Maxent

souce: https://pro.arcgis.com/fr/pro-app/latest/tool-reference/spatial-statistics/how-presence-only-prediction-works.htm


- Nota : Maxent est gourmand en mémoire, plus lent et nécessite `numpy`.


In [60]:
%%time
from nltk.classify import MaxentClassifier
classifier_maxent = MaxentClassifier.train(train_set,
                                           algorithm='iis',
                                           trace=0,
                                           max_iter=10000,
                                           min_lldelta=0.001)

CPU times: total: 2min 1s
Wall time: 4min 5s


```{remarque}
L'algorithme par défaut pour la formation est « iis » (Improved Iterative Scaling). Une autre alternative est `gis` (General Iterative Scaling), qui est plus rapide.
```

In [61]:
nltk.classify.accuracy(classifier_maxent, test_set)

0.81

In [62]:
classifier_maxent.show_most_informative_features(n=20)

  -3.354 last_letter=='a' and label is 'male'
  -2.365 last_letter=='k' and label is 'female'
  -2.316 last_letter=='f' and label is 'female'
  -2.090 count(v)==2 and label is 'male'
  -1.552 last_letter=='v' and label is 'female'
   1.443 count(j)==2 and label is 'female'
  -1.232 last_letter=='m' and label is 'female'
  -1.219 last_letter=='d' and label is 'female'
  -1.100 last_letter=='o' and label is 'female'
  -1.069 last_letter=='z' and label is 'female'
  -1.063 last_letter=='i' and label is 'male'
   1.055 last_letter=='c' and label is 'male'
  -0.881 last_letter=='g' and label is 'female'
  -0.875 last_letter=='r' and label is 'female'
  -0.867 count(y)==2 and label is 'male'
  -0.858 last_letter=='j' and label is 'female'
   0.858 count(g)==3 and label is 'male'
  -0.849 count(e)==4 and label is 'male'
   0.831 last_letter=='p' and label is 'male'
  -0.771 count(e)==3 and label is 'male'


In [63]:
createCM(classifier_maxent, test_set)

       |      f        |
       |      e        |
       |      m      m |
       |      a      a |
       |      l      l |
       |      e      e |
-------+---------------+
female | <53.0%>  6.8% |
  male |  12.2% <28.0%>|
-------+---------------+
(row = reference; col = test)



In [64]:
%%time
for train_index, test_index in kf.split(train_set):
    #print("TRAIN:", train_index, "TEST:", test_index)
    classifier = MaxentClassifier.train(
        train_set[train_index[0]:train_index[len(train_index) - 1]],
        algorithm='gis',
        trace=0,
        max_iter=100,
        min_lldelta=0.01) ## set smaller value for `min_lldelta`
    print(
        'accuracy:',
        nltk.classify.util.accuracy(
            classifier,
            train_set[test_index[0]:test_index[len(test_index) - 1]]))

accuracy: 0.6583850931677019
accuracy: 0.7096273291925466
accuracy: 0.6816770186335404
accuracy: 0.6940993788819876
accuracy: 0.6811819595645412
accuracy: 0.6827371695178849
accuracy: 0.6734059097978227
accuracy: 0.7216174183514774
accuracy: 0.702954898911353
accuracy: 0.6982892690513219
CPU times: total: 2min 29s
Wall time: 4min 39s


# Arbre de décision

- Parameters:
    - `binary`: whether the features are binary
    - `entropy_cutoff`: a value used during tree refinement process
        - entropy = 1 -> high-level uncertainty
        - entropy = 0 -> perfect model prediction
    - `depth_cutoff`: to control the depth of the tree
    - `support_cutoff`: the minimum number of instances that are required to make a decision about a feature.

In [65]:
%%time
from nltk.classify import DecisionTreeClassifier
classifier_dt = DecisionTreeClassifier.train(train_set,
                                             binary=True,
                                             entropy_cutoff=0.7,
                                             depth_cutoff=5,
                                             support_cutoff=5)

CPU times: total: 12.8 s
Wall time: 25.5 s


In [66]:
nltk.classify.accuracy(classifier_dt, test_set)

0.732

In [67]:
createCM(classifier_dt, test_set)

       |      f        |
       |      e        |
       |      m      m |
       |      a      a |
       |      l      l |
       |      e      e |
-------+---------------+
female | <57.6%>  2.2% |
  male |  24.6% <15.6%>|
-------+---------------+
(row = reference; col = test)



In [68]:
%%time

for train_index, test_index in kf.split(train_set):
    #print("TRAIN:", train_index, "TEST:", test_index)
    classifier = DecisionTreeClassifier.train(
        train_set[train_index[0]:train_index[len(train_index) - 1]],
        binary=True,
        entropy_cutoff=0.7,
        depth_cutoff=5,
        support_cutoff=5)
    print(
        'accuracy:',
        nltk.classify.util.accuracy(
            classifier,
            train_set[test_index[0]:test_index[len(test_index) - 1]]))

accuracy: 0.6863354037267081
accuracy: 0.718944099378882
accuracy: 0.7018633540372671
accuracy: 0.7127329192546584
accuracy: 0.7169517884914464
accuracy: 0.6967340590979783
accuracy: 0.6998444790046656
accuracy: 0.7542768273716952
accuracy: 0.7325038880248833
accuracy: 0.7325038880248833
CPU times: total: 2min 14s
Wall time: 3min 55s


# `sklearn` Classificateurs

- `sklearn` est un module très utile pour le machine learning. Nous parlerons davantage de ce module dans la suite de nos tutoriels.
- Ce package fournit beaucoup plus d'algorithmes ML pour les tâches de classification.

## Bayes naïfs dans `sklearn`

In [69]:
from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.naive_bayes import MultinomialNB

sk_classifier = SklearnClassifier(MultinomialNB())
sk_classifier.train(train_set)

<SklearnClassifier(MultinomialNB())>

In [70]:
nltk.classify.accuracy(sk_classifier, test_set)

0.784

## Régression logistique dans `sklearn`

In [38]:
from sklearn.linear_model import LogisticRegression
sk_classifier = SklearnClassifier(LogisticRegression(max_iter=500))
sk_classifier.train(train_set)
nltk.classify.accuracy(sk_classifier, test_set)

0.802

## Machine à vecteurs de support dans `sklearn`

- `sklearn` fournit plusieurs implémentations pour les machines à vecteurs de support.
- Veuillez consulter sa documentation pour plus de détails: [Support Vector Machine](https://scikit-learn.org/stable/modules/svm.html)

In [39]:
from sklearn.svm import SVC
sk_classifier = SklearnClassifier(SVC())
sk_classifier.train(train_set)
nltk.classify.accuracy(sk_classifier, test_set)

0.816

In [40]:
from sklearn.svm import LinearSVC
sk_classifier = SklearnClassifier(LinearSVC(max_iter=2000))
sk_classifier.train(train_set)
nltk.classify.accuracy(sk_classifier, test_set)



0.802

In [41]:
from sklearn.svm import NuSVC
sk_classifier = SklearnClassifier(NuSVC())
sk_classifier.train(train_set)
nltk.classify.accuracy(sk_classifier, test_set)

0.81

## Travaux à faire plus tard

- L'ingénierie des fonctionnalités est cruciale pour le processus d'apprentissage automatique.
- La qualité de la vectorisation du texte détermine presque en grande partie les performances du classificateur.
- Chaque algorithme ML nécessite de nombreux paramètres d'**hyperparamètres**, ce qui peut avoir un impact substantiel sur les performances du modèle.
- Nous avons besoin d'un moyen plus **systématique** pour trouver les combinaisons optimales d'hyperparamètres pour un algorithme ML donné.

#### Contacts

- mbonesime@gmai.com
- mbulayi.onesime@unikin.ac.cd