# Classification de pr√©noms en genre (masculin/f√©minin) üá´üá∑

[Xiaoou WANG](https://https://scholar.google.fr/citations?user=vKAMMpwAAAAJ&hl=en)

Cet exemple tr√®s simple issu du [livre](https://www.amazon.fr/Natural-Language-Processing-Python-Steven/dp/0596516495/ref=sr_1_11?__mk_fr_FR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&dchild=1&keywords=nltk&qid=1616280931&sr=8-11) de Steven Bird vous donne une id√©e sur √† quoi ressemble le boulot d'un ing√©nieur junior en Machine Learning.

La t√¢che consiste √† entra√Æner un classifieur bay√©sien pour pr√©dire le genre d'un pr√©nom.


## S√©lection de features

On commence par prendre la derni√®re lettre d'un pr√©nom comme feature et la stocker dans un dictionnaire.

In [3]:
#! creation de last latter comme feature

import nltk
from nltk.corpus import names
import random
random.seed(13)
def gender_features(word):
     return {'last_letter': word[-1]}

print("La derni√®re lettre du pronom Shrek est")
gender_features('Shrek')

La derni√®re lettre du prnom Shrek est


{'last_letter': 'k'}

## Mise en forme du corpus

Le corpus provient de `nltk`. Ici on cr√©e une liste de tuples gr√¢ce √† quelques m√©thodes int√©gr√©es dans `nltk.corpus`. Notez l'emploi de list comprehension ici pour rendre le code plus concis tout en gardant la lisibilit√©.

In [6]:
#! creation de datasets

labeled_names = ([(name, 'male') for name in names.words('male.txt')] +
 [(name, 'female') for name in names.words('female.txt')])

random.shuffle(labeled_names)
print("Un √©chantillon du corpus")
labeled_names[:10]

Un √©chantillon du corpus


[('Mariam', 'female'),
 ('Marjorie', 'female'),
 ('Jasmin', 'female'),
 ('Welbie', 'male'),
 ('Modesty', 'female'),
 ('Kanya', 'female'),
 ('Michale', 'male'),
 ('Antonina', 'female'),
 ('Beulah', 'female'),
 ('Hazel', 'female')]

## Cr√©ation des corpus train/test

Ici on applique √† la fonction de la `section 1` √† tous les noms du corpus. Les 500 premiers samples sont mis √† l'√©cart pour servir de test.

In [10]:
#! creation de paire feature/label

featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]

In [11]:
#! creation de train et test

train_set, test_set = featuresets[500:], featuresets[:500]

## Premi√®re classification

La pr√©cision est autour de 75.2%. On liste les features les plus utiles pour √©tudier quels sont les probl√®mes potentiels. Le likely ratio `male : female` signifie la probabilit√© exacte qu'un pr√©nom particulier soit masculin/f√©minin en fonction de sa derni√®re lettre (donc feature).

In [12]:
classifier = nltk.NaiveBayesClassifier.train(train_set)
#! classify
classifier.classify(gender_features('Neo'))
classifier.classify(gender_features('Trinity'))
print(nltk.classify.accuracy(classifier, test_set))
classifier.show_most_informative_features(5)
#! see likely ratio

0.752
Most Informative Features
             last_letter = 'k'              male : female =     45.8 : 1.0
             last_letter = 'a'            female : male   =     33.0 : 1.0
             last_letter = 'f'              male : female =     15.3 : 1.0
             last_letter = 'p'              male : female =     11.2 : 1.0
             last_letter = 'v'              male : female =     10.5 : 1.0


## Ajout de features et probl√®me d'overfitting

Si vous ajoutez trop de features, le mod√®le risque d'√™tre trop adapt√© √† tes donn√©es et se g√©n√©ralise mal sur des donn√©es non vues. Cela s'appelle `overfitting` et survient souvent quand le corpus est petit, ce qui est le cas ici.

## Let's add features

Dans un premier temps, nous allons essayer d'ajouter plein de features.

Examinons la fonction `gender_features2`. Les features sont :

* La premi√®re et la derni√®re lettre
* Un bool√©en indiquant si une lettre de l'ensemble a-z est pr√©sent dans le pr√©nom
* Un integer indiquant le nombre d'occurrences de cette lettre

Donc clairement nous y mettons tout le paquet...

In [13]:
#! add features
def gender_features2(name):
    features = {"first_letter": name[0].lower(), "last_letter": name[-1].lower()}
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = name.lower().count(letter)
        features["has({})".format(letter)] = (letter in name.lower())
    return features

demo = gender_features2("john")
random.sample(demo.items(),5)

[('count(i)', 0),
 ('count(h)', 1),
 ('count(x)', 0),
 ('has(a)', False),
 ('has(h)', True)]

## La pr√©cision augmente

Avec ce nouveau featureset, la pr√©cision est mont√©e de 75.2% √† 77.4%.

In [14]:
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]
train_set, test_set = featuresets[500:], featuresets[:500]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))

#! 0.752 vs 0.774

0.774


## Feature engineering via l'analyse des erreurs

Ici nous expliquons le processus de feature engineering qui consiste √† analyser les erreurs de la machine sur la base desquelles on filtre/supprime/cr√©√© des features.

L'intelligence artificielle n'est finalement pas si artificielle, non ? (Bon j'avoue que c'est pas du deep learning, mais quand m√™me)

Notons ici la cr√©ation de 'devset'. Cette r√©partition en 3 sets est canonique en Machine Learning. On utilise le train pour entra√Æner le mod√®le, le devset pour ajuster ce mod√®le. Enfin le test ne doit √™tre utilis√© que pour l'√©valuation finale.

La pr√©cision initiale (avant le feature engineering) est donc 76%.

In [15]:
train_names = labeled_names[1500:]
devtest_names = labeled_names[500:1500]
test_names = labeled_names[:500]

In [16]:
#! use devtest
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)

print(nltk.classify.accuracy(classifier, devtest_set))

0.76


## Premi√®res hypoth√®ses sur les erreurs

Analysons les erreurs affich√©es ci-dessous.

Les pronoms termin√©s par `yn` tendent √† √™tre f√©minins, alors que ceux termin√©s par `n` tendent √† √™tre masculins. Du coup deux r√®gles serait meilleures qu'une seule.

Ca semble √™tre le m√™me principe pour les pronoms termin√©s par `h` qui sont principalement f√©minins et ceux termin√©s par `ch` qui ont tendance √† √™tre masculins

In [17]:
errors = []
for (name, tag) in devtest_names:
     guess = classifier.classify(gender_features(name))
     if guess != tag:
         errors.append( (tag, guess, name) )

for (tag, guess, name) in sorted(errors):
     print('correct={:<8} guess={:<8s} name={:<30}'.format(tag, guess, name))

correct=female   guess=male     name=Aeriel                        
correct=female   guess=male     name=Aeriell                       
correct=female   guess=male     name=Allis                         
correct=female   guess=male     name=Allsun                        
correct=female   guess=male     name=Allyn                         
correct=female   guess=male     name=Allys                         
correct=female   guess=male     name=Amargo                        
correct=female   guess=male     name=Amber                         
correct=female   guess=male     name=Anne-Mar                      
correct=female   guess=male     name=Aurel                         
correct=female   guess=male     name=Avril                         
correct=female   guess=male     name=Barb                          
correct=female   guess=male     name=Beatriz                       
correct=female   guess=male     name=Beilul                        
correct=female   guess=male     name=Calypso    

## Int√©gration des nouveaux features dans le classifieur

Il semble b√©n√©fique d'ajuster nos features en incluant les deux derni√®res lettres.

Et youpi ! La pr√©cision est mont√©e de 76% √† 78.1%. C'est pas mal non ?

In [19]:
def gender_features(word):
     return {'suffix1': word[-1:],
             'suffix2': word[-2:]}

train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set))

# 0.76 -> 0.781

0.781


## Importance de nouveaux splits train/dev

Nous pouvons donc r√©it√©rer ce processus d'analyse d'erreurs et de feature engineering jusqu'√† obtenir une performance satisfaisante.

Attention !:D

Il vaut mieux faire un nouveau split train/dev √† chaque fois qu'on int√®gre/supprime des features pour √©viter l'overfitting.


## Conclusions

Bravo d'avoir fini l'article !

Ce qu'il faut retenir :

1. Le machine learning traditionnel repose pas mal sur l'analyse humaine. Comme vous avez vu ici, l'analyse des erreurs de classification aide beaucoup l'intelligence "artificielle".

2. Il est important de faire un split train/dev/test pour √©viter que le mod√®le soit overfitted. Dans la m√™me ligne de pens√©e il est aussi conseill√© de garder un nombre raisonnable de features.

3. Vous l'aurez compris. L'analyse d'erreurs (feature engineering) et le compromis entre performance et g√©n√©ralisabilit√© font du machine learning un art qui n√©cessite un savoir-faire qui s'acquiert au fil des ans.

[Reference](https://www.nltk.org/book/ch06.html)
