Vous allez dans ce TP, expérimenter des méthodes de classification automatique sur un corpus de données. Le logiciel de classification [bonzaiboost](http://www.irisa.fr/texmex/people/raymond/bonzaiboost/bonzaiboost.html) sera utilisé. Un binaire compilé est intégré dans l'archive récupérable sur moodle.

Le problème de classification est de pouvoir prédire si une personne gagne plus ou moins de 50K dollars par an étant donné un certain nombre de ses caractéristiques listées dans le fichier adult.names.

L'archive TP3.tgz contient 5 fichiers :
1.	un fichier « adult.data » : ce sont les données d’apprentissage (le « train »)
2.	un fichier « adult.test » : ce sont les données de test (le « test »)
3.	un fichier « adult.names » qui décrit la structure des données présentes dans les fichiers précédents :
•	les lignes commençant par « | » sont des commentaires
•	la première ligne non commentée est la liste des classes à prédire
•	les lignes suivantes décrivent les attributs descriptifs
•	les attributs dont le type est « ignore » sont ignorés par le logiciel pour le début du TP (je ne sais pas à quoi ils correspondent)
4. le binaire *bonzaiboost* compilé pour linux
5. une interface python *bonzaitoolsforadult.py* pour exécuter le binaire dans jupyter de manière conviviale et transparente

pour décompresser l'archive: `tar -zxvf TP3.tgz`

> PS: si vous voulez tenter de faire le TP sous windows: le binaire compilé pour windows est [là](http://www.irisa.fr/texmex/people/raymond/bonzaiboost/bonzaiboost-v2.6.exe)


## Exercice 1
un classifieur très naïf est le classifieur qui prédit systématiquement l'étiquette majoritaire. Dans le cas d’un problème binaire où une classe est beaucoup plus fréquente que l’autre, ce classifieur peut fournir une baseline intéressante. Un peu comme prédire systématiquement du mauvais temps en Bretagne, cela peut parfois être moins risqué que de tenter de prendre une décision.

In [2]:
from bonzaitoolsforadult import bonzai
import sys
sys.version

'3.8.10 (default, Nov 26 2021, 20:14:08) \n[GCC 9.3.0]'

In [None]:
#apprends le classifieur naïf: pas de boosting et un arbre à une feuille -> décision=étiquette majoritaire dans le corpus
#clf=bonzai(stem='adult',compatibility=False)#passer compatibility à True si python 3.5
clf=bonzai(stem='adult',bonzaipath="bonzaiboost.exe")#changer le path vers le bon binaire si on est sous windows plutôt que linux

#depth=0 -> profondeur de l'arbre à 0 
#iter=0 -> pas de boosting, juste un arbre
clf.fit(depth=0,iter=0) 

In [None]:
#évalue l'apprentissage
clf.predict('adult.data',False)

In [None]:
#évalue sur le test
clf.predict('adult.test',False)

## Exercice 2 
étudiez le problème et proposez selon votre intuition un arbre de décision binaire à 4 feuilles qui permettrait de classer ces données plus efficacement que le classifieur précédent.

### Exemple de code permettant facilement de définir un arbre: à vous d'en définir un qui marche mieux que le clf naïf

In [None]:
from bonzaitoolsforadult import Node, Leaf
    

In [None]:
arbre = Node('age','25') #for numeric question the rule is "<" so the yes branch contains people <35 and no branch >=35
arbre.yes = Node('native-country','United-States')
arbre.yes.yes=Leaf('infeq50K')
arbre.yes.no=Leaf('infeq50K')
arbre.no = Node('race','Black')
arbre.no.yes=Leaf('sup50K')
arbre.no.no=Leaf('infeq50K')

#converti l'arbre en modèle bonzaiboost
clf.to_bonzaimodel(arbre)
#visualise l'arbre pour s'assurer que c'est celui que l'on souhaitais
clf.visualize_tree()
#P=le nombre d’exemples dans la feuille
#la feuille indique l’étiquette majoritaire accompagnée de sa probabilité
#ici ce sont des règles de décision manuelle donc on a généré une population virtuelle de 1



### évaluation de son efficacité

In [None]:
clf.predict('adult.test',False)

> **Q1**: proposer un classifieur à 4 feuilles selon votre intuition sur les données

> **Q2**: votre classifieur marche-til mieux que le classifieur naïf ?

### Comparons votre intuition avec la réalité statistique du corpus: on conserve l'arbre mais on met à jour les règles de décision dans les feuilles en accord avec les statistiques du corpus d'apprentissage

In [None]:
#ATTENTION fonctionne seulement pour des arbres équilibrés à 4 feuilles
clf.update_decisions()

In [None]:
clf.visualize_tree()

> **Q3**: En quoi la réalité statistique diffère de votre intuition ?

### Laissons maintenant l’algorithme construire un arbre à 4 feuilles:

In [None]:
#on l'entraine
clf.fit(depth=2)
#on l'évalue
clf.predict('adult.test')
#on le visualize
clf.visualize_tree()

> **Q4**: interprétez l'arbre obtenu, est-il meilleur que le votre ?

___
## Exercice 3 : nous allons maintenant construire un classifieur plus évolué en laissant l’arbre se développer.
- Nous allons utiliser tous les attributs descriptifs: **remplaçez dans le fichier adult.names les « ignore » par « continuous ».**
- Et un critère d'arrêt automatique appelé [MDLPC](https://www.ijcai.org/Proceedings/93-2/Papers/022.pdf) (Minimum Description Length Principle)

In [None]:
#on l'entraine
clf.fit(mdlpc=True)
#on l'évalue sur l'apprentissage
#clf.predict('adult.data')
#puis le test
clf.predict('adult.test')
#on ne le visualize pas nécessairement car il est un peu trop gros
#clf.visualize_tree()

> **Q1**:	Qu'observez-vous au niveau des performances par rapport au classifieur précédent ? 

> **Q2**:.	Qu'observez-vous au niveau des performances sur les données d’apprentissage par rapport aux performances sur les données de test ?

### Maintenant, nous allons développer l’arbre jusqu’au bout (aucun critère de stop) 

In [None]:
clf.fit(depth=10000)
clf.predict('adult.data')
clf.predict('adult.test')

> **Q3**: Même questions que précédemment, à quel phénomène avons nous affaire ?

## Exercice 4 : nous allons maintenant utiliser un algorithme de méta-apprentissage sur des arbres de décision. Le boosting sur un millier d’arbres simples à 2 feuilles


In [None]:
clf.fit(iter=1000)
clf.predict('adult.data',boosting=True)
clf.predict('adult.test',boosting=True)

In [None]:
clf.get_learning_curves('adult.data')

In [None]:
clf.get_learning_curves('adult.test')

### Générer un tableau récapitulatif du modèle de boosting produit
Ce tableau récapitule toutes les conditions examinées par les mini arbres de décision, et donne pour chacune le vote octroyé à chacune des classes. 

In [None]:
clf.feedback(filter=0.7)

> **Q7**: En vous aidant de ce tableau, donnez les attributs les plus efficaces pour discriminer les individus gagnant plus de 50K de ceux qui en gagnent moins

## Exercice 5 :
Prise en main de [scikit-learn](http://scikit-learn.org/stable/) et construction d'un SVM. Il est trop long d'apprendre et tuner un SVM sur les données précédentes : impossible à faire en TP. Les données utilisées ici seront une tâche de reconnaissance de digits (chiffres de 0 a 9) à partir d'imagettes.


In [None]:
from sklearn import datasets
from sklearn.model_selection import RandomizedSearchCV,GridSearchCV,train_test_split
from sklearn.svm import SVC
from sklearn.metrics import classification_report
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

### Chargement des données et découpage:
- 75% pour les données d'apprentissage
- 25% pour les données de test

In [None]:
#on prend un corpus de reconnaissance de digits (chiffres de 0 a 9) sur imagettes
digits = datasets.load_digits()
X = digits.data #X = matrice des examples d'apprentissages (nbexamples*nbvariablespourdecrireunexemple)
y = digits.target#Y = vecteur des nbexamples étiquettes (vérité terrain)

#découpage de nos données en 2, un train pour apprendre un classifieur,et un test pour estimer l'erreur réelle du classifieur
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25,shuffle=False)

> **Question**
> 1. entrainer un SVM *linéaire* sans aucun tuning et évaluez le
> 2. entrainez un SVM à noyau *RBF* sans tuning et évaluez-le : comparez
> 3. tuner les paramètres du noyau *RBF*, évaluez et comparez
> 4. obervez les données: y-avait-t-il un prétraitement à faire avant la classification ? si oui faite-le

### évaluation du classifieur

In [None]:
#apply the classifier on the test data
print("Apply")
predictions = clf.predict(x_test)
#check the performances of the classifier
print(classification_report(y_test, predictions,digits=4))

> Qoptionnel: vous pouvez vérifier si le gain entre le système SVM et KNN sont statisquement significatif en utilisant les tests de student apparié et de wilcoxon

In [None]:
from scipy.stats import ttest_rel,wilcoxon
