## Définition du problème 
#### Quel est le problème ?
Le problème consiste à dire si un champignon est comestible ou non.
#### Formalisation
*T*: Classifier un champignon en fonction de 22 caractéristiques/ attributs si il est comestible ou toxique.\
\
*E*: Un fichier tabulaire où l'on a les caratéristiques pout 23 espèces de champigons et un label, colonne \<edible?\>, qui affirme si il est comestible ou toxique.\
\
*P*: Précision de la classification binaire, soit le nombre de champignon qui ont été correctement classifié comme comestible ou non sur le nombre total de classification sous forme de pourcentage.
#### Hypothèses
* Certaines couleurs peuvent être liées à des substances toxiques.
* On trouve des champignons non-comestibles dans des habitats spécifiques.
* L'odeur que dégage un champignon peut être lié à un taux de toxicité de celui-ci.

###     Importation des données et des librairies

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [2]:
header = ["edible?","cap-shape", "cap-surface", "cap-color", "bruises?", "odor", 
          "gill-attachment", "gill-spacing", "gill-size", "gill-color",
          "stalk-shape", "stalk-root", "stalk-surface-above-ring",
          "stalk-surface-below-ring", "stalk-color-above-ring",
          "stalk-color-below-ring", "veil-type", "veil-color", "ring-number",
          "ring-type", "spore-print-color", "population", "habitat"]
data = pd.read_csv("agaricus-lepiota.data", names=header)
data

Unnamed: 0,edible?,cap-shape,cap-surface,cap-color,bruises?,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,e,k,s,n,f,n,a,c,b,y,...,s,o,o,p,o,o,p,b,c,l
8120,e,x,s,n,f,n,a,c,b,y,...,s,o,o,p,n,o,p,b,v,l
8121,e,f,s,n,f,n,a,c,b,n,...,s,o,o,p,o,o,p,b,c,l
8122,p,k,y,n,f,y,f,c,n,b,...,k,w,w,p,w,o,e,w,v,l


## Préparation des données
### Ingénierie des caractéristiques (Feature Engineering)
On commence à regarder les valeurs manquantes.

In [3]:
data.isnull().sum().reset_index(name="NA_count").sort_values(by="NA_count", ascending=False)

Unnamed: 0,index,NA_count
0,edible?,0
12,stalk-surface-above-ring,0
21,population,0
20,spore-print-color,0
19,ring-type,0
18,ring-number,0
17,veil-color,0
16,veil-type,0
15,stalk-color-below-ring,0
14,stalk-color-above-ring,0


On remarque qu'il n'y a pas de valeurs manquantes malgré le fait que sur le site UCI ils le considèrent avec.\
#### Approche One Hot Encoding
On transforme le dataset de sorte à faire du One Hot Encoding pour utiliser les algorithmes de Machine Learning.

In [4]:
data_transformed = pd.get_dummies(data.drop("edible?", axis=1))
data_transformed = pd.concat([data_transformed, data["edible?"]], axis=1)
data_transformed["edible?"] = (data_transformed["edible?"] == "e").astype(int)

In [5]:
data_transformed

Unnamed: 0,cap-shape_b,cap-shape_c,cap-shape_f,cap-shape_k,cap-shape_s,cap-shape_x,cap-surface_f,cap-surface_g,cap-surface_s,cap-surface_y,...,population_v,population_y,habitat_d,habitat_g,habitat_l,habitat_m,habitat_p,habitat_u,habitat_w,edible?
0,0,0,0,0,0,1,0,0,1,0,...,0,0,0,0,0,0,0,1,0,0
1,0,0,0,0,0,1,0,0,1,0,...,0,0,0,1,0,0,0,0,0,1
2,1,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,1,0,0,0,1
3,0,0,0,0,0,1,0,0,0,1,...,0,0,0,0,0,0,0,1,0,0
4,0,0,0,0,0,1,0,0,1,0,...,0,0,0,1,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,0,0,0,1,0,0,0,0,1,0,...,0,0,0,0,1,0,0,0,0,1
8120,0,0,0,0,0,1,0,0,1,0,...,1,0,0,0,1,0,0,0,0,1
8121,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,1,0,0,0,0,1
8122,0,0,0,1,0,0,0,0,0,1,...,1,0,0,0,1,0,0,0,0,0


Le dataset est prêt à être utilsé par des algorithmes de ML car:
* il est nettoyé, pas de valeurs manquantes.
* il est mis à l'échelle (normalisation), toutes les colonnes comportent soit 1 soit 0.

#### > Premier modèle / modèle de référence sur l'approche One Hot encoding

In [6]:
from sklearn.model_selection import cross_val_score, KFold, train_test_split
from sklearn.tree import DecisionTreeClassifier
from numpy import mean, std
from sklearn.metrics import accuracy_score
seed=6

y_OHE  = data_transformed["edible?"]
X_OHE  = data_transformed.drop("edible?", axis=1)
cv = KFold(n_splits=5, random_state=seed, shuffle=True)

mdl = DecisionTreeClassifier(random_state=seed)
scores = cross_val_score(mdl, X_OHE, y_OHE, cv=cv)
print('Accuracy: %.3f (%.3f)' % (mean(scores), std(scores)))

Accuracy: 1.000 (0.000)


On ne fait pas de remise à l'échelle sur le dataset. Par conséquent on est sûr qu'il n'y a pas de fuite de données.
Comme on a de très bon résultats, on n'a pas besoin de faire de selections de caractéristiques.

#### Approche Label Encoding

In [7]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
data_transformed2 = data.copy()
mappings = list()
for column in data_transformed2.columns:
    data_transformed2[column] = encoder.fit_transform(data_transformed2[column])
    mappings_dict = {column_name: dico for column_name, dico in enumerate(encoder.classes_)}
    mappings.append(mappings_dict)
data_transformed2

Unnamed: 0,edible?,cap-shape,cap-surface,cap-color,bruises?,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,1,5,2,4,1,6,1,0,1,4,...,2,7,7,0,2,1,4,2,3,5
1,0,5,2,9,1,0,1,0,0,4,...,2,7,7,0,2,1,4,3,2,1
2,0,0,2,8,1,3,1,0,0,5,...,2,7,7,0,2,1,4,3,2,3
3,1,5,3,8,1,6,1,0,1,5,...,2,7,7,0,2,1,4,2,3,5
4,0,5,2,3,0,5,1,1,0,4,...,2,7,7,0,2,1,0,3,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,0,3,2,4,0,5,0,0,0,11,...,2,5,5,0,1,1,4,0,1,2
8120,0,5,2,4,0,5,0,0,0,11,...,2,5,5,0,0,1,4,0,4,2
8121,0,2,2,4,0,5,0,0,0,5,...,2,5,5,0,1,1,4,0,1,2
8122,1,3,3,4,0,8,1,0,1,0,...,1,7,7,0,2,1,0,7,4,2


#### > Premier modèle / modèle de référence sur l'approche Label Encoding

On va faire une mise à l'échelle du dataset afin de maximiser les performances des algorithmes de Machine Learning.

In [8]:
y_LE  = data_transformed2["edible?"]
X_LE  = data_transformed2.drop("edible?", axis=1)
cv = KFold(n_splits=5, random_state=seed, shuffle=True)

mdl = DecisionTreeClassifier(random_state=seed)
scores = cross_val_score(mdl, X_LE, y_LE, cv=cv)
print('Accuracy: %.3f (%.3f)' % (mean(scores), std(scores)))

Accuracy: 1.000 (0.000)


On ne fait pas de remise à l'échelle sur le dataset. Par conséquent on est sûr qu'il n'y a pas de fuite de données.\
Comme on a de très bon résultats, on n'a pas besoin de faire de selections de caractéristiques.

### Filtre des caratéristiques (Feature Selection)

## Exploration des algorithmes
### Faisceau d'essai (Algo. d'apprentissage machine / Machine Learning) sur l'approche One Hot Encoding

In [9]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

mdl_Log = LogisticRegression(random_state=seed)
scores_Log = cross_val_score(mdl_Log, X_OHE, y_OHE, cv=cv)
print('Accuracy LogisticRegression: %.3f (%.3f)' % (mean(scores_Log), std(scores_Log)))

mdl_SVC = SVC(random_state=seed)
scores_SVC = cross_val_score(mdl_SVC, X_OHE, y_OHE, cv=cv)
print('Accuracy SVC: %.3f (%.3f)' % (mean(scores_SVC), std(scores_SVC)))

Accuracy LogisticRegression: 1.000 (0.000)
Accuracy SVC: 1.000 (0.000)


### Faisceau d'essai (Algo. d'apprentissage machine / Machine Learning) sur l'approche Label Encoding

In [10]:
mdl_Log = LogisticRegression(random_state=seed)
scores_Log = cross_val_score(mdl_Log, X_LE, y_LE, scoring="accuracy", cv=cv)
print('Accuracy LogisticRegression: %.3f (%.3f)' % (mean(scores_Log), std(scores_Log)))

mdl_SVC = SVC(random_state=seed)
scores_SVC = cross_val_score(mdl_SVC, X_LE, y_LE, scoring="accuracy", cv=cv)
print('Accuracy SVC: %.3f (%.3f)' % (mean(scores_SVC), std(scores_SVC)))

Accuracy LogisticRegression: 0.950 (0.005)
Accuracy SVC: 0.989 (0.002)


### Réseau de neurones (Deep Learning)

In [11]:
mdl_MLP = MLPClassifier(hidden_layer_sizes=(128, 128), random_state=seed)
scores_MLP = cross_val_score(mdl_MLP, X_LE, y_LE, scoring="accuracy", cv=cv)
print('Accuracy MLPClassifier: %.3f (%.3f)' % (mean(scores_MLP), std(scores_MLP)))

Accuracy MLPClassifier: 1.000 (0.000)


## Améliorations des résultats
### Approche One hot Encoding

Il n'y a pas besoin d'améliorer les résultats dans la mesure où on atteint la perfection dans les predictions.

### Approche Label Encoding

On remarque sur cette approche que les résultats restent bons, mais qu'ils sont moins bons que ceux obtenus par l'approche One Hot Encoding.\
Par conséquent on va faire une mise à l'échelle en utilisant MinMaxScaler() pour faire une normalisation.\
Nous allons utiliser des pipelines pour éviter de faire de la fuite de données.

In [12]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import Pipeline


pipeline_Log = Pipeline([("scaler", MinMaxScaler()), ("mdl_Log", LogisticRegression(random_state=seed))])
scores_Log = cross_val_score(pipeline_Log, X_LE, y_LE, scoring="accuracy", cv=cv, n_jobs=-1)
print('Accuracy LogisticRegression: %.3f (%.3f)' % (mean(scores_Log), std(scores_Log)))

pipeline_SVC = Pipeline([("scaler", MinMaxScaler()), ("mdl_SVC", SVC(random_state=seed))])
scores_SVC = cross_val_score(pipeline_SVC, X_LE, y_LE, scoring="accuracy", cv=cv, n_jobs=-1)
print('Accuracy SVC: %.3f (%.3f)' % (mean(scores_SVC), std(scores_SVC)))

Accuracy LogisticRegression: 0.949 (0.005)
Accuracy SVC: 1.000 (0.000)


On obtient la perfection avec SVC() lorsque l'on fait une normalisation. Pour l'algorithme LogisticRegression(), au contraire, on obtient de pires résultats même si ils restents bons.

## Présentation des résultats, modèle final et exportation
### Approche avec One Hot Encoding

Sur ce dataset on obtient d'excellents résultats quelque soit l'algorithme. On peut se poser des questions sur la qualité des évaluatations.\
On peut jeter un coup d'oeil sur la matrice des corrélations.

### Approche avec Label Encoding

Pour cette seconde approche on obtient la perfection lorsque l'on fait une pipeline avec une normalisation et CV(). On va par conséquent favoriser ce dernier algorithme pour entraîner le modèle finale car il sera plus simple d'utilisation lors du déployement.

#### > Modèle Finale

In [13]:
pipeline_SVC = Pipeline([("scaler", MinMaxScaler()), ("mdl_SVC", SVC(random_state=seed))])
pipeline_SVC.fit(X_LE, y_LE)

Pipeline(steps=[('scaler', MinMaxScaler()), ('mdl_SVC', SVC(random_state=6))])

#### Sérialisation  de la  pipeline

In [14]:
from pickle import dump
dump(pipeline_SVC, open("mushroom_pipeline.pkl", "wb"))

#### Sérialisation de l'encodeur

In [15]:
dump(mappings, open("mushroom_encoder.pkl", "wb"))