<a href="https://colab.research.google.com/github/dorian-goueytes/M1_SCE_specog_S1/blob/main/M1_SCE_project_mushroom.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Mushroom Classifier

### Objectif :

#### Nous allons analyser un jeu de donnée, et l'utiliser pour prédire si des champignons sont comestibles ou non en fonction de différentes caractéristiques

#### Dataset Source

UCI Machine Learning Repository

    - Donor: UCI, Jeff Schlimmer (Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu)
    - Source Link: https://archive.ics.uci.edu/ml/datasets/mushroom
    - Download: https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/
    - Data last updated: ---
    - Origin: Mushroom records drawn from The Audubon Society Field Guide to North American Mushrooms (1981). G. H. Lincoff (Pres.), New York: Alfred A. Knopf
    - Citation: Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

### Import libraries

In [None]:
!pip install -U scikit-learn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Load Data

In [None]:
# Read mushroom data for features
dfmain = pd.read_csv('agaricus-lepiota.csv', header='infer') #Chargeons les données du fichier agaricus-lepiota dans la variable dfmain. Nous utilisons pour cela la bibliothèque python
                                                            # pandas, qui stocke les données sous forme de variables nommées dataframes ayant de nombreuses fonctions utiles

### Comprendre les données

#### Exercice : En premier lieu, essayez d'imprimer le contenu du dataframe que nous avons chargé dans la variable dfmain

#### Solution

In [None]:
print(dfmain)

### Signification des données

#### Ces données correspondent à un dataset répertoriant 8124 champignons. Pour chaque champignon il est indiqué:

- Class: Le champignon est-il comestible (e pour edible) ou toxique (p pour poisonous)
- cap-shape :  quelle est la forme de son chapeau (bell=b,conical=c,convex=x,flat=f,knobbed=k,sunken=s)
- Odor : L'odeur du champignon (almond=a,anise=l,creosote=c,fishy=y,foul=f,musty=m,none=n,pungent=p,spicy=s)
- Habitat : Dans quel environnement le champignon pousse (grasses=g,leaves=l,meadows=m,paths=p,urban=u,waste=w,woods=d)

#### Notre objectif est de prédire en fonction des caractéristiques (features) d'un champignon (cap-shape, odor, habitat) sa classe (label), comestible ou toxique



#### Exercice : Vérifiez quelle est la proportion de champignons toxiques et de champignons comestibles dans notre dataset

#### Solution :

In [None]:
dfmain.groupby(['class'])['class'].count() #la fonction groupby est une des fonctions des dataframes pandas. Elle permet de grouper les données du dataframe selon chaque
                                            #valeur unique d'une colonne

### Preprocessing

Pour l'instant nos données sont représentées sous la forme de lettres. Problème, pour visualiser nos données et entrainer un modèle nous avons besoin de valeurs numériques

#### Exercice : Pour chaque feature (cap_shape, odor, habitat), créer une nouvelle colonnes remplaçant les lettres par des valeurs numériques
Indice : Il est très important que les valeurs numériques correspondent aux lettres de manière systématique (par exemple si nous remplaçons x par 0 dans la colonne cap-shape tous les x et seulement les x doivent être remplacés par des 0)

#### Solution

In [None]:
dfmain['cap_shape_num'] = dfmain['cap_shape'] #nous créons une nouvelle colonne dans notre dataframe qui est une copie de la colonne correspondante
dfmain['odor_num'] = dfmain['odor'] #nous créons une nouvelle colonne dans notre dataframe qui est une copie de la colonne correspondante
dfmain['habitat_num'] = dfmain['habitat'] #nous créons une nouvelle colonne dans notre dataframe qui est une copie de la colonne correspondante

for shape in range(0, len(np.unique(dfmain['cap_shape']))): #pour chacune des valeurs uniques dans cette colonnes
    dfmain.loc[dfmain['cap_shape_num'] == np.unique(dfmain['cap_shape'])[shape], 'cap_shape_num'] = shape #nous remplaçons la valeur correspondantes dans sa copie par l'index de la valeur
for habitat in range(0, len(np.unique(dfmain['habitat']))):
    dfmain.loc[dfmain['habitat_num'] == np.unique(dfmain['habitat'])[habitat], 'habitat_num'] = habitat
for odor in range(0, len(np.unique(dfmain['odor']))):
    dfmain.loc[dfmain['odor_num'] == np.unique(dfmain['odor'])[odor], 'odor_num'] = odor
print(dfmain)

### Visualisation

#### Maintenant que nos données ont été converties au format numérique nous allons les visualiser

#### Exercice : Créez un scatter plot représentant chaque champignon en fonction de la forme de son chapeau et de son habitat. Utilisez un code couleur pour indiquer si chaque champignon est comestible ou toxique
Indice 1 : Séparez le dataframe en deux, un contenant tous les champignons comestible et l'autre contenant tous les champignons toxiques
Indice 2 : Utilisez la fonction de matplotlib scatter

#### Solution

In [None]:
data_poisonous = dfmain[dfmain['class'] == "p"] #crée un nouveau dataframe contenant uniquement les données des champignons toxiques
data_edible = dfmain[dfmain['class'] == "e"] #crée un nouveau dataframe contenant uniquement les données des champignons comestibles

fig, ax = plt.subplots(1,1)#Crée une figure 'fig' pour représenter nos données, dont les axes se nomment 'ax'

ax.scatter(data_edible['cap_shape_num'], data_edible['habitat_num'], color = 'g', label = 'Comestible') #pour chaque champignon comestible crée un point vert dont la position est fonction en abscisse
                                                                                                        # de la forme du chapeau et en ordonnée de l'habitat
ax.scatter(data_poisonous['cap_shape_num'], data_poisonous['habitat_num'], color = 'r', label = 'Toxique')# Même chose pour les champignons toxiques en rouge
ax.set_xlabel('Forme du chapeau') #nomme l'axe des x (abscisses)
ax.set_ylabel('Habitat') #nomme l'axe des y (ordonnéres)
ax.set_xticks(range(0, len(np.unique(dfmain['cap_shape']))), np.unique(dfmain['cap_shape'])) #Légende l'axe des x avec les lettres correspondant aux formes de chapeaux plutôt qu'avec les valeurs
                                                                                            #numériques
ax.set_yticks(range(0, len(np.unique(dfmain['habitat']))), np.unique(dfmain['habitat'])) #Légende l'axe des y avec les lettres correspondant aux habitats plutôt qu'avec les valeurs
                                                                                            #numériques
plt.legend() #affiche sur la figure la légende indiquant la signification de la couleur des points
plt.title("Comestibilité d'un champignon en fonction de l'habitat et de la forme du chapeau")# Nomme la figure
plt.tight_layout() #Fonction de matplotlib pour s'assurer que les différents éléments de la figure sont bien affichés
plt.show() #Affiche la figure

##### Problème :
Comme de nombreux champignon partagent la même forme de chapeau et le même habitat, les points sur le scatter plot se superposent. Solution, ajouter du 'jitter', c'est a dire bouger légérement chaque point dans une direction aléatoire pour faciliter la visualisation

In [None]:
def rand_jitter(arr): # Crée une fonction qui va légérement alterer la valeur de nos points de manière aléatoire
    stdev = .02 * (max(arr) - min(arr))
    return arr + np.random.randn(len(arr)) * stdev

fig, ax = plt.subplots(1,1, figsize = (10,7)) #Crée une figure 'fig' pour représenter nos données, dont les axes se nomment 'ax' et dont la taille est déterminée par figsize

###############################################################
# Plotte nos données avec le jitter pour améliorer la lisibilité
ax.scatter(rand_jitter(data_poisonous['cap_shape_num']), rand_jitter(data_poisonous['habitat_num']), color = 'r', label = 'Toxique', alpha = 0.1) #le paramètre alpha (compris entre 0 et 1) détermine
                                                                                                                                                # la transparence des points
ax.scatter(rand_jitter(data_edible['cap_shape_num']), rand_jitter(data_edible['habitat_num']), color = 'g', label = 'Comestible', alpha = 0.1)
ax.set_xlabel('Forme du chapeau')
ax.set_ylabel('Habitat')
ax.set_xticks(range(0, len(np.unique(dfmain['cap_shape']))), np.unique(dfmain['cap_shape']))
ax.set_yticks(range(0, len(np.unique(dfmain['habitat']))), np.unique(dfmain['habitat']))
plt.legend()
plt.title("Comestibilité d'un champignon en fonction de l'habitat et de la forme du chapeau")
plt.tight_layout()
plt.show()

#### Exercice : Créez un scatter plot représentant chaque champignon en fonction cette fois-ci de son odeur et de son habitat. Utilisez un code couleur pour indiquer si chaque champignon est comestible ou toxique
Indice 1 : Basez vous sur la solution de l'exercice précédent

#### Solution

In [None]:
data_poisonous = dfmain[dfmain['class'] == "p"] #crée un nouveau dataframe contenant uniquement les données des champignons toxiques
data_edible = dfmain[dfmain['class'] == "e"] #crée un nouveau dataframe contenant uniquement les données des champignons comestibles

fig, (ax1, ax2) = plt.subplots(1,2, figsize = (14,7)) #Crée une figure 'fig' contenant deux sous-figures (ax1 et ax2)

ax1.scatter(data_edible['odor_num'], data_edible['habitat_num'], color = 'g', label = 'Comestible')#pour chaque champignon comestible crée un point vert dont la position est fonction en abscisse
                                                                                                        # de l'odeur et en ordonnée de l'habitat
ax1.scatter(data_poisonous['odor_num'], data_poisonous['habitat_num'], color = 'r', label = 'Toxique')# Même chose pour les champignons toxiques en rouge
ax1.set_xlabel('Odeur')#nomme l'axe des x (abscisses)
ax1.set_ylabel('Habitat')#nomme l'axe des y (abscisses)
ax1.set_xticks(range(0, len(np.unique(dfmain['odor']))), np.unique(dfmain['odor']))#Légende l'axe des x avec les lettres correspondant aux formes de chapeaux plutôt qu'avec les valeurs
                                                                                            #numériques
ax1.set_yticks(range(0, len(np.unique(dfmain['habitat']))), np.unique(dfmain['habitat']))#Légende l'axe des y avec les lettres correspondant aux habitats plutôt qu'avec les valeurs
                                                                                            #numériques
ax1.set_title("Version sans jitter") #Nomme la première sous-figure

ax2.scatter(rand_jitter(data_poisonous['odor_num']), rand_jitter(data_poisonous['habitat_num']), color = 'r', label = 'Toxique', alpha = 0.1)
ax2.scatter(rand_jitter(data_edible['odor_num']), rand_jitter(data_edible['habitat_num']), color = 'g', label = 'Comestible', alpha = 0.1)
ax2.set_xlabel('Odeur')
ax2.set_ylabel('Habitat')
ax2.set_xticks(range(0, len(np.unique(dfmain['odor']))), np.unique(dfmain['odor']))
ax2.set_yticks(range(0, len(np.unique(dfmain['habitat']))), np.unique(dfmain['habitat']))
ax2.set_title("Version avec jitter")#Nomme la deuxime sous-figure

plt.legend()
plt.suptitle("Comestibilité d'un champignon en fonction de l'habitat et de la forme du chapeau")
plt.tight_layout()
plt.show()

#### Exercice : Pour l'instant notre méthode basées sur des scatter plot ne nous permet de visualiser la comestibilité de nos champignons qu'en fonction de deux features à la fois. Problème, nous avons 3 features.

#### Pour régler ce problème, créez une visualisation combinée de nos trois variables (indice utilisez un scatter plot en 3D)

In [None]:
fig, ax = plt.subplots(1,1,figsize = (10,7))# Comme précédemment cette ligne crée une figure vierge
ax = fig.add_subplot(projection='3d') # indique que notre figure correspond à une représentation en 3D, et par conséquent à 3 axes au lieu de 2


#### Solution :

In [None]:
fig, ax = plt.subplots(1,1,figsize = (10,7))# Comme précédemment cette ligne crée une figure vierge
ax = fig.add_subplot(projection='3d') # indique que notre figure correspond à une représentation en 3D, et par conséquent à 3 axes au lieu de 2

###################################################################################################################################################
# Plotte nos données avec le jitter pour améliorer la lisibilité. Cette fois-ci 3 variable (chapeau, odeur, habitat) sont précisées au lieu de deux.
ax.scatter(rand_jitter(data_poisonous['cap_shape_num']), rand_jitter(data_poisonous['odor_num']), rand_jitter(data_poisonous['habitat_num']), color = 'r', label = 'Toxique')
ax.scatter(rand_jitter(data_edible['cap_shape_num']), rand_jitter(data_edible['odor_num']), rand_jitter(data_edible['habitat_num']), color = 'g', label = 'Comestible')
ax.set_xlabel('Forme du chapeau')
ax.set_ylabel('Odeur')
ax.set_zlabel('Habitat')
ax.set_xticks(range(0, len(np.unique(dfmain['cap_shape']))), np.unique(dfmain['cap_shape']))
ax.set_yticks(range(0, len(np.unique(dfmain['odor']))), np.unique(dfmain['odor']))
ax.set_zticks(range(0, len(np.unique(dfmain['habitat']))), np.unique(dfmain['habitat']))

plt.legend()
plt.suptitle("Comestibilité d'un champignon en fonction de l'habitat et de la forme du chapeau")
#plt.tight_layout()
plt.show()

### Création d'un décodeur pour prédire la catégorie des champignons
Nous allons maintenant entamer la partie machine learning à proprement parler. Comme vous n'avez pas encore eu de cours de machine learning votre objectif ici n'est pas de créer du code, mais de comprendre la fonction des différentes étapes et leur implémentation en Python

#### Séparation des features (caractéristiques) et des labels (catégories) en deux variables
Ceci est fait car les fonctions de scikit-learn nécessitent de fournir les labels et features séparément

In [None]:
Xmain = dfmain[dfmain.columns[~dfmain.columns.isin(['class'])]]# Par convention les features sont nommées X. Cette ligne crée une variable Xmain contenant toutes les colonnes de dfmain
                                                                #sauf la colonne "class"
Xmain = Xmain[Xmain.columns[Xmain.columns.isin(['cap_shape_num', 'odor_num', "habitat_num"])]] # Nous ne gardons dans Xmain que les colonnes contenant les variables numériques
y = dfmain['class'] # Par convention les labels sont nommés y. Ici les lables correspondent à la catégorie des champignons (p pour poisonous, e pour edible)

## Imprimons nos labels et features pour nous assurer que tout est en ordre
print("Features")
print(Xmain)
print()
print("Labels")
print(y)

#### Séparation des données en jeu de données d'entrainement et jeu de données de test
Ce segment de code nous permet de partitionner aléatoirement notre dataset en deux jeux de données. L'un des jeux de données servira à entrainer notre modèle (training dataset), et l'autre à tester si notre modèle prédit correctement nos données (test dataset)

Si nous entrainions notre décodeur sur toutes nos données nous ne pourrions pas vérifier si il est capable de prédire la toxicité d'un champignon qu'il n'a jamais "vu". La séparation en train et test datasets fait partie de la procédure classique en machine learning


In [None]:
from sklearn.model_selection import train_test_split

X = np.array(Xmain) #conversion de notre variable Xmain qui est un dataframe en array, un autre type de variable compatible avec les fonctions de scikit-learn
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.1) #Cette fonction sépare aléatoirement notre dataset. Le paramètre test_size indique la proportion
                                                                            # du dataset complet qui est gardée de côté comme test dataset. 0.1 correspond à 10% de nos données
print("Forme de notre dataset original: ", np.shape(X))
print("Forme de notre dataset d'entrainement: ", np.shape(x_train))
print("Forme de notre dataset de test: ", np.shape(x_test))

#### Création d'un décodeur Support Vector Classifier (SVC)

In [None]:
from sklearn.svm import SVC
from sklearn import metrics

model = SVC() #Création d'un décodeur de type Support Vector Classifier. Pour l'instant ce décodeur est 'naïf', il n'a pas été entrainé sur nos données

###########################
## Entrainement du décodeur
model.fit(x_train, y_train) #la fonction "fit" permet de "montrer les données" au décodeur. Le décodeur va essayer de trouver un lien statistique entre les différentes features
                            # (forme du chapeau, odeur, habitat), et les labels présentés (edible/poisonous)

##############################
# Prédiction avec notre modèle
y_pred = model.predict(x_test) #Maintenant que notre décodeur est entrainé nous allons testé si il fonctionne. Pour cela nous allons lui demander de prédire si les champignons du dataset de test
                                # sont comestible. Notez que nous fournissons à notre modèle uniquement les features (x_test) et pas les labels

######################
# Evaluation du modèle
acu = metrics.accuracy_score(y_test, y_pred) #Cette fonction compare les prédictions du modèle avec les véritables labels (y_test), et nous indique sa précision (dans quel proportion
                                                # le modèle à répondu correctement)
print("Notre modèle réponds correctement dans ", acu*100, "% des cas")

#### Question :  Qu'observez-vous au niveau des performances du modèle si vous executez à nouveau les cellules "Séparation des données" et "Création d'un décodeur"? Pourquoi?

### Mise en pratique :

#### Vous avez trouvé dans des herbes (habitat = l) un champignon dont le chapeau a une forme plate ( cap_form = f) et sentant l'anis (odor = l). Qu'en dit notre décodeur?

In [None]:
champignon_inconnu = np.array([2,3,2]) # ["f", 'l', 'l'] correspondent à [2,3,2] si nous convertissons en valeur numériques

############################################
## Demandons à notre décodeur ce qu'il pense de notre champignon
pred = model.predict(champignon_inconnu.reshape(1, -1))

if pred == 'p':
    print("Ne mangez pas ce champignon il est toxique")
if pred == "e":
    print("Vous pouvez manger ce champignon, il est comestible")
print()
print('Rappel, notre décodeur est précis à '+str(acu*100)+'%, mangez-vous le champignon?')

#### Pour aller plus loin:

Vous trouverez ici le code original utilisant le dataset complet et un séquence de machine learning plus détaillée
- Original code : https://github.com/learndataa/projects/blob/main/i61_sk58_SL_36__project_mushroom.ipynb