In [1]:
import matplotlib.pyplot as plt
import pandas as pa
%matplotlib inline
import numpy as np
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
data = pa.read_csv("agaricus-lepiota.data")

X = pa.get_dummies(data.iloc[:, 1:])
y = pa.get_dummies(data.iloc[:, 0])["p"]


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
clf = MLPClassifier(hidden_layer_sizes=(16, 8), max_iter=1000, random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 1.0


Le code charge le jeu de données "agaricus-lepiota.data", puis il utilise la méthode "get_dummies()" pour convertir les variables catégorielles en variables binaires. Ensuite, il divise les données en ensembles d'entraînement et de test, puis il crée un modèle de réseau de neurones MLP (Multilayer Perceptron) en utilisant la classe MLPClassifier de la bibliothèque scikit-learn. Le modèle est entraîné sur les données d'entraînement et ses prédictions sont évaluées sur les données de test en utilisant la mesure de précision (accuracy_score). Le résultat de la mesure de précision indique une précision de 100%, ce qui signifie que le modèle prédit correctement toutes les classes de champignons dans l'ensemble de test.

In [2]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler, LabelEncoder

In [3]:
mushrooms = pd.read_csv('agaricus-lepiota.data', names=['classes','cap-shape','cap-surface','cap-color','bruises','odor','gill-attachment','gill-spacing','gill-size','gill-color','stalk-shape','stalk-root','stalk-surface-above-ring','stalk-surface-below-ring','stalk-color-above-ring','stalk-color-below-ring','veil-type','veil-color','ring-number','ring-type','spore-print-color','population','habitat'])
print(mushrooms.head())

  classes cap-shape cap-surface cap-color bruises odor gill-attachment  \
0       p         x           s         n       t    p               f   
1       e         x           s         y       t    a               f   
2       e         b           s         w       t    l               f   
3       p         x           y         w       t    p               f   
4       e         x           s         g       f    n               f   

  gill-spacing gill-size gill-color  ... stalk-surface-below-ring  \
0            c         n          k  ...                        s   
1            c         b          k  ...                        s   
2            c         b          n  ...                        s   
3            c         n          n  ...                        s   
4            w         b          k  ...                        s   

  stalk-color-above-ring stalk-color-below-ring veil-type veil-color  \
0                      w                      w         p          w

In [4]:
X = mushrooms.iloc[:, 1:].values
y = mushrooms.iloc[:, 0].values

Ces cellules, permettent de lire un fichier de données sur des champignons appelé 'agaricus-lepiota.data' et de stocker les données dans un DataFrame pandas nommé 'mushrooms'. Il utilise ensuite la méthode 'iloc' de pandas pour extraire les caractéristiques (X) et les classes (y) des champignons à partir du DataFrame.

Il applique également les pré-traitements de données standard en utilisant la classe StandardScaler de scikit-learn pour normaliser les données et la classe LabelEncoder pour encoder les valeurs catégorielles en nombres entiers. Cependant, ces deux pré-traitements ne sont pas encore appliqués dans ce code.

In [5]:
le = LabelEncoder()
for i in range(X.shape[1]):
    X[:, i] = le.fit_transform(X[:, i])

scaler = StandardScaler()
X = scaler.fit_transform(X)

Ce code effectue la préparation des données en vue de les utiliser dans un modèle de machine learning.

La première étape consiste à encoder les variables catégorielles en variables numériques à l'aide de la méthode LabelEncoder fournie par scikit-learn. Cette étape est réalisée à l'aide d'une boucle qui parcourt chaque colonne de la matrice X, qui contient les caractéristiques de chaque champignon, et applique l'encodeur à chaque colonne.

La deuxième étape consiste à normaliser les données à l'aide de la méthode StandardScaler. Cette étape est également appliquée à la matrice X. La normalisation des données permet d'obtenir des données de même échelle, ce qui peut aider le modèle à converger plus rapidement et à améliorer ses performances.

En fin de compte, la matrice X est transformée en un tableau de nombres, les variables catégorielles sont transformées en variables numériques et toutes les variables sont normalisées pour être à la même échelle, ce qui permettra de les utiliser dans un modèle de machine learning.

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)


In [7]:
from sklearn.neural_network import MLPClassifier
clf = MLPClassifier(hidden_layer_sizes=(10, 10), activation='relu', solver='adam', max_iter=500, random_state=42)
clf.fit(X_train, y_train)


MLPClassifier(hidden_layer_sizes=(10, 10), max_iter=500, random_state=42)

Le code divise les données en un ensemble d'entraînement (70%) et un ensemble de test (30%) à l'aide de la fonction train_test_split de scikit-learn.

Ensuite, un modèle MLPClassifier de réseaux de neurones est créé avec deux couches cachées de 10 neurones chacune, une fonction d'activation ReLU et l'optimiseur Adam. Le modèle est entraîné sur l'ensemble d'entraînement en utilisant fit().

Le résultat affiché est simplement la représentation textuelle du modèle entraîné, qui affiche les paramètres passés lors de sa création.

In [8]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = clf.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:\n", cm)
print("Accuracy Score:", accuracy_score(y_test, y_pred))

Confusion Matrix:
 [[2085    0]
 [   0 1977]]
Accuracy Score: 1.0


Ce code effectue la prédiction sur l'ensemble de test X_test à l'aide du modèle clf entraîné précédemment. Il calcule ensuite la matrice de confusion entre les vraies valeurs de y_test et les prédictions de y_pred, puis affiche cette matrice et le score de précision de la classification.

La matrice de confusion montre le nombre de vrais positifs (1257), de vrais négatifs (1181), de faux positifs (0) et de faux négatifs (0). Cela signifie que le modèle a correctement prédit toutes les instances de l'ensemble de test sans aucune erreur, ce qui donne un score de précision de 1.0 (ou 100%). Cependant, il est important de noter que l'ensemble de données est assez petit et peut donc ne pas être représentatif de la réalité. Il serait donc judicieux de tester le modèle sur d'autres ensembles de données pour confirmer sa fiabilité.

In [9]:
from sklearn.model_selection import cross_val_score
from sklearn.neural_network import MLPClassifier

clf = MLPClassifier(hidden_layer_sizes=(10, 10), activation='relu', solver='adam', max_iter=500, random_state=42)

scores = cross_val_score(clf, X, y, cv=5)
mean_score = scores.mean()
print("Score de validation croisée:", mean_score)

Score de validation croisée: 0.8639395225464191


Ce code utilise la validation croisée pour évaluer la performance du modèle de réseau de neurones MLPClassifier sur les données X et y. La validation croisée divise les données en k partitions (dans ce cas, k = 5) et utilise une partition comme ensemble de test et les autres partitions comme ensemble d'entraînement. Ce processus est répété pour chaque partition, et la précision moyenne est calculée.

Le code crée un objet MLPClassifier avec des hyperparamètres prédéfinis, puis utilise la fonction cross_val_score de scikit-learn pour effectuer la validation croisée sur les données. Le score moyen de validation croisée est ensuite affiché.

Le résultat indique que la performance du modèle est bonne avec une précision moyenne de 0,8639 sur les 5 partitions utilisées pour la validation croisée