In [2]:
import numpy as np
import pandas as pd
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import LabelEncoder

In [3]:
ionosphere = pd.read_csv("ionosphere_data.csv", header=None)
le = LabelEncoder()
for col in ionosphere.columns:
    if ionosphere[col].dtype == 'object':
        ionosphere[col] = le.fit_transform(ionosphere[col])

In [10]:

# Séparer les données en variables d'apprentissage et de test
n = ionosphere.shape[0]
index = np.random.choice(n, int(0.7 * n), replace=False)
Appren = ionosphere.iloc[index]
Test = ionosphere.iloc[np.setdiff1d(np.arange(n), index)]

# Entraîner le réseau de neurones
RN = MLPClassifier(hidden_layer_sizes=(4,), alpha=0, activation="logistic")
RN.fit(Appren.iloc[:, :-1], Appren.iloc[:, -1])

# Afficher un résumé du modèle
print("Résumé du modèle",RN)

# Faire des prédictions sur les données de test
pred = RN.predict(Test.iloc[:, :-1])

# Calculer la matrice de confusion
confusion = confusion_matrix(Test.iloc[:, -1], pred)
print("confusion matrix :", confusion)

# Calculer le taux d'erreur
err = 1 - np.diag(confusion).sum() / confusion.sum()
print("error:", err)

# Utiliser le module e1071 pour ajuster les hyperparamètres
from sklearn.model_selection import GridSearchCV

parameters = {'hidden_layer_sizes': [(4,), (5,)], 'alpha': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],'activation' : ["logistic"]}
tuned_model = GridSearchCV(MLPClassifier(), parameters)
tuned_model.fit(ionosphere.iloc[:, :-1], ionosphere.iloc[:, -1])
print(tuned_model.best_params_)

# Entraîner un nouveau modèle avec les meilleurs hyperparamètres
RN = MLPClassifier(hidden_layer_sizes=tuned_model.best_params_['hidden_layer_sizes'], alpha=tuned_model.best_params_['alpha'], activation = 'logistic')
RN.fit(Appren.iloc[:, :-1], Appren.iloc[:, -1])

pred = RN.predict(Test.iloc[:, :-1])

confusion = confusion_matrix(Test.iloc[:, -1], pred)
print("confusion matrix :", confusion)
# Calculer le taux d'erreur
err = 1 - np.diag(confusion).sum() / confusion.sum()
print("error with best params : ",err)




Résumé du modèle MLPClassifier(activation='logistic', alpha=0, hidden_layer_sizes=(4,))
confusion matrix : [[ 5 40]
 [ 1 60]]
error: 0.3867924528301887




{'activation': 'logistic', 'alpha': 5, 'hidden_layer_sizes': (5,)}
confusion matrix : [[17 28]
 [ 5 56]]
error with best params :  0.3113207547169812




#AVEC PCA


In [15]:

from sklearn.metrics import  mean_squared_error

from sklearn.decomposition import PCA

# Charger les données Ionosphere
ionosphere = pd.read_csv('ionosphere_data.csv')

le = LabelEncoder()
for col in ionosphere.columns:
    if ionosphere[col].dtype == 'object':
        ionosphere[col] = le.fit_transform(ionosphere[col])

# Séparation des données en variables d'apprentissage et de test
n = ionosphere.shape[0]
index = np.random.choice(n, int(0.7 * n), replace=False)
Appren = ionosphere.iloc[index]
Test = ionosphere.iloc[np.setdiff1d(np.arange(n), index)]

# Réduction de dimensionnalité avec PCA
pca = PCA(n_components=15)
Appren_pca = pca.fit_transform(Appren.iloc[:, :-1])
Test_pca = pca.transform(Test.iloc[:, :-1])

# Entraîner le réseau de neurones avec 4 couches cachées et alpha = 0
RN = MLPClassifier(hidden_layer_sizes=(4, 4, 4, 4), alpha=0)
RN.fit(Appren_pca, Appren.iloc[:, -1])

# Afficher un résumé du modèle
print(RN)

# Faire des prédictions sur les données de test
pred = RN.predict(Test_pca)

# Calculer la matrice de confusion
confusion = confusion_matrix(Test.iloc[:, -1], pred)
print("Matrice de confusion:")
print(confusion)

# Calculer le taux d'erreur
err = 1 - np.diag(confusion).sum() / confusion.sum()
print("Taux d'erreur:", err)

# Utiliser GridSearchCV pour ajuster les hyperparamètres
parameters = {'hidden_layer_sizes': [(4,), (5,)], 'alpha': [0.001, 0.01, 0.1, 1, 10]}
tuned_model = GridSearchCV(MLPClassifier(), parameters, cv=5)
tuned_model.fit(Appren_pca, Appren.iloc[:, -1])
print("Meilleurs hyperparamètres:", tuned_model.best_params_)

# Entraîner un nouveau modèle avec les meilleurs hyperparamètres
RN_best = MLPClassifier(hidden_layer_sizes=tuned_model.best_params_['hidden_layer_sizes'], alpha=tuned_model.best_params_['alpha'])
RN_best.fit(Appren_pca, Appren.iloc[:, -1])

# Faire des prédictions sur les données de test avec le meilleur modèle
pred_best = RN_best.predict(Test_pca)

# Calculer la matrice de confusion avec le meilleur modèle
confusion_best = confusion_matrix(Test.iloc[:, -1], pred_best)
print("Matrice de confusion (Meilleur modèle):")
print(confusion_best)

# Calculer le taux d'erreur avec le meilleur modèle
err_best = 1 - np.diag(confusion_best).sum() / confusion_best.sum()
print("Taux d'erreur (Meilleur modèle):", err_best)

# Vérifier le sur-apprentissage en calculant le MSE sur les données d'apprentissage
pred_train = RN_best.predict(Appren_pca)
mse_train = mean_squared_error(Appren.iloc[:, -1], pred_train)
mse_best = mean_squared_error(Test.iloc[:, -1], pred_best)
print("MSE (Données d'apprentissage):", mse_train)
print("MSE (Données de test):", mse_best)




MLPClassifier(alpha=0, hidden_layer_sizes=(4, 4, 4, 4))
Matrice de confusion:
[[23 13]
 [ 0 70]]
Taux d'erreur: 0.12264150943396224




Meilleurs hyperparamètres: {'alpha': 0.01, 'hidden_layer_sizes': (5,)}
Matrice de confusion (Meilleur modèle):
[[23 13]
 [ 2 68]]
Taux d'erreur (Meilleur modèle): 0.14150943396226412
MSE (Données d'apprentissage): 0.1469387755102041
MSE (Données de test): 0.14150943396226415


