# Aperçu et Chargement du Dataset
Charger le dataset dans l'environnement Python et se familiariser avec les données.

In [1]:
# Aperçu et Chargement du Dataset

# Importer les bibliothèques nécessaires
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Charger le dataset
df = pd.read_csv("Dataset-Disease-Prediction.csv")

# Afficher les premières lignes du dataset pour se familiariser avec les données
df.head()

# Afficher les informations du dataset pour comprendre les types de données et les valeurs manquantes
df.info()

# Afficher les statistiques descriptives du dataset
df.describe()

# Afficher les colonnes du dataset
df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Columns: 133 entries, itching to prognosis
dtypes: int64(132), object(1)
memory usage: 43.8+ KB


Index(['itching', 'skin_rash', 'nodal_skin_eruptions', 'continuous_sneezing',
       'shivering', 'chills', 'joint_pain', 'stomach_pain', 'acidity',
       'ulcers_on_tongue',
       ...
       'blackheads', 'scurring', 'skin_peeling', 'silver_like_dusting',
       'small_dents_in_nails', 'inflammatory_nails', 'blister',
       'red_sore_around_nose', 'yellow_crust_ooze', 'prognosis'],
      dtype='object', length=133)

# Prétraitement des Données
Gérer les valeurs manquantes, normaliser les données et diviser le dataset en données d'entraînement, de test et de validation.

In [2]:
# Prétraitement des Données

# Gérer les valeurs manquantes en les remplissant avec la valeur la plus fréquente de chaque colonne
df = df.apply(lambda x: x.fillna(x.mode()[0]))

# Séparer les caractéristiques (features) et la variable cible (target)
X = df.drop('prognosis', axis=1)
y = df['prognosis']

# Normaliser les données
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Diviser le dataset en données d'entraînement (80%) et de test (20%)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Diviser les données d'entraînement en données d'entraînement (80%) et de validation (20%)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

# Sélection et Validation Croisée des Modèles
Effectuer une validation croisée K-Fold sur le dataset d'entraînement pour sélectionner les meilleurs modèles.

In [3]:
# Sélection et Validation Croisée des Modèles

# Initialiser les modèles de classification
svm = SVC()
nb = GaussianNB()
rf = RandomForestClassifier()

# Effectuer une validation croisée K-Fold sur le dataset d'entraînement pour chaque modèle
k = 5  # Nombre de folds pour la validation croisée

# Validation croisée pour SVM
svm_scores = cross_val_score(svm, X_train, y_train, cv=k)
print(f'SVM Cross-Validation Accuracy: {np.mean(svm_scores):.2f} ± {np.std(svm_scores):.2f}')

# Validation croisée pour Naive Bayes
nb_scores = cross_val_score(nb, X_train, y_train, cv=k)
print(f'Naive Bayes Cross-Validation Accuracy: {np.mean(nb_scores):.2f} ± {np.std(nb_scores):.2f}')

# Validation croisée pour Random Forest
rf_scores = cross_val_score(rf, X_train, y_train, cv=k)
print(f'Random Forest Cross-Validation Accuracy: {np.mean(rf_scores):.2f} ± {np.std(rf_scores):.2f}')

ValueError: n_splits=5 cannot be greater than the number of members in each class.

# Entraînement des Classificateurs
Entraîner les classificateurs SVM, Naive Bayes et Random Forest, et calculer les métriques de performance.

In [None]:
# Entraînement des Classificateurs

# Entraîner le classificateur SVM
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)

# Calculer les métriques de performance pour SVM
accuracy_svm = accuracy_score(y_test, y_pred_svm)
report_svm = classification_report(y_test, y_pred_svm)
conf_matrix_svm = confusion_matrix(y_test, y_pred_svm)

print(f'SVM Accuracy: {accuracy_svm:.2f}')
print('SVM Classification Report:')
print(report_svm)
print('SVM Confusion Matrix:')
print(conf_matrix_svm)

# Entraîner le classificateur Naive Bayes
nb.fit(X_train, y_train)
y_pred_nb = nb.predict(X_test)

# Calculer les métriques de performance pour Naive Bayes
accuracy_nb = accuracy_score(y_test, y_pred_nb)
report_nb = classification_report(y_test, y_pred_nb)
conf_matrix_nb = confusion_matrix(y_test, y_pred_nb)

print(f'Naive Bayes Accuracy: {accuracy_nb:.2f}')
print('Naive Bayes Classification Report:')
print(report_nb)
print('Naive Bayes Confusion Matrix:')
print(conf_matrix_nb)

# Entraîner le classificateur Random Forest
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

# Calculer les métriques de performance pour Random Forest
accuracy_rf = accuracy_score(y_test, y_pred_rf)
report_rf = classification_report(y_test, y_pred_rf)
conf_matrix_rf = confusion_matrix(y_test, y_pred_rf)

print(f'Random Forest Accuracy: {accuracy_rf:.2f}')
print('Random Forest Classification Report:')
print(report_rf)
print('Random Forest Confusion Matrix:')
print(conf_matrix_rf)

# Comparer les métriques de performance entre les classificateurs
classifiers = ['SVM', 'Naive Bayes', 'Random Forest']
accuracies = [accuracy_svm, accuracy_nb, accuracy_rf]

plt.figure(figsize=(10, 6))
sns.barplot(x=classifiers, y=accuracies)
plt.title('Comparison of Classifier Accuracies')
plt.xlabel('Classifier')
plt.ylabel('Accuracy')
plt.show()

# Prédiction Utilisant les Données de Validation
Utiliser les modèles pour prédire les résultats sur le dataset de validation et combiner les prédictions en utilisant le vote majoritaire.

In [None]:
# Prédiction Utilisant les Données de Validation

# Prédire les résultats sur le dataset de validation avec chaque classificateur
y_val_pred_svm = svm.predict(X_val)
y_val_pred_nb = nb.predict(X_val)
y_val_pred_rf = rf.predict(X_val)

# Combiner les prédictions en utilisant le vote majoritaire
from scipy.stats import mode

# Empiler les prédictions pour chaque instance
predictions = np.vstack((y_val_pred_svm, y_val_pred_nb, y_val_pred_rf)).T

# Appliquer le vote majoritaire
y_val_pred_ensemble = mode(predictions, axis=1)[0].flatten()

# Évaluer le modèle d'ensemble
accuracy_ensemble = accuracy_score(y_val, y_val_pred_ensemble)
report_ensemble = classification_report(y_val, y_val_pred_ensemble)
conf_matrix_ensemble = confusion_matrix(y_val, y_val_pred_ensemble)

print(f'Ensemble Model Accuracy: {accuracy_ensemble:.2f}')
print('Ensemble Model Classification Report:')
print(report_ensemble)
print('Ensemble Model Confusion Matrix:')
print(conf_matrix_ensemble)

# Visualiser la matrice de confusion pour le modèle d'ensemble
plt.figure(figsize=(10, 6))
sns.heatmap(conf_matrix_ensemble, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix for Ensemble Model')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

# Sortie et Évaluation
Évaluer le modèle d'ensemble en comparant les prédictions avec les étiquettes réelles et présenter les résultats avec des matrices de confusion et des graphiques.

In [None]:
# Sortie et Évaluation

# Évaluer le modèle d'ensemble en comparant les prédictions avec les étiquettes réelles et présenter les résultats avec des matrices de confusion et des graphiques.

# Calculer les métriques de performance pour le modèle d'ensemble
accuracy_ensemble = accuracy_score(y_val, y_val_pred_ensemble)
report_ensemble = classification_report(y_val, y_val_pred_ensemble)
conf_matrix_ensemble = confusion_matrix(y_val, y_val_pred_ensemble)

print(f'Ensemble Model Accuracy: {accuracy_ensemble:.2f}')
print('Ensemble Model Classification Report:')
print(report_ensemble)
print('Ensemble Model Confusion Matrix:')
print(conf_matrix_ensemble)

# Visualiser la matrice de confusion pour le modèle d'ensemble
plt.figure(figsize=(10, 6))
sns.heatmap(conf_matrix_ensemble, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix for Ensemble Model')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

# Comparer les métriques de performance entre les classificateurs
classifiers = ['SVM', 'Naive Bayes', 'Random Forest', 'Ensemble']
accuracies = [accuracy_svm, accuracy_nb, accuracy_rf, accuracy_ensemble]

plt.figure(figsize=(10, 6))
sns.barplot(x=classifiers, y=accuracies)
plt.title('Comparison of Classifier Accuracies')
plt.xlabel('Classifier')
plt.ylabel('Accuracy')
plt.show()