In [2]:
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report
import warnings

# Chargement des données
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

In [3]:
# Normalisation des données
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [4]:
# Initialisation de la cross-validation
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)


In [5]:
from sklearn.neighbors import KNeighborsClassifier

# Définition des hyperparamètres à tester
knn_params = {'n_neighbors': [3, 5, 7],
              'weights': ['uniform', 'distance'],
              'metric': ['euclidean', 'manhattan']}

# Initialisation du GridSearchCV
knn = KNeighborsClassifier()
knn_grid = GridSearchCV(knn, knn_params, cv=cv, scoring='accuracy')
knn_grid.fit(X_scaled, y)

# Meilleurs paramètres et score obtenu
best_knn = knn_grid.best_estimator_
best_knn_score = knn_grid.best_score_

In [6]:
from sklearn.svm import SVC

# Définition des hyperparamètres à tester
svm_params = {'kernel': ['linear', 'rbf', 'poly'],
              'C': [0.1, 1, 10],
              'gamma': ['scale', 'auto']}

# Initialisation du GridSearchCV
svm = SVC(probability=True)
svm_grid = GridSearchCV(svm, svm_params, cv=cv, scoring='accuracy')
svm_grid.fit(X_scaled, y)

# Meilleurs paramètres et score obtenu
best_svm = svm_grid.best_estimator_
best_svm_score = svm_grid.best_score_

In [7]:
from sklearn.linear_model import SGDClassifier

# Définition des hyperparamètres à tester
sgd_params = {'loss': ['hinge', 'log_loss'],
              'penalty': ['l2', 'l1'],
              'alpha': [0.0001, 0.001, 0.01]}

# Initialisation du GridSearchCV
sgd = SGDClassifier()
sgd_grid = GridSearchCV(sgd, sgd_params, cv=cv, scoring='accuracy')
sgd_grid.fit(X_scaled, y)

# Meilleurs paramètres et score obtenu
best_sgd = sgd_grid.best_estimator_
best_sgd_score = sgd_grid.best_score_

In [8]:
from sklearn.neural_network import MLPClassifier

# Définition des hyperparamètres à tester
mlp_params = {'hidden_layer_sizes': [(100,), (50,50), (100,100)],
              'solver': ['adam', 'sgd'],
              'alpha': [0.0001, 0.001, 0.01]}

# Initialisation du GridSearchCV
mlp = MLPClassifier()
mlp_grid = GridSearchCV(mlp, mlp_params, cv=cv, scoring='accuracy')
mlp_grid.fit(X_scaled, y)

# Meilleurs paramètres et score obtenu
best_mlp = mlp_grid.best_estimator_
best_mlp_score = mlp_grid.best_score_



In [9]:
# Création d'un DataFrame pour comparer les résultats
results = pd.DataFrame({
    'Algorithm': ['KNN', 'SVM', 'SGDClassifier', 'MLPClassifier'],
    'Best Score': [best_knn_score, best_svm_score, best_sgd_score, best_mlp_score],
    'Best Parameters': [knn_grid.best_params_, svm_grid.best_params_, sgd_grid.best_params_, mlp_grid.best_params_]
})

# Affichage des résultats
print(results)

       Algorithm  Best Score  \
0            KNN    0.968343   
1            SVM    0.978916   
2  SGDClassifier    0.977177   
3  MLPClassifier    0.977177   

                                     Best Parameters  
0  {'metric': 'euclidean', 'n_neighbors': 3, 'wei...  
1       {'C': 10, 'gamma': 'scale', 'kernel': 'rbf'}  
2  {'alpha': 0.01, 'loss': 'hinge', 'penalty': 'l2'}  
3  {'alpha': 0.001, 'hidden_layer_sizes': (100,),...  


In [10]:
# Identificar le mejor algorithme
best_algorithm = results.loc[results['Best Score'].idxmax()]
print("\n--- mejor algorithmo ---")
print(f"Algorithme : {best_algorithm['Algorithm']}")
print(f"Meilleur Score : {best_algorithm['Best Score']:.4f}")
print(f"Meilleurs Paramètres : {best_algorithm['Best Parameters']}")


--- mejor algorithmo ---
Algorithme : SVM
Meilleur Score : 0.9789
Meilleurs Paramètres : {'C': 10, 'gamma': 'scale', 'kernel': 'rbf'}


Résumé des Exigences et Résultats
Critères de Validation Réalisés :
1. Cross-Validation Stratifiée (5 Fold) :

Oui, utilisée pour chaque GRIDSEARCHCV.
2. Comparaison des Algorithmes (KNN, SVM, SGDClassifier, MLPClassifier) :

Oui, réflexion inclut tous les algorithmes demandés.
3. Grid-Search pour Optimisation des Hyperparamètres :

 Oui, appliquée à chaque algorithme pour améliorer les performances.
4. Regroupement des Résultats dans un DataFrame :

 Oui, dataframe(created and la meilleure algoritm a été identificada.
5. Identification de l'Algorithme le Plus Performant :

Oui, sélection faite基és sur le meilleur score moyenne.
