# Projet: comment choisir le meilleur modèle d'apprentissage automatique pour un problème donné?

Déroulement
- réalisation en binôme
- A rendre : fichier jupyter + éventullement rapport d'analyse

Dans ce projet nous allons traiter différents problèmes nécessitant l'utilisation des méthodes d'apprentissage automatique.
Le but est de choisir pour un jeu de données, représentant un problème donné, le bon modèle d'apprentissage automatique compatible. Cette tâche englobe notamment le choix du meilleur pré-traitement à appliquer aux jeux de données ainsi que les bons paramètres du modèle d'apprentissage automatique.

Ainsi, Résoudre le problème par le clustering revient à fournir une représentation optimale par des clusters du jeu de données associé. En classification supervisée, résoudre le problème signifie produire le modèle prédictif le plus efficace. Nous vous informons qu'un problème dont le jeu de données ne contient pas de labels est résolu globalement par les méthodes de clustering. Si les labels sont présents, dans ce cas, la classification supervisée est souhaitable. Dans un but pédagogique, nous utilisons le même ensemble labélisé de données pour la classification (supervisé) et clustering (ML non supervisé)

Pour mener cette tâche, certaines étapes sont nécessaires.

- La première étape donne un apperçu sur les jeux de données auxquelles nous nous intéressons. 
- Les étapes de 2 à 4 demandent à développer des fonctions nécessaires à la préparation des jeux de données. 
- A partir de l'étape 5, on procède à la recherche du modèle optimal d'apprentissage automatique pour chacun des problèmes.

Dans ce projet nous allons traiter différents problèmes nécessitant l'utilisation des méthodes d'apprentissage automatique.
Le but est de choisir pour un jeu de données, représentant un problème donné, le bon modèle d'apprentissage automatique compatible. Cette tâche englobe notamment le choix du meilleur pré-traitement à appliquer aux jeux de données ainsi que les bons paramètres du modèle d'apprentissage automatique.

Ainsi, Résoudre le problème par le clustering revient à fournir une représentation optimale par des clusters du jeu de données associé. En classification supervisée, résoudre le problème signifie produire le modèle prédictif le plus efficace. Nous vous informons qu'un problème dont le jeu de données ne contient pas de labels est résolu globalement par les méthodes de clustering. Si les labels sont présents, dans ce cas, la classification supervisée est souhaitable. Dans un but pédagogique, nous utilisons le même ensemble labélisé de données pour la classification (supervisé) et clustering (ML non supervisé)

Pour mener cette tâche, certaines étapes sont nécessaires.

- La première étape donne un apperçu sur les jeux de données auxquelles nous nous intéressons.
- Les étapes de 2 à 4 demandent à développer des fonctions nécessaires à la préparation des jeux de données.
- A partir de l'étape 5, on procède à la recherche du modèle optimal d'apprentissage automatique pour chacun des problèmes.

##  <font color = "darkgreen">1- Description des jeux de données</font>

Dans ce projet, nous travaillerons sur des problèmes réels que nous cherchons à résoudre au moyen de l'apprentissage automatique :

* GCM: diagnostic de cancer multiclasses (prostate, pancréans...) , chaque obervation est une représentation d'un cancer via 16063 signatures d'expression de gènes tumoraux. Le cancer pourrait avoir plusieurs representations et donc plusieurs observations.

* Diabetes: diagnostic de diabètes. Une obervation représente les caractéristiques d'un patient (âge, pression, poids...) atteinte ou non du diabète.

* Wall-robot-navigation: mouvements du robot SCITOS G5 naviguant dans une pièce en suivant le mur dans le sens des aiguilles d'une montre, pendant 4 tours, mesurés à l'aide de 24 capteurs à ultrasons disposés en cercle autour de sa "taille". Chaque obervation représente un mouvement: Avancer,  Léger virage à droite, Virage serré à droite ou Tournez légèrement à gauche (le code peut être fourni )

* Japenese-vowel: cet ensemble de données enregistre 640 séries chronologiques de 12 coefficients de cepstre LPC provenant de neuf locuteurs masculins (https://fr.wikipedia.org/wiki/Cepstre). Chaque obervation représente un son d'une voyelle exprimé par un locuteur donné.

## <font color = "darkgreen">2- Chargement des jeux de données</font>

Nous découpons chaque jeu de données en X et y. Pour ce faire, 

Développez une fonction qui charge le jeu de données depuis un fichier  et retourne deux dataframes (un pour les caractéristiques et l'autre pour la classe/labels)

IL vous revient de bien analyser la structure pour determiner quelles sont les caractériqtiques et quels les calsses correspondantes (y). Néaumoins, voici quelques précisions :

#### Notes : 

* Tous les formats sont de type csv
* La colonne relative à la classe/label est généralement à position 0 ou à la dernière position
* La colonne classe n'a pas le même nom dans les différents jeux de données.
* La colonne classe n'est forcément numérique, dans ce cas la conversion s'avère nécessaire. 

In [22]:
import pandas as pd

def split_data(path,label):
    df = pd.read_csv(path)
    X = df.drop(columns=[label] , axis = 1)
    y = df[label]

    return X, y

* Diabetes

In [23]:
X_diabetes ,y_diabetes = split_data("dataset/data/diabetes.csv","Outcome")

* Japenese-vowel

In [24]:
X_japanese ,y_japanese = split_data("dataset/data/JapaneseVowels.csv","speaker")

 * Wall-robot-navigation

In [25]:
X_wrn ,y_wrn = split_data("dataset/data/wall-robot-navigation.csv","Class")

* GCM

In [26]:
df_gcm = pd.read_csv("dataset/data/GCM.csv" , index_col=1)

  interactivity=interactivity, compiler=compiler, result=result)


In [27]:
df_gcm.shape


(190, 16063)

In [28]:
X_gcm , y_gcm = split_data("dataset/data/GCM.csv", "class")

  if (await self.run_code(code, result,  async_=asy)):


In [29]:
mapping = {'Leukemia': 0, 'Lymphoma': 1, 'CNS': 2, 'Breast': 3, 'Bladder': 4, 'Pancreas': 5, 'Colorectal': 6, 'Lung': 7, 'Ovary': 8, 'Renal': 9}
mapping[y_gcm[0]]



3

In [30]:
y_gcm

0            Breast
1            Breast
2            Breast
3            Breast
4            Breast
           ...     
185    Mesothelioma
186             CNS
187             CNS
188             CNS
189             CNS
Name: class, Length: 190, dtype: object

## <font color = "darkgreen">3- Traitement des valeurs nulles/vides</font>

* Analysez tous les jeux de données, vérifiez si dans certaines observations il existe des valeurs nulles/vides
* Renvoyez le nombre d'obervations qui y sont concernées

In [31]:
import numpy as np


def get_nan_count(X):
    filtre = X.apply(lambda col: col.astype(str).str.contains(r'[nN][aA][nN]|[nN][aA][nN]\d+|\d+[nN][aA][nN]', regex=True))
    nb_lignes_avec_nan = filtre.any(axis=1).sum()
    return nb_lignes_avec_nan


In [32]:
print(f"Nombre de lignes diabetes null/vide : {get_nan_count(X_diabetes)}")
print(f"Nombre de lignes wrn null/vide : {get_nan_count(X_wrn)}")
print(f"Nombre de lignes japanese null/vide : {get_nan_count(X_japanese)}")
print(f"Nombre de lignes gcm null/vide : {get_nan_count(X_gcm)}")


Nombre de lignes diabetes null/vide : 95
Nombre de lignes wrn null/vide : 110
Nombre de lignes japanese null/vide : 0
Nombre de lignes gcm null/vide : 190


 Ces observations nécessitent l'une des opérations suivantes:
* 1- remplacer les valeurs nulles/vides par la moyenne des valeures des observations pour la caratéristique concernée, à répéter pour chaque  caratéristique.
* 2- même opération mais cette-fois ci en calculant le maximum
* 3- même opération mais cette-fois ci en calculant le minimum
* 4- supprimer les observations contenant les valeurs nulles/vides.

 Développez une fonction (qu'on appelera processNan) qui prend en paramètres le jeu de données (dataframe) et un entier, qu'on appelera typeOp, compris dans [1,4]
 En fonction de la valeur de typeOp, vous appliquez l'une des quatre opérations sur le jeu de données fourni en paramètre.

In [33]:

def remplacer_mean(X):
    X = X.replace(to_replace=r'[nN][aA][nN]|[nN][aA][nN]\d+|\d+[nN][aA][nN]',
                    value=np.nan,
                    regex=True)

    X = X.apply(pd.to_numeric, errors='coerce')
    df_remplie = X.fillna(X.mean())
    return df_remplie

In [34]:
def remplacer_max(X):
    X = X.replace(to_replace=r'[nN][aA][nN]|[nN][aA][nN]\d+|\d+[nN][aA][nN]',
                    value=np.nan,
                    regex=True)

    X = X.apply(pd.to_numeric, errors='coerce')
    df_remplie = X.fillna(X.max())
    return df_remplie

In [35]:
def remplacer_min(X):
    X = X.replace(to_replace=r'[nN][aA][nN]|[nN][aA][nN]\d+|\d+[nN][aA][nN]',
                    value=np.nan,
                    regex=True)

    X = X.apply(pd.to_numeric, errors='coerce')
    df_remplie = X.fillna(X.max())
    return df_remplie

In [36]:
def remove_nan(X):
    X = X.replace(to_replace=r'[nN][aA][nN]|[nN][aA][nN]\d+|\d+[nN][aA][nN]',
                  value=np.nan,
                  regex=True)
    df_cleaned = X.dropna()
    return df_cleaned

In [37]:
def processNan(X, typeOp):
    if typeOp == 1:
        return remplacer_mean(X)
    elif typeOp == 2:
        return remplacer_max(X)
    elif typeOp == 3:
        return remplacer_min(X)
    elif typeOp == 4:
        return remove_nan(X)
    else:
        raise ValueError("typeOp doit être compris entre 1 et 4")

In [38]:
processNan(X_diabetes, 1)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,6,148.000000,72,35.0,0.000000,33.6,0.627,50
1,1,85.000000,66,29.0,0.000000,26.6,0.351,31
2,8,118.508174,64,0.0,0.000000,23.3,0.672,32
3,1,89.000000,66,23.0,94.000000,28.1,0.167,21
4,0,137.000000,40,35.0,168.000000,43.1,2.288,33
...,...,...,...,...,...,...,...,...
763,10,101.000000,76,48.0,77.601333,32.9,0.171,63
764,2,122.000000,70,27.0,0.000000,36.8,0.340,27
765,5,121.000000,72,23.0,112.000000,26.2,0.245,30
766,1,126.000000,60,0.0,0.000000,30.1,0.349,47


In [39]:
processNan(X_wrn, 1)


Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,...,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24
0,0.438,0.498,3.625,3.645,5.000,2.918,5.000,2.351,2.332,2.643,...,1.744,0.593,0.502,0.493,0.504,0.445,0.431,0.444,0.440,0.429
1,0.438,0.498,3.625,3.648,5.000,2.918,5.000,2.637,2.332,2.649,...,1.744,0.592,0.502,0.493,0.504,0.449,0.431,0.444,0.443,0.429
2,0.438,0.498,3.625,3.629,5.000,2.918,5.000,2.637,2.334,2.643,...,1.744,0.593,0.502,0.493,0.504,0.449,0.431,0.444,0.446,0.429
3,0.437,0.501,3.625,3.626,5.000,2.918,5.000,2.353,2.334,2.642,...,1.744,0.593,0.502,0.493,0.504,0.449,0.431,0.444,0.444,0.429
4,0.438,0.498,3.626,3.629,5.000,2.918,5.000,2.640,2.334,2.639,...,1.744,0.592,0.502,0.493,0.504,0.449,0.431,0.444,0.441,0.429
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5451,0.910,5.000,3.997,2.785,2.770,2.572,2.433,1.087,1.772,1.040,...,5.000,0.660,0.648,0.657,0.686,5.000,1.045,5.000,5.000,1.562
5452,0.926,5.000,4.015,2.792,2.777,2.571,1.768,1.071,1.762,1.021,...,0.894,0.652,0.640,0.649,1.593,1.616,1.058,5.000,5.000,1.085
5453,0.937,5.000,4.034,2.799,2.784,2.571,1.754,1.053,1.752,1.002,...,0.873,0.648,0.633,0.642,0.741,5.000,1.065,5.000,5.000,1.105
5454,0.945,4.052,4.052,2.809,2.791,2.441,1.757,1.034,1.743,0.983,...,5.000,0.641,0.626,0.635,0.754,5.000,1.076,5.000,5.000,1.118


In [40]:
processNan(X_japanese, 1)

Unnamed: 0,utterance,frame,coefficient1,coefficient2,coefficient3,coefficient4,coefficient5,coefficient6,coefficient7,coefficient8,coefficient9,coefficient10,coefficient11,coefficient12
0,1,1,1.860936,-0.207383,0.261557,-0.214562,-0.171253,-0.118167,-0.277557,0.025668,0.126701,-0.306756,-0.213076,0.088728
1,1,2,1.891651,-0.193249,0.235363,-0.249118,-0.112890,-0.112238,-0.311997,-0.027122,0.171457,-0.289431,-0.247722,0.093011
2,1,3,1.939205,-0.239664,0.258561,-0.291458,-0.041053,-0.102034,-0.383300,0.019013,0.169510,-0.314894,-0.227908,0.074638
3,1,4,1.717517,-0.218572,0.217119,-0.228186,-0.018608,-0.137624,-0.403318,-0.009643,0.164607,-0.323267,-0.210105,0.098098
4,1,5,1.741191,-0.279891,0.196583,-0.236377,-0.032012,-0.090612,-0.363134,-0.012571,0.124298,-0.351171,-0.216545,0.113899
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9956,29,7,1.216506,-0.424432,-0.034349,-0.294238,0.166270,-0.397758,0.091827,0.023178,-0.191598,-0.111245,-0.011547,0.425088
9957,29,8,1.214579,-0.399925,-0.127891,-0.239583,0.221423,-0.374714,0.046216,0.051754,-0.197824,-0.099159,-0.018177,0.359986
9958,29,9,1.170031,-0.306025,-0.145534,-0.195854,0.276371,-0.346794,0.042325,0.031668,-0.181205,-0.077962,-0.024079,0.305890
9959,29,10,1.118108,-0.258605,-0.103982,-0.231256,0.344866,-0.223807,-0.014415,-0.046215,-0.219385,0.013357,-0.010018,0.192860


In [41]:
processNan(X_gcm, 1)

Unnamed: 0,AFFX-BioB-5_at,AFFX-BioB-M_at,AFFX-BioB-3_at,AFFX-BioC-5_at,AFFX-BioC-3_at,AFFX-BioDn-5_at,AFFX-BioDn-3_at,AFFX-CreX-5_at,AFFX-CreX-3_at,AFFX-BioB-5_st,...,RC_D60524_f_at,RC_D60607_at,RC_D60608_at,RC_D60642_f_at,RC_D60670_at,RC_D60700_at,RC_D60715_at,RC_D60774_f_at,RC_D60794_i_at,RC_D60794_f_at
0,-73.0,-69.0,-48.0,13,-86.0,-147.0,-65,-71.0,-32.0,100,...,-134.0,352,-67,121,-5.0,-11,-21.0,-41.0,-967.0,-120.0
1,-16.0,-63.0,-97.0,-42,-91.0,-164.0,-53,-77.0,-17.0,122,...,-51.0,244,-15,119,-32.0,4,-14.0,-28.0,-205.0,-31.0
2,4.0,-45.0,-112.0,-25,-85.0,-127.0,56,-110.0,81.0,41,...,14.0,163,-14,7,15.0,-8,-104.0,-36.0,-245.0,34.0
3,-31.0,-110.0,-20.0,-50,-115.0,-113.0,-17,-40.0,-17.0,80,...,26.0,625,18,59,-10.0,32,-2.0,10.0,-495.0,-37.0
4,-33.0,-39.0,-45.0,14,-56.0,-106.0,73,-34.0,18.0,64,...,-69.0,398,38,215,-2.0,44,3.0,68.0,-293.0,-34.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
185,-74.0,-125.0,31.0,50,-133.0,-213.0,-184,-134.0,-53.0,-88,...,-126.0,1462,35,271,62.0,83,6.0,64.0,-1046.0,-59.0
186,-199.0,-566.0,-590.0,-85,-606.0,-212.0,-391,-357.0,-162.0,736,...,938.0,2000,681,4010,482.0,1092,24.0,1200.0,-2807.0,5.0
187,-128.0,-264.0,-137.0,-57,-455.0,-197.0,720,-227.0,170.0,340,...,30.0,1510,331,2015,563.0,752,-103.0,417.0,-2115.0,-108.0
188,-74.0,-3292.0,-2562.0,-330,-313.0,-178.0,-592,-61.0,-58.0,-50,...,-25.0,426,231,253,8.0,-18,-121.0,56.0,-778.0,-102.0


## <font color = "darkgreen">4- Traitement des caractéristiques</font>


 Avant de faire appel à un modèle d'apprentissage automatique sur un jeu de données, l'étude de corrélation entre caractéristiques pourrait être menée. Si un couple de caractéristiques ayant une très forte corrélation alors l'une des deux caractéristiques est supprimée.

D'après vous, pourquoi on effectue cette suppression?

In [42]:
# pour éviter d'avoir les memes information, si deux caractéristiques sont fortement corrélées alors elles apportent la même information. ça peut affecter la performance du modèle d'apprentissage automatique.

 L'un des moyens pour mesurer la corrélation entre deux caractéristiques est l'utilisation de la mesure de Spearman. cette dernière mesure la force et la direction de la relation n liant les deux caractéristiques.  En ce qui concerne la force de la relation, la valeur du coefficient de corrélation renvoyé par Spearman varie entre +1 et -1.  Une valeur de ± 1 indique un degré de relation parfait entre les deux variables.  Plus la valeur du coefficient de corrélation se rapproche de 0, plus la relation entre les deux variables sera faible.  La direction de la relation est indiquée par le signe du coefficient ; un signe + indique une relation positive et un signe - une relation négative. Si le coefficient est équivant à +1 (repectivement -1) alors il signifie que plus les valeurs d'une caractéristique est grande plus les valeurs de l'autre caractéristique est grande (respectivement petite). 

 Développez une fonction qui retourne, pour une caractéristique donnée, les indices de toutes les caractéristiques dont le coefficient de corrélation retourné par la mesure de Spearman dépasse un certain seuil qu'on appelera t (entré en paramètre). 


#### Notes: 
Vous pourriez utiliser la mesure de Spearman proposée par Scipy(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html). Attention, nous nous intéressons seulement au coefficient de corrélation retournée dans la variable corrélation.  





In [43]:
from scipy.stats import spearmanr


def calcule_correlation(X, index, t):
    correlated_indices = []
    for i in range(X.shape[1]):
        if i != index:
            corr, _ = spearmanr(X.iloc[:, index], X.iloc[:, i])
            if abs(corr) > t:
                correlated_indices.append(i)

    return correlated_indices

In [44]:
calcule_correlation(X_diabetes, 0, 0.6)

[7]

In [45]:
calcule_correlation(X_japanese, 0, 0.6)

[]

In [46]:
calcule_correlation(X_wrn, 0, 0.6)

[22, 23]

 Développez une fonction qui supprime d'un jeu de données des caractéristiques à partir de leur indice renseignés en paramètres sous forme de liste. Le but ici est de supprimer les caractéistiques non nécessaires.
 
 
 On peut, supprimer si on le souhaite, les caractériqtiques à partir des noms de colonnes au lieu des indices de colonnes.

In [47]:
def remove_columns(X, indices):
    return X.drop(X.columns[indices], axis=1)

Développez une fonction appelée processCor qui :
- parcourt les caractéristiques 
- et supprime à chaque fois les caractéristiques qui ont 
un coefficient de corrélation avec la caractéristique courante dépassant le seuil t. 

Utilisez pour cela les deux fonctions developpées précedement dans la partie 4.

In [48]:
def processCor(X, t):
    i = 0
    while i < X.shape[1]:
        correlated_indices = calcule_correlation(X, i, t)
        if i in correlated_indices:
            correlated_indices.remove(i)
        if correlated_indices:
            X = remove_columns(X, correlated_indices)
        else:
            i += 1
    return X


## <font color = "darkgreen">5- Clustering </font>


 Dans cette partie, nous allons associer à un problème (jeu de données) le meilleur modèle de clustering. En conséquence, nous considérons que les jeux de données n'ont pas de labels ou de colonne classe, autrement dit on s'intéresse seulement aux caractéristiques (features). Dans ce cadre, on se focalisera que sur les méthodes de clustering :
- Dbscan(https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN)
- Clustering agglomératif(https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering)
- K-means
#### Notes:
* Un modèle est différent d'un algorithme(méthode). Dans le contexte d'apprentissage automatique,  un algorithme est une procédure exécutée sur un jeu de données. Le modèle est le résultat produit par l'agorithme. 
* Pour fournir un résultat (modèle), l'algorithme pourrait se baser sur un ensemble d'hyperparamètres qui lui sont fournis en entrée. Un hyperparamètre est une variable qui prend une valeur parmi un ensemble ou une infinité de valeurs, son but est de contrôler le processus d'apprentissage automatique (par exemple, le clustering ou la classification supervisée). 
* Différentes valeurs des hyperparamètres pourraient aboutir à différents modèles

 Créez une collection de jeux de données appelée original_datasets. La clé correspond au nom du jeu de données et la valeur correspondante est un tuple (X,y) où X est l'ensemble des caractéristiques et y l'ensemble des labels.  
#### Note:
Utilisez la fonction développée dans la partie 2.

In [49]:
original_datasets = {
    "diabetes": (split_data("dataset/data/diabetes.csv","Outcome")),
    "japanese": (split_data("dataset/data/JapaneseVowels.csv","speaker")),
    "wrn": (split_data("dataset/data/wall-robot-navigation.csv","Class")),
    #"gcm": (split_data("dataset/data/GCM.csv", "class"))
}

Nous allons préparer les jeux de données avant leur consommation par les méthodes de clustering. Tout d'abord créez une copie de  original_datasets qu'on appelera datasets. Ensuite traitez chaque jeu de données de datasets avec les fonctions processNan et processCor. On fixera typeOp à 1 et t à 0.7.

In [50]:
dataset = original_datasets.copy()

In [51]:
for key, (X, y) in dataset.items():
    X = processNan(X, 1)  # Remplacer les valeurs nulles par la moyenne
    X = processCor(X, 0.7)  # Supprimer les caractéristiques corrélées
    dataset[key] = (X, y)  # Mettre à jour le jeu de données traité

En utilisant la collection datasets, appelez les trois méthodes de clustering sur chaque jeu de données de la collection datasets et évaluez le résultat de  partitionnement(clustering) via:
* Calinski Harabaz(https://scikit-learn.org/stable/modules/generated/sklearn.metrics.calinski_harabasz_score.html#sklearn.metrics.calinski_harabasz_score)
* Davies Bouldin(https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_sc)

#### Notes:
* Sachant qu'on considère que les labels ne sont pas fournis, nous évaluons les résultats aussi par des métriques d'évaluation non supervisées, c'est à dire que les métriques n'ont pas accès aux labels pour proposer un score de performance.
* On considère que meilleur est le score des métriques d'évaluation mieux le problème associé au jeu de données est résolu.
* Lors de l'appel des méthodes de clustering, dans cette partie on modifiera pas les valeurs des hyperparamètres, on se contentera des valeurs fixés par défaut par scikit-learn.

Associez à chaque paire "jeu de données et méthode de clustering" les scores retournés par les métriques d'évaluation (calinski, davies).

In [52]:
from sklearn.cluster import DBSCAN, AgglomerativeClustering, KMeans
from sklearn.metrics import calinski_harabasz_score, davies_bouldin_score


In [53]:
def evaluate_clustering(X, method_name):
    if method_name == "dbscan":
        model = DBSCAN()
    elif method_name == "agglomerative":
        model = AgglomerativeClustering()
    elif method_name == "kmeans":
        model = KMeans()
    else:
        raise ValueError("Méthode inconnue")

    labels = model.fit_predict(X)

    if len(set(labels)) > 1:
        calinski_score = calinski_harabasz_score(X, labels)
        davies_score = davies_bouldin_score(X, labels)
    else:
        calinski_score = float('nan')
        davies_score = float('nan')

    return calinski_score, davies_score

Pour chaque jeu de données, quelle est la méthode qui a fourni le meilleur modèle selon les scores calculés dans la question précedente.

In [54]:
for key, (X, y) in dataset.items():
    print(f"Jeu de données: {key}")
    for method in ["dbscan", "agglomerative", "kmeans"]:
        calinski_score, davies_score = evaluate_clustering(X, method)
        print(f"  Méthode: {method}, Calinski: {calinski_score}, Davies: {davies_score}")
    print()

Jeu de données: diabetes
  Méthode: dbscan, Calinski: nan, Davies: nan
  Méthode: agglomerative, Calinski: 907.291128158236, Davies: 0.7444321463457898
  Méthode: kmeans, Calinski: 1005.6877169279542, Davies: 0.8487726330797032

Jeu de données: japanese
  Méthode: dbscan, Calinski: nan, Davies: nan
  Méthode: agglomerative, Calinski: 7632.094168843869, Davies: 0.35910087331353424
  Méthode: kmeans, Calinski: 14629.977917937767, Davies: 0.8204514755763403

Jeu de données: wrn
  Méthode: dbscan, Calinski: 9.771660887017699, Davies: 1.1178167891986839
  Méthode: agglomerative, Calinski: 840.8065337810509, Davies: 2.209461083507007
  Méthode: kmeans, Calinski: 579.9329357388772, Davies: 1.880541451421756



* Calinski score:
    * Score élevé = bon clustering
    * Les clusters sont bien séparés et compacts.
    * Score faible = mauvais clustering
    * Les clusters sont trop proches ou trop étalés.
* Davies score:
    * Score faible = bon clustering
    * Les clusters sont bien séparés et compacts.
    * Score élevé = mauvais clustering
    * Les clusters sont trop proches ou trop étalés.

* Pour Diabetes le meilleurs modeles est Agglomerative
* Pour Japanese le meilleurs modeles est K-means
* Pour WRN le meilleurs modeles est Agglomerative (différencie bien les types de mouvements)

## <font color = "darkgreen">6- Peut-on améliorer encore les résultats de clustering? </font>

Dans cette partie nous nous intéressons toujours au clustering mais das une perspective d'amélioration des modèles de clustering produits précedement. L'une des pistes d'amélioration des modèles est de varier les valeurs des hyper-paramètres des méthodes de clustering ainsi que les types de pré-traitement appliqués aux jeux de données. 

Tout d'abord développez une fonction (qu'on appellera getBestModel) qui pour une méthode de clustering donnée et un jeu de données renvoie le meilleur modèle. La fonction prend en paramètre le jeu de données X, le nom de la méthode methodName et une collection d'hyper-paramètres params. Cette collection a pour clé le nom de l'hyper-paramètre et pour valeur la liste des valeurs prises par l'hyper-paramètre. Dans cette fonction, toutes les combinaisons des valeurs des listes dans params seront évaluées et à chaque combinaison on obtiendra un modèle associée au jeu de données et à la méthode de clustering renseignés en paramètre. Chaque modèle est évalué par une métrique d'évaluation au choix (calinski ou davies). 

La collection params comporte les valeurs possibles des hyper-paramètres de la méthode clustering concernée ainsi que les valeurs possibles de typeOp et t. Vous avez le choix de fixer la liste de valeurs de typeOp et t. Vous pourriez commencer par évaluer [1,2,3,4] pour typeOp et [0.5, 0.7, 0.9] pour t. Les valeurs des hyper-paramètres dépendent de la méthode de clustering ciblée:

* Dbscan a plusieurs hyper-paramètres dont les plus influents sont eps, min_samples et metric. Notons que eps est un réel et ne peut dépasser la distance inter-points maximale qui existe dans X, et min_samples est un entier naturel non nul inférieur au nombre d'observations dans X. Metric a par défaut la valeur euclidean, d'autres valeurs sont possibles et consultables sur https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise_distances.html#sklearn.metrics.pairwise_distances. Vous avez le choix de fixer les listes de ces trois hyper-paramètres. On vous suggère de ne inclure des valeurs dépassant $\sqrt{|X|}$ pour min_samples et la moyenne des distances inter-points pour eps.
* Clustering agglomératif a pour hyper-paramètres les plus sensibles n_clusters, distance_threshold, affinity(équivalent de metric dans Dbscan) et linkage. A savoir que soit n_clusters ou distance_threshold est utilisé pour extraire les clusters finaux, il n'est pas nécessaire d'utiliser les deux. Vous pourriez limiter la valeur de n_clusters à $\frac{\sqrt{|X|}}{2}$ ou limiter la valeur de distance_threshold à la moyenne des distances inter-points.
* K-means a deux hyper-paramètres sensibles: n_clusters(nombre de clusters) et l'initialisation des centroides init{‘k-means++’, ‘random’}. 

#### Note:
Vous aurez à instancier plusieurs fois la collection datasets en fonction des valeurs prises par typeOp et t.



In [55]:
from sklearn.metrics import calinski_harabasz_score, davies_bouldin_score

def getBestModel(X, methodName, params):
    bestScore = float('inf')
    bestModel = None
    bestParams = None

    # Construire toutes les combinaisons possibles de paramètres
    import itertools
    keys, values = zip(*params.items())
    for v in itertools.product(*values):
        param = dict(zip(keys, v))
        # Instanciation modèle selon méthode
        if methodName == 'DBSCAN':
            model = DBSCAN(**param)
        elif methodName == 'KMeans':
            model = KMeans(**param, random_state=0)
        elif methodName == 'Agglomerative':
            model = AgglomerativeClustering(**param)
        else:
            raise ValueError("Méthode inconnue")

        labels = model.fit_predict(X)
        n_clusters = len(set(labels)) - (1 if -1 in labels else 0)

        # Sauter si nombre de clusters invalide pour les scores
        if n_clusters < 2 or n_clusters >= len(X):
            continue

        try:
            calinski = calinski_harabasz_score(X, labels)
            davies = davies_bouldin_score(X, labels)
        except Exception as e:
            # Ignorer paramètres qui provoquent des erreurs
            continue

        if davies < bestScore:
            bestScore = davies
            bestModel = model
            bestParams = param

    return bestModel, bestParams, bestScore


En utilisant la fonction getBestModel, identifiez le meilleur modèle associé à chaque jeu de données et méthode de clustering.

In [56]:
for key, (X, y) in dataset.items():
    print(f"Jeu de données: {key}")

    params_dbscan = {
        'eps': [0.5, 0.7, 0.9],
        'min_samples': [1, 2, 3],
        'metric': ['euclidean', 'manhattan']
    }
    params_kmeans = {
        'n_clusters': [2, 3, 4],
        'init': ['k-means++', 'random']
    }
    params_agglo = {
        'n_clusters': [2, 3, 4],
        'linkage': ['ward', 'complete', 'average']
    }

    for method in ["DBSCAN", "KMeans", "Agglomerative"]:
        if method == "DBSCAN":
            params = params_dbscan
        elif method == "KMeans":
            params = params_kmeans
        else:
            params = params_agglo

        best_model, best_params, best_score = getBestModel(X, method, params)
        print(f"  Méthode: {method}")
        print(f"    Meilleurs paramètres: {best_params}")
        print(f"    Meilleur score Davies-Bouldin: {best_score:.2f}")

    print()


Jeu de données: diabetes
  Méthode: DBSCAN
    Meilleurs paramètres: None
    Meilleur score Davies-Bouldin: inf
  Méthode: KMeans
    Meilleurs paramètres: {'n_clusters': 3, 'init': 'k-means++'}
    Meilleur score Davies-Bouldin: 0.67
  Méthode: Agglomerative
    Meilleurs paramètres: {'n_clusters': 2, 'linkage': 'average'}
    Meilleur score Davies-Bouldin: 0.24

Jeu de données: japanese
  Méthode: DBSCAN
    Meilleurs paramètres: {'eps': 0.5, 'min_samples': 1, 'metric': 'manhattan'}
    Meilleur score Davies-Bouldin: 0.02
  Méthode: KMeans
    Meilleurs paramètres: {'n_clusters': 2, 'init': 'k-means++'}
    Meilleur score Davies-Bouldin: 0.69
  Méthode: Agglomerative
    Meilleurs paramètres: {'n_clusters': 2, 'linkage': 'ward'}
    Meilleur score Davies-Bouldin: 0.36

Jeu de données: wrn
  Méthode: DBSCAN
    Meilleurs paramètres: {'eps': 0.5, 'min_samples': 1, 'metric': 'manhattan'}
    Meilleur score Davies-Bouldin: 0.11
  Méthode: KMeans
    Meilleurs paramètres: {'n_clusters': 

Par rapport à la partie 5, y a t-il eu des améliorations? Justifiez.

In [57]:
#oui , on peut jouer avec les parametres pour améliorer les résultats. Par exemple, on peut changer la valeur de eps dans DBSCAN ou le nombre de clusters dans KMeans. On peut aussi changer le type de distance utilisée dans les méthodes de clustering.
#on a les meilleurs paramètres pour chaque méthode de clustering et chaque jeu de données. On peut donc dire que les résultats sont meilleurs que ceux obtenus dans la partie 5 vec les parametre par defaut.
#Si on entraine notre modele dans la partie 5 avec les parametre avec les meilleurs parametres obtenus dans la partie 6, on aura de meilleurs résultats.

## <font color = "darkgreen">7- La classification supervisée</font>


Dans cette partie nous chercherons à résoudre les problèmes par la classification supervisée. Dans ce cas, on considère que les labels (y) sont à notre disposition. Nous nous intéressons à trois méthodes de cette catégorie:
* arbre de décision (https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)
* KNN : https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [60]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, balanced_accuracy_score

Instancier la collection datasets dans les mêmes conditions que celles spécifiées dans la partie 5.

In [61]:
dataset = original_datasets.copy()
for key, (X, y) in dataset.items():
    X = processNan(X, 1)  # Remplacer les valeurs nulles par la moyenne
    X = processCor(X, 0.7)  # Supprimer les caractéristiques corrélées
    dataset[key] = (X, y)  # Mettre à jour le jeu de données traité

Sur chaque jeu de données de la collection datasets appliquez les deux méthodes de classification. A chaque application, évaluez le résultat (modèle) via les métriques d'évaluation suivantes:
* accuracy score (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score)
* balanced accuracy score (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html#sklearn.metrics.balanced_accuracy_score)

#### Notes.
* A l'appel des méthodes de classification, les valeurs des hyper-paramètres doivent restés fixés tel qu'elles sont par scikit-learn. 
* Avant d'appliquer les trois méthodes de classification sur le jeu de données, celui-ci doit être divisé en deux sous-ensembles: ensemble d'entraînement ($~80$% du jeu de données) et l'ensemble de test ($~20$%).

In [62]:

for key, (X, y) in dataset.items():
    print(key)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Modèle d'arbre de décision
    model_dt = DecisionTreeClassifier()
    model_dt.fit(X_train, y_train)
    y_pred_dt = model_dt.predict(X_test)

    # Modèle d'arbre de décision
    model_knn = KNeighborsClassifier()
    model_knn.fit(X_train, y_train)
    y_pred_knn = model_knn.predict(X_test)

    # Calcul des métriques
    accuracy_dt = accuracy_score(y_test, y_pred_dt)
    balanced_accuracy_dt = balanced_accuracy_score(y_test, y_pred_dt)

    # Calcul des métriques
    accuracy_knn = accuracy_score(y_test, y_pred_knn)
    balanced_accuracy_knn = balanced_accuracy_score(y_test, y_pred_knn)

    print(f"  Arbre de décision - Accuracy: {accuracy_dt:.2f}, Balanced Accuracy: {balanced_accuracy_dt:.2f}")
    print(f"  KNN - Accuracy: {accuracy_knn:.2f}, Balanced Accuracy: {balanced_accuracy_knn:.2f}")


diabetes
  Arbre de décision - Accuracy: 0.64, Balanced Accuracy: 0.62
  KNN - Accuracy: 0.60, Balanced Accuracy: 0.57
japanese
  Arbre de décision - Accuracy: 0.86, Balanced Accuracy: 0.86
  KNN - Accuracy: 0.46, Balanced Accuracy: 0.44
wrn
  Arbre de décision - Accuracy: 0.98, Balanced Accuracy: 0.98
  KNN - Accuracy: 0.84, Balanced Accuracy: 0.83


Quelle est la méthode ayant a fourni le meilleur modèle (c'est à dire le meilleur taux de prédiction) pour chaque jeu de données?

In [None]:
# Pour les 3 datasets la méthode qui a fourni le meilleur model c'est Accuracy

## <font color = "darkgreen">8- Peut-on encore améliorer les résultats de classification supervisée</font>


Dans la même perspective que dans la partie 6, nous chercherons ici à améliorer les résultats de la classification en faisant varier les valeurs des hyper-paramètres et les types de pré-traitement des données. 

Reprenez la méthode gestBestModel en faisant en copie de celle-ci et en la nommant getBestModelC. Cette dernière a la même fonction que gestBestModel sauf qu'elle est adaptée pour la classification supervisée: 
* la métrique d'évaluation doit correspondre à l'une des deux métriques de la partie 7. 
* Pour faire face aux problèmes de désiquilibre de répartition de classes de points dans les sous-ensembles d'entraînement et de test, on adoptera la technique d'échantillonage suivante. A partir de chaque jeu de données, on génére 5 sous-ensembles de données disjoints. A chaque itération, un sous-ensemble est utilisé pour le test et les autres pour la phase d'entraînement. Un sous-ensemble doit être utilisé une seule fois dans la phase de test. 

Les listes de valeurs de typeOp et t peuvent être fixées identiquement à celles de la partie 6. 



En utilisant la fonction getBestModelC, identifiez le meilleur modèle associé à chaque jeu de données et méthode de classification?

Par rapport à la partie 7, y a t-il eu des améliorations? Justifiez.