# Projet: comment choisir le meilleur modèle d'apprentissage automatique pour un problème donné?

Déroulement 
- réalisation en binôme 
- A rendre : fichier jupyter + éventullement rapport d'analyse
- Date de livraison : 30 Mars 2022

Dans ce projet nous allons traiter différents problèmes nécessitant l'utilisation des méthodes d'apprentissage automatique.
Le but est de choisir pour un jeu de données, représentant un problème donné, le bon modèle d'apprentissage automatique compatible. Cette tâche englobe notamment le choix du meilleur pré-traitement à appliquer aux jeux de données ainsi que les bons paramètres du modèle d'apprentissage automatique.

Ainsi, Résoudre le problème par le clustering revient à fournir une représentation optimale par des clusters du jeu de données associé. En classification supervisée, résoudre le problème signifie produire le modèle prédictif le plus efficace. Nous vous informons qu'un problème dont le jeu de données ne contient pas de labels est résolu globalement par les méthodes de clustering. Si les labels sont présents, dans ce cas, la classification supervisée est souhaitable. Dans un but pédagogique, nous utilisons le même ensemble labélisé de données pour la classification (supervisé) et clustering (ML non supervisé)

Pour mener cette tâche, certaines étapes sont nécessaires.

- La première étape donne un apperçu sur les jeux de données auxquelles nous nous intéressons. 
- Les étapes de 2 à 4 demandent à développer des fonctions nécessaires à la préparation des jeux de données. 
- A partir de l'étape 5, on procède à la recherche du modèle optimal d'apprentissage automatique pour chacun des problèmes.

Dans ce projet nous allons traiter différents problèmes nécessitant l'utilisation des méthodes d'apprentissage automatique.
Le but est de choisir pour un jeu de données, représentant un problème donné, le bon modèle d'apprentissage automatique compatible. Cette tâche englobe notamment le choix du meilleur pré-traitement à appliquer aux jeux de données ainsi que les bons paramètres du modèle d'apprentissage automatique.

Ainsi, Résoudre le problème par le clustering revient à fournir une représentation optimale par des clusters du jeu de données associé. En classification supervisée, résoudre le problème signifie produire le modèle prédictif le plus efficace. Nous vous informons qu'un problème dont le jeu de données ne contient pas de labels est résolu globalement par les méthodes de clustering. Si les labels sont présents, dans ce cas, la classification supervisée est souhaitable. Dans un but pédagogique, nous utilisons le même ensemble labélisé de données pour la classification (supervisé) et clustering (ML non supervisé)

Pour mener cette tâche, certaines étapes sont nécessaires.

- La première étape donne un apperçu sur les jeux de données auxquelles nous nous intéressons. 
- Les étapes de 2 à 4 demandent à développer des fonctions nécessaires à la préparation des jeux de données. 
- A partir de l'étape 5, on procède à la recherche du modèle optimal d'apprentissage automatique pour chacun des problèmes.

##  <font color = "darkgreen">1- Description des jeux de données</font>

Dans ce projet, nous travaillerons sur des problèmes réels que nous cherchons à résoudre au moyen de l'apprentissage automatique :

* GCM: diagnostic de cancer multiclasses (prostate, pancréans...) , chaque obervation est une représentation d'un cancer via 16063 signatures d'expression de gènes tumoraux. Le cancer pourrait avoir plusieurs representations et donc plusieurs observations.

* Diabetes: diagnostic de diabètes. Une obervation représente les caractéristiques d'un patient (âge, pression, poids...) atteinte ou non du diabète.

* Wall-robot-navigation: mouvements du robot SCITOS G5 naviguant dans une pièce en suivant le mur dans le sens des aiguilles d'une montre, pendant 4 tours, mesurés à l'aide de 24 capteurs à ultrasons disposés en cercle autour de sa "taille". Chaque obervation représente un mouvement: Avancer,  Léger virage à droite, Virage serré à droite ou Tournez légèrement à gauche (le code peut être fourni )

* Japenese-vowel: cet ensemble de données enregistre 640 séries chronologiques de 12 coefficients de cepstre LPC provenant de neuf locuteurs masculins (https://fr.wikipedia.org/wiki/Cepstre). Chaque obervation représente un son d'une voyelle exprimé par un locuteur donné.

## <font color = "darkgreen">2- Chargement des jeux de données</font>

Nous découpons chaque jeu de données en X et y. Pour ce faire, 

Développez une fonction qui charge le jeu de données depuis un fichier  et retourne deux dataframes (un pour les caractéristiques et l'autre pour la classe/labels)

IL vous revient de bien analyser la structure pour determiner quelles sont les caractériqtiques et quels les calsses correspondantes (y). Néaumoins, voici quelques précisions :

#### Notes : 

* Tous les formats sont de type csv
* La colonne relative à la classe/label est généralement à position 0 ou à la dernière position
* La colonne classe n'a pas le même nom dans les différents jeux de données.
* La colonne classe n'est forcément numérique, dans ce cas la conversion s'avère nécessaire. 

In [4]:
import re
import pandas as pd
import numpy as np
import sklearn as skn

'''
def read_csv_parse_labels(path: str, isFirstColumn=False):
  df = pd.read_csv(path, low_memory=False)
  y = None
  if isFirstColumn:
    y = df.iloc[:, 0]
  else:
    y = df.iloc[:, -1]

  labels = y.unique()
  mapping = dict(zip(labels, range(len(labels))))
  y = y.map(mapping)
  df.pop(y.name)
  return df, y, labels
'''

def read_df_parse_labels(df, isFirstColumn=False):
  y = None
  if isFirstColumn:
    y = df.iloc[:, 0]
  else:
    y = df.iloc[:, -1]

  labels = y.unique()
  mapping = dict(zip(labels, range(len(labels))))
  y = y.map(mapping)
  df.pop(y.name)
  return df, y, labels

In [5]:
df_diabetes = pd.read_csv('data/diabetes.csv')
df_gcm = pd.read_csv('data/GCM.csv')
df_japanVoice = pd.read_csv('data/JapaneseVowels.csv')
df_wallRobot = pd.read_csv('data/wall-robot-navigation.csv')



  df_gcm = pd.read_csv('data/GCM.csv')


## <font color = "darkgreen">3- Traitement des valeurs nulles/vides</font>


* Analysez tous les jeux de données, vérifiez si dans certaines observations il existe des valeurs nulles/vides
* Renvoyez le nombre d'obervations qui y sont concernées

In [6]:
'''
We normalize the data by replacing all values that matches "nan" or "null" case insensitive by Numpy.nan.
Then we convert all the columns to be floats.
'''

def replace_integers(df):
    for col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(np.nan)
    return df

In [7]:
def processNan(df, typeOp: int) -> pd.DataFrame:
    operations = {
        1: lambda x: x.fillna(x.mean()),
        2: lambda x: x.fillna(x.max()),
        3: lambda x: x.fillna(x.min()),
        4: lambda x: x.dropna(),
    }
    result = operations[typeOp](df)
    return result

 Ces observations nécessitent l'une des opérations suivantes:
* 1- remplacer les valeurs nulles/vides par la moyenne des valeures des observations pour la caratéristique concernée, à répéter pour chaque  caratéristique.
* 2- même opération mais cette-fois ci en calculant le maximum
* 3- même opération mais cette-fois ci en calculant le minimum
* 4- supprimer les observations contenant les valeurs nulles/vides.

 Développez une fonction (qu'on appelera processNan) qui prend en paramètres le jeu de données (dataframe) et un entier, qu'on appelera typeOp, compris dans [1,4]
 En fonction de la valeur de typeOp, vous appliquez l'une des quatre opérations sur le jeu de données fourni en paramètre.

In [8]:
df_diabetes = replace_integers(df_diabetes)
df_diabetes = processNan(df_diabetes, 1)
df_diabetes = read_df_parse_labels(df_diabetes)


df_gcm = replace_integers(df_gcm)
df_gcm = processNan(df_gcm, 1)
df_gcm = read_df_parse_labels(df_gcm)


df_japanVoice = replace_integers(df_japanVoice)
df_japanVoice = processNan(df_japanVoice, 1)
df_japanVoice = read_df_parse_labels(df_japanVoice)

df_wallRobot = replace_integers(df_wallRobot)
df_wallRobot = processNan(df_wallRobot, 1)
df_wallRobot = read_df_parse_labels(df_wallRobot)

## <font color = "darkgreen">4- Traitement des caractéristiques</font>


 Avant de faire appel à un modèle d'apprentissage automatique sur un jeu de données, l'étude de corrélation entre caractéristiques pourrait être menée. Si un couple de caractéristiques ayant une très forte corrélation alors l'une des deux caractéristiques est supprimée.

D'après vous, pourquoi on effectue cette suppression?

In [9]:
'''
Cela nous ferais de la donnée en trop alors qu'elle sont "égaux" et ne ferais rien d'autre que de rajouter une nouvelle caractéristique.
'''

'\nCela nous ferais de la donnée en trop alors qu\'elle sont "égaux" et ne ferais rien d\'autre que de rajouter une nouvelle caractéristique.\n'

 L'un des moyens pour mesurer la corrélation entre deux caractéristiques est l'utilisation de la mesure de Spearman. cette dernière mesure la force et la direction de la relation n liant les deux caractéristiques.  En ce qui concerne la force de la relation, la valeur du coefficient de corrélation renvoyé par Spearman varie entre +1 et -1.  Une valeur de ± 1 indique un degré de relation parfait entre les deux variables.  Plus la valeur du coefficient de corrélation se rapproche de 0, plus la relation entre les deux variables sera faible.  La direction de la relation est indiquée par le signe du coefficient ; un signe + indique une relation positive et un signe - une relation négative. Si le coefficient est équivant à +1 (repectivement -1) alors il signifie que plus les valeurs d'une caractéristique est grande plus les valeurs de l'autre caractéristique est grande (respectivement petite). 

 Développez une fonction qui retourne, pour une caractéristique donnée, les indices de toutes les caractéristiques dont le coefficient de corrélation retourné par la mesure de Spearman dépasse un certain seuil qu'on appelera t (entré en paramètre). 


#### Notes: 
Vous pourriez utiliser la mesure de Spearman proposée par Scipy(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html). Attention, nous nous intéressons seulement au coefficient de corrélation retournée dans la variable corrélation.  





In [10]:
from scipy import stats
from scipy.stats import spearmanr
import itertools

def spearman(df, t: float):
    
    corr_table = []
    
    for col1, col2 in itertools.combinations(df.columns, 2):
        
        # Calcul de la corrélation de Spearman entre les deux colonnes
        corr, _ = spearmanr(df[col1], df[col2])
        
        # Ajout des résultats à la table de corrélation
        if corr > t:
            index = df.columns.get_loc(col1)
            corr_table.append([col1, col2, corr, index])
        
    return corr_table


In [11]:
test = spearman(df_diabetes[0], 0)
test

[['Pregnancies', 'Glucose', 0.13363229666503892, 0],
 ['Pregnancies', 'BloodPressure', 0.18512673205801747, 0],
 ['Pregnancies', 'Age', 0.6072163388236559, 0],
 ['Glucose', 'BloodPressure', 0.23252741923433431, 1],
 ['Glucose', 'SkinThickness', 0.04781861047345449, 1],
 ['Glucose', 'Insulin', 0.1968254606758379, 1],
 ['Glucose', 'BMI', 0.20582201915080067, 1],
 ['Glucose', 'DiabetesPedigreeFunction', 0.0630770665695292, 1],
 ['Glucose', 'Age', 0.27186816841115385, 1],
 ['BloodPressure', 'SkinThickness', 0.12666506665563632, 2],
 ['BloodPressure', 'BMI', 0.2929282475431166, 2],
 ['BloodPressure', 'DiabetesPedigreeFunction', 0.02066116660443163, 2],
 ['BloodPressure', 'Age', 0.3508945932216354, 2],
 ['SkinThickness', 'Insulin', 0.54439924155319, 3],
 ['SkinThickness', 'BMI', 0.4397916797330038, 3],
 ['SkinThickness', 'DiabetesPedigreeFunction', 0.16581503116350355, 3],
 ['Insulin', 'BMI', 0.191181741345709, 4],
 ['Insulin', 'DiabetesPedigreeFunction', 0.204870858154066, 4],
 ['BMI', 'Dia

 Développez une fonction qui supprime d'un jeu de données des caractéristiques à partir de leur indice renseignés en paramètres sous forme de liste. Le but ici est de supprimer les caractéistiques non nécessaires.
 
 
 On peut, supprimer si on le souhaite, les caractériqtiques à partir des noms de colonnes au lieu des indices de colonnes.

In [12]:
def removeIndices(df: pd.DataFrame, indices):
  newDf = pd.DataFrame(df)
  newDf = newDf.drop(df.columns[indices], axis=1)
  return newDf


Développez une fonction appelée processCor qui :
- parcourt les caractéristiques 
- et supprime à chaque fois les caractéristiques qui ont 
un coefficient de corrélation avec la caractéristique courante dépassant le seuil t. 

Utilisez pour cela les deux fonctions developpées précedement dans la partie 4.

In [13]:
def processCor(df: pd.DataFrame, t: float):
  tableSpearman = spearman(df, t)
  
  for column_name in tableSpearman:
    df = removeIndices(df, column_name[3])

  return df

In [14]:
test = processCor(df_diabetes[0], 0.5)
test

Unnamed: 0,Glucose,BloodPressure,SkinThickness,BMI,DiabetesPedigreeFunction,Age
0,148.000000,72,35.0,33.6,0.627,50
1,85.000000,66,29.0,26.6,0.351,31
2,118.508174,64,0.0,23.3,0.672,32
3,89.000000,66,23.0,28.1,0.167,21
4,137.000000,40,35.0,43.1,2.288,33
...,...,...,...,...,...,...
763,101.000000,76,48.0,32.9,0.171,63
764,122.000000,70,27.0,36.8,0.340,27
765,121.000000,72,23.0,26.2,0.245,30
766,126.000000,60,0.0,30.1,0.349,47


## <font color = "darkgreen">5- Clustering </font>


 Dans cette partie, nous allons associer à un problème (jeu de données) le meilleur modèle de clustering. En conséquence, nous considérons que les jeux de données n'ont pas de labels ou de colonne classe, autrement dit on s'intéresse seulement aux caractéristiques (features). Dans ce cadre, on se focalisera que sur les méthodes de clustering :
- Dbscan(https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN)
- Clustering agglomératif(https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering)
- K-means
#### Notes:
* Un modèle est différent d'un algorithme(méthode). Dans le contexte d'apprentissage automatique,  un algorithme est une procédure exécutée sur un jeu de données. Le modèle est le résultat produit par l'agorithme. 
* Pour fournir un résultat (modèle), l'algorithme pourrait se baser sur un ensemble d'hyperparamètres qui lui sont fournis en entrée. Un hyperparamètre est une variable qui prend une valeur parmi un ensemble ou une infinité de valeurs, son but est de contrôler le processus d'apprentissage automatique (par exemple, le clustering ou la classification supervisée). 
* Différentes valeurs des hyperparamètres pourraient aboutir à différents modèles

 Créez une collection de jeux de données appelée original_datasets. La clé correspond au nom du jeu de données et la valeur correspondante est un tuple (X,y) où X est l'ensemble des caractéristiques et y l'ensemble des labels.  
#### Note:
Utilisez la fonction développée dans la partie 2.

In [15]:
files = ["data/diabetes.csv", "data/JapaneseVowels.csv", "data/wall-robot-navigation.csv"]
original_datasets = []

for file in files:
  X, y, labels = read_df_parse_labels(pd.read_csv(file), True)
  original_datasets.append((X, y, file))

Nous allons préparer les jeux de données avant leur consommation par les méthodes de clustering. Tout d'abord créez une copie de  original_datasets qu'on appelera datasets. Ensuite traitez chaque jeu de données de datasets avec les fonctions processNan et processCor. On fixera typeOp à 1 et t à 0.7.

In [16]:
from sklearn.decomposition import PCA

def reductionColonnes(data):
    data_array = np.array(data)
    pca = PCA(n_components=2)
    pca.fit(data_array)
    data_pca = pca.transform(data_array)
    return data_pca
    

In [17]:
datasets = original_datasets.copy()
new_datasets = []
#Traitement du datasets, on va nettoyer les dataframes qu'il contient
#for i in range(len(datasets)):
for i in range(len(datasets)):
    data = datasets[i][0].copy()
    data = replace_integers(data)
    data = processNan(data, 1)
    try:
        if datasets[i][2] == "data/GCM.csv":
            data = reductionColonnes(data)
            data = replace_integers(data)
            data = processNan(data, 1)
        data = processCor(data, 0.5)
    except:
        pass
    # Créer un nouveau tuple avec les données modifiées
    modified_tuple = (datasets[i][2], data)
    
    # Ajouter le nouveau tuple à la nouvelle liste
    new_datasets.append(modified_tuple)

datasets = new_datasets


En utilisant la collection datasets, appelez les trois méthodes de clustering sur chaque jeu de données de la collection datasets et évaluez le résultat de  partitionnement(clustering) via:
* Calinski Harabaz(https://scikit-learn.org/stable/modules/generated/sklearn.metrics.calinski_harabasz_score.html#sklearn.metrics.calinski_harabasz_score)
* Davies Bouldin(https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_sc)

#### Notes:
* Sachant qu'on considère que les labels ne sont pas fournis, nous évaluons les résultats aussi par des métriques d'évaluation non supervisées, c'est à dire que les métriques n'ont pas accès aux labels pour proposer un score de performance.
* On considère que meilleur est le score des métriques d'évaluation mieux le problème associé au jeu de données est résolu.
* Lors de l'appel des méthodes de clustering, dans cette partie on modifiera pas les valeurs des hyperparamètres, on se contentera des valeurs fixés par défaut par scikit-learn.

Associez à chaque paire "jeu de données et méthode de clustering" les scores retournés par les métriques d'évaluation (calinski, davies).

In [113]:
from sklearn import metrics
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from sklearn.cluster import AgglomerativeClustering
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer



#Initiation des tableaux qui comporte comme première valeur le jeu de donnée, et comme deuxième valeur le score
kmeansResult = []
dbscanResult = []  
aggloclusteringResult = []

def evaluateClustering(X, labels):
    if len(np.unique(labels)) > 1:
        return metrics.calinski_harabasz_score(X, labels), metrics.davies_bouldin_score(X, labels)
    else:
        return "Error", "Error"

for data in datasets:
    #KMEANS 
    kmeans = KMeans()
    labels = kmeans.fit(data[1])
    scoreCalinski, scoreDavies = evaluateClustering(data[1], labels.labels_)
    newArray = [data[0], scoreDavies, scoreCalinski]
    kmeansResult.append(newArray)

    #DBSCAN
    dbscanClustering = DBSCAN().fit(data[1])
    scoreCalinski, scoreDavies = evaluateClustering(data[1], dbscanClustering.labels_)
    newArray = [data[0], scoreDavies, scoreCalinski]
    dbscanResult.append(newArray)

    #AgglomérativeCluster
    aggloCluster = AgglomerativeClustering().fit(data[1])
    scoreCalinski, scoreDavies = evaluateClustering(data[1], aggloCluster.labels_)
    newArray = [data[0], scoreDavies, scoreCalinski]
    aggloclusteringResult.append(newArray)


#Premier element : nom
#Deuxième element : Davies
#Troisième element : Calinski
print("kmeans")
print(kmeansResult)
print("dbscanResult")
print(dbscanResult)
print("aggloclustering")
print(aggloclusteringResult)




kmeans
[['data/diabetes.csv', 0.7459658305401469, 1143.4415418557362], ['data/JapaneseVowels.csv', 0.5538235805812025, 53448.354100526245], ['data/wall-robot-navigation.csv', 2.16793799856371, 545.4233243759186]]
dbscanResult
[['data/diabetes.csv', 'Error', 'Error'], ['data/JapaneseVowels.csv', 3.1856743084739416, 6926.532710557646], ['data/wall-robot-navigation.csv', 1.1064579717531862, 8.740773130157462]]
aggloclustering
[['data/diabetes.csv', 0.7180938560127946, 964.6732488405602], ['data/JapaneseVowels.csv', 0.295726268872482, 8975.34451821781], ['data/wall-robot-navigation.csv', 2.5685867641761138, 784.4396268255854]]


Pour chaque jeu de données, quelle est la méthode qui a fourni le meilleur modèle selon les scores calculés dans la question précedente.

In [19]:
#Pour Diabetes.CSV, le meilleur modèle est celui de Aggloclustering ou bien celui de Kmeans. L'un est plus proche de 0, et l'autre a un calinsky plus grand.
#Pour japaneseVowel.csv, le meilleur modèle est celui de Aggloclustering.
#Et pour robot-navigation.csv, le meilleur modèle est celui dekmeans (dbsScan a un Calunsky trop faible !)

## <font color = "darkgreen">6- Peut-on améliorer encore les résultats de clustering? </font>

Dans cette partie nous nous intéressons toujours au clustering mais das une perspective d'amélioration des modèles de clustering produits précedement. L'une des pistes d'amélioration des modèles est de varier les valeurs des hyper-paramètres des méthodes de clustering ainsi que les types de pré-traitement appliqués aux jeux de données. 

Tout d'abord développez une fonction (qu'on appellera getBestModel) qui pour une méthode de clustering donnée et un jeu de données renvoie le meilleur modèle. La fonction prend en paramètre le jeu de données X, le nom de la méthode methodName et une collection d'hyper-paramètres params. Cette collection a pour clé le nom de l'hyper-paramètre et pour valeur la liste des valeurs prises par l'hyper-paramètre. Dans cette fonction, toutes les combinaisons des valeurs des listes dans params seront évaluées et à chaque combinaison on obtiendra un modèle associée au jeu de données et à la méthode de clustering renseignés en paramètre. Chaque modèle est évalué par une métrique d'évaluation au choix (calinski ou davies). 

La collection params comporte les valeurs possibles des hyper-paramètres de la méthode clustering concernée ainsi que les valeurs possibles de typeOp et t. Vous avez le choix de fixer la liste de valeurs de typeOp et t. Vous pourriez commencer par évaluer [1,2,3,4] pour typeOp et [0.5, 0.7, 0.9] pour t. Les valeurs des hyper-paramètres dépendent de la méthode de clustering ciblée:

* Dbscan a plusieurs hyper-paramètres dont les plus influents sont eps, min_samples et metric. Notons que eps est un réel et ne peut dépasser la distance inter-points maximale qui existe dans X, et min_samples est un entier naturel non nul inférieur au nombre d'observations dans X. Metric a par défaut la valeur euclidean, d'autres valeurs sont possibles et consultables sur https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise_distances.html#sklearn.metrics.pairwise_distances. Vous avez le choix de fixer les listes de ces trois hyper-paramètres. On vous suggère de ne inclure des valeurs dépassant $\sqrt{|X|}$ pour min_samples et la moyenne des distances inter-points pour eps.
* Clustering agglomératif a pour hyper-paramètres les plus sensibles n_clusters, distance_threshold, affinity(équivalent de metric dans Dbscan) et linkage. A savoir que soit n_clusters ou distance_threshold est utilisé pour extraire les clusters finaux, il n'est pas nécessaire d'utiliser les deux. Vous pourriez limiter la valeur de n_clusters à $\frac{\sqrt{|X|}}{2}$ ou limiter la valeur de distance_threshold à la moyenne des distances inter-points.
* K-means a deux hyper-paramètres sensibles: n_clusters(nombre de clusters) et l'initialisation des centroides init{‘k-means++’, ‘random’}. 

#### Note:
Vous aurez à instancier plusieurs fois la collection datasets en fonction des valeurs prises par typeOp et t.



In [119]:
def getBestModel(dataSet, methodName, listParam):

    tableEval = []
    if methodName == "kmeans":
        for n_cluster, init in itertools.product(listParam[0], listParam[1]):
            if isinstance(init, np.ndarray) and init.shape[0] != n_cluster:
                continue
            kmeans = KMeans(n_clusters=n_cluster, init=init, n_init=1)
            labels = kmeans.fit(dataSet)
            scoreCalinski, scoreDavies = evaluateClustering(dataSet, labels.labels_)
            newArray = [scoreCalinski, "n_cluster : " + str(n_cluster), "init : " + str(init)]
            tableEval.append(newArray)

    elif methodName == "dbscan":
        for eps, min_samples, metric in itertools.product(listParam[0], listParam[1], listParam[2]):
            dbscan = DBSCAN(eps=eps, min_samples=min_samples, metric=metric)
            labels = dbscan.fit(dataSet)
            scoreCalinski, scoreDavies = evaluateClustering(dataSet, labels.labels_)
            newArray = [scoreCalinski, "eps : " + str(eps), "min_samples : " + str(min_samples), "metric : " + str(metric)]
            tableEval.append(newArray)
            
    elif methodName == "agglomeratif":
        for n_cluster, distance_threshold, affinity, linkage in itertools.product(listParam[0], listParam[1], listParam[2], listParam[3]):
            if distance_threshold != None:
                n_cluster = None
            if linkage == "ward":
                affinity = "euclidean"
            aggloCluster = AgglomerativeClustering(n_clusters=n_cluster, distance_threshold=distance_threshold, affinity=affinity, linkage=linkage)
            labels = aggloCluster.fit(dataSet)
            scoreCalinski, scoreDavies = evaluateClustering(dataSet, labels.labels_)
            newArray = [scoreCalinski, "n_cluster : " + str(n_cluster), "distance_trhreshold : " + str(distance_threshold), "affinity : " + str(affinity), "linkage : " + str(linkage)]
            tableEval.append(newArray)

    return methodName, tableEval

En utilisant la fonction getBestModel, identifiez le meilleur modèle associé à chaque jeu de données et méthode de clustering.

In [120]:
diabetes = datasets[0][1]
#Format : cluster / init 
paramDiabetes = [[1,2,3], ["k-means++", "random", np.array([[1, 2, 3, 4, 5, 6, 7], [2, 2, 3, 3, 4, 5, 6], [1, 2, 3, 4, 5, 6, 7]])]]



nameMethode, diabetesResult = getBestModel(diabetes, "kmeans", paramDiabetes)
print(nameMethode)
print(diabetesResult)
nameMethode, diabetesResult = getBestModel(diabetes, "kmeans", paramDiabetes)

japan = datasets[1][1]
#Format : eps, min_samples, metrics
paramJapan = [[0.5, 1.5, 3], [5, 10, 15], ["euclidean", "manhattan", "cityblock"]]

nameMethode, japanResult = getBestModel(japan, "dbscan", paramJapan)
print(nameMethode)
print(japanResult)


robotNavigation = datasets[2][1]
#Format : n_clusters, distance_threshold, affinity(équivalent de metric dans Dbscan) et linkage
paramRobot = [[2,3,4], [None, 2, 3], ["euclidean", "manhattan", "cosine"], ['ward', 'complete', 'average']]
nameMethode, robotResult = getBestModel(robotNavigation, "agglomeratif", paramRobot)
print(nameMethode)
print(robotResult)


kmeans
[['Error', 'n_cluster : 1', 'init : k-means++'], ['Error', 'n_cluster : 1', 'init : random'], [1000.553607261077, 'n_cluster : 2', 'init : k-means++'], [1000.553607261077, 'n_cluster : 2', 'init : random'], [1180.5761599435994, 'n_cluster : 3', 'init : k-means++'], [1180.9887947381244, 'n_cluster : 3', 'init : random'], [1180.4875035227085, 'n_cluster : 3', 'init : [[1 2 3 4 5 6 7]\n [2 2 3 3 4 5 6]\n [1 2 3 4 5 6 7]]']]


Par rapport à la partie 5, y a t-il eu des améliorations? Justifiez.

0




## <font color = "darkgreen">7- La classification supervisée</font>


Dans cette partie nous chercherons à résoudre les problèmes par la classification supervisée. Dans ce cas, on considère que les labels (y) sont à notre disposition. Nous nous intéressons à trois méthodes de cette catégorie:
* arbre de décision (https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)
* KNN : https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

Instancier la collection datasets dans les mêmes conditions que celles spécifiées dans la partie 5.

Sur chaque jeu de données de la collection datasets appliquez les deux méthodes de classification. A chaque application, évaluez le résultat (modèle) via les métriques d'évaluation suivantes:
* accuracy score (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score)
* balanced accuracy score (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html#sklearn.metrics.balanced_accuracy_score)

#### Notes.
* A l'appel des méthodes de classification, les valeurs des hyper-paramètres doivent restés fixés tel qu'elles sont par scikit-learn. 
* Avant d'appliquer les trois méthodes de classification sur le jeu de données, celui-ci doit être divisé en deux sous-ensembles: ensemble d'entraînement ($~80$% du jeu de données) et l'ensemble de test ($~20$%).

Quelle est la méthode ayant a fourni le meilleur modèle (c'est à dire le meilleur taux de prédiction) pour chaque jeu de données?

## <font color = "darkgreen">8- Peut-on encore améliorer les résultats de classification supervisée</font>


Dans la même perspective que dans la partie 6, nous chercherons ici à améliorer les résultats de la classification en faisant varier les valeurs des hyper-paramètres et les types de pré-traitement des données. 

Reprenez la méthode gestBestModel en faisant en copie de celle-ci et en la nommant getBestModelC. Cette dernière a la même fonction que gestBestModel sauf qu'elle est adaptée pour la classification supervisée: 
* la métrique d'évaluation doit correspondre à l'une des deux métriques de la partie 7. 
* Pour faire face aux problèmes de désiquilibre de répartition de classes de points dans les sous-ensembles d'entraînement et de test, on adoptera la technique d'échantillonage suivante. A partir de chaque jeu de données, on génére 5 sous-ensembles de données disjoints. A chaque itération, un sous-ensemble est utilisé pour le test et les autres pour la phase d'entraînement. Un sous-ensemble doit être utilisé une seule fois dans la phase de test. 

Les listes de valeurs de typeOp et t peuvent être fixées identiquement à celles de la partie 6. 



En utilisant la fonction getBestModelC, identifiez le meilleur modèle associé à chaque jeu de données et méthode de classification?

Par rapport à la partie 7, y a t-il eu des améliorations? Justifiez.