**CSI 4506 Introduction à l'intelligence artificielle** <br/>
*Devoir 2: apprentissage automatique*

# Identification

Nom: <br/>
Numéro d'étudiant :

Nom: <br/>
Numéro d'étudiant :

# 1. Analyse exploratoire

## Exploration des données

Dans ce devoir, nous utiliserons le jeu de données de prédiction du diabète, accessible via [Diabetes Prediction Dataset](https://www.kaggle.com/datasets/iammustafatz/diabetes-prediction-dataset/data). Pour réduire la complexité liée à l'exigence de connexion de Kaggle, le jeu de données a été mis à disposition sur un dépôt GitHub public :

- [github.com/turcotte/csi4106-f24/tree/main/assignments-data/a2](https://github.com/turcotte/csi4106-f24/tree/main/assignments-data/a2)

Vous pouvez accéder et lire le jeu de données directement depuis ce dépôt GitHub dans votre notebook Jupyter.

In [1]:
# Cellule de code
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

1. **Charger le jeu de données et fournir un résumé de sa structure** :

    - Décrivez les attributs (colonnes), leurs types de données et la variable cible.

In [None]:
# Cellule de code
url = "https://raw.githubusercontent.com/turcotte/csi4106-f24/refs/heads/main/assignments-data/a2/diabetes_prediction_dataset.csv"

df = pd.read_csv(url)
df.info()

In [None]:
df.describe()

In [None]:
df.head()

> | Column              |  Dtype   | -
> | ------              |  -----   | -----
> | gender              |  object  | 
> | age                 |  float64 | 
> | hypertension        |  int64   | 
> | heart_disease       |  int64   | 
> | smoking_history     |  object  | 
> | bmi                 |  float64 | 
> | HbA1c_level         |  float64 | 
> | blood_glucose_level |  int64   | 
> | diabetes            |  int64   | Variable Cible

2. **Analyse de la distribution des attributs** :

    - Examinez la distribution de chaque attribut à l'aide de visualisations appropriées telles que des histogrammes et des boxplots. Discutez des informations obtenues, y compris la présence de valeurs aberrantes.

In [5]:
# Cellule de code
# Votre code ici
def plot_all_attributes(df, plot_func):
    plt.subplots(3, 3, figsize=(20,15))
    for i, attribute in enumerate(df.columns):
        plt.subplot(3, 3, i+1)
        plot_func(df[attribute])
        plt.title(attribute)

In [None]:
plot_all_attributes(df, lambda x: sns.histplot(x, kde=True))

In [None]:
plot_all_attributes(df, sns.boxplot)

> ### Analysis of the distribution of attributes
>
> - gender, hypertension, heart_disease, smoking_history are categorical attributes
> - age, bmi, HbA1c_level, blood_glucose_level are numerical attributes
> - bmi is right skewed and has some high ouliers
> - age seems to have a uniform distribution


In [None]:
df.isnull().sum()

> ### There are no missing values

3. **Distribution de la variable cible** :

    - Analysez la distribution de la variable cible pour identifier les déséquilibres de classes. Utilisez des diagrammes en barres pour visualiser les fréquences des classes.

In [None]:
# Cellule de code
sns.histplot(df['diabetes'])

In [None]:
# plot distribution of each attribute with and without diabetes
attributes = ['gender', 'hypertension', 'heart_disease', 'smoking_history']

plt.subplots(2, 2, figsize=(15,12))
for i, attribute in enumerate(attributes):
    plt.subplot(2, 2, i+1)
    sns.countplot(x=attribute, hue='diabetes', data=df)

4. **Fractionnement des données** :

    - Divisez le jeu de données en ensembles d'entraînement (80 %) et de test (20 %) en utilisant la méthode du holdout.

    - Assurez-vous que ce fractionnement intervient avant tout prétraitement afin d'éviter les fuites de données.

In [11]:
# Cellule de code
from sklearn.model_selection import train_test_split
X = df.drop('diabetes', axis=1)
y = df['diabetes']
X_train, X_test, y_train_, y_test_ = train_test_split(X, y, test_size=0.2, random_state=42)

## Prétraitement des données

5. **Encodage des variables catégoriques** :

    - Encodez les variables catégoriques. Justifiez la méthode choisie.

In [12]:
# Cellule de code
categorical_attributes = ['gender', 'smoking_history'] # 'hypertension', 'heart_disease' are also categorical attributes but they are already in binary form and do not require encoding

X_train = pd.get_dummies(X_train, columns=categorical_attributes)
X_test = pd.get_dummies(X_test, columns=categorical_attributes)

In [None]:
X_train.head()

6. **Normalisation/Standardisation des attributs numériques** :

    - Normalisez ou standardisez les attributs numériques si nécessaire. Décrivez la technique utilisée (par exemple, le scaling Min-Max, StandardScaler) et expliquez pourquoi elle est appropriée pour ce jeu de données.

    - Assurez-vous que cette technique est appliquée uniquement aux données d'entraînement, avec la même transformation appliquée ensuite aux données de test sans nouvel ajustement.

In [14]:
# Cellule de code
from sklearn import preprocessing
numerical_attributes = ['age', 'bmi', 'HbA1c_level', 'blood_glucose_level']

standard = preprocessing.StandardScaler()
minMax = preprocessing.MinMaxScaler()
maxAbs = preprocessing.MaxAbsScaler()
power = preprocessing.PowerTransformer()
robust = preprocessing.RobustScaler()

# TODO: we choose this scaler because **************
scaler = preprocessing.StandardScaler()


In [15]:
X_train_ = scaler.fit_transform(X_train)
X_test_ = scaler.transform(X_test)

## Développement et évaluation des modèles

7. **Développement des modèles** :

    - Implémentez les modèles d'apprentissage automatique abordés en classe : arbres de décision, K-Nearest Neighbors (KNN) et régression logistique. Utilisez les paramètres par défaut de scikit-learn comme base pour entraîner chaque modèle.

In [None]:
# Cellule de code

from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

dt_model = DecisionTreeClassifier()
knn_model = KNeighborsClassifier()
lr_model = LogisticRegression()

dt_model.fit(X_train_, y_train_)
knn_model.fit(X_train_, y_train_)
lr_model.fit(X_train_, y_train_)

8. **Évaluation des modèles** :

    - Utilisez la validation croisée pour évaluer chaque modèle, en justifiant votre choix du nombre de plis.

    - Évaluez les modèles à l'aide de métriques telles que la précision, le rappel et le score F1.

> Since we have a large dataset, we could use k=10 as it would give us low bias and modest variance ([A Gentle Introduction to k-fold Cross-Validation - MachineLearningMastery.com](https://machinelearningmastery.com/k-fold-cross-validation/))  
> However, due to computational restrictions, we choose k=5 (which is the default) as it would give us satisfacotry results.

In [None]:
# Cellule de code
from sklearn.model_selection import cross_val_score

metrics = ("precision", "recall", "accuracy", "f1")

for model in [dt_model, knn_model, lr_model]:
    print(f"Model: {type(model).__name__}")
    for metric in metrics:
        scores = cross_val_score(model, X_train_, y_train_, scoring=metric, cv=5) 
        print(f"{metric}: {scores}")
        print(f"Mean score: {scores.mean():.3f}")
        print(f"StandardDeviation: {scores.std():.3f}")
    print()


## Optimisation des hyperparamètres

9. **Exploration et évaluation des performances :**

    - Étudiez l'impact de la variation des valeurs des hyperparamètres sur les performances de chaque modèle.

    - Concentrez-vous sur les hyperparamètres pertinents suivants pour chaque modèle :

        - [DecisionTreeClassifier](https://scikit-learn.org/dev/modules/generated/sklearn.tree.DecisionTreeClassifier.html) : `criterion` et `max_depth`.
  
        - [LogisticRegression](https://scikit-learn.org/1.5/modules/generated/sklearn.linear_model.LogisticRegression.html) : `penalty`, `max_iter`, et `tol`.
  
        - [KNeighborsClassifier](https://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) : `n_neighbors` et `weights`.

    - Employez une stratégie de recherche en grille ou utilisez les méthodes intégrées de scikit-learn pour évaluer exhaustivement toutes les combinaisons des valeurs d'hyperparamètres. La validation croisée doit être utilisée pour évaluer chaque combinaison.

    - Quantifiez les performances de chaque configuration d'hyperparamètres en utilisant des métriques telles que la précision, le rappel et le score F1.

    - Affichez les résultats dans un format tabulaire ou graphique (par exemple, graphiques en ligne, diagrammes en barres) pour démontrer efficacement l'influence des variations des hyperparamètres sur les performances du modèle.

    - Spécifiez les valeurs par défaut de chaque hyperparamètre testé.

    - Analysez les résultats et offrez des perspectives sur les configurations d'hyperparamètres ayant obtenu les meilleures performances pour chaque modèle.

In [18]:
# Cellule de code
from sklearn.model_selection import GridSearchCV

def grid_search(model, param_grid, X_train_, y_train_, X_test_, y_test_):
    grid = GridSearchCV(model, param_grid, cv=5)
    grid.fit(X_train_, y_train_)
    print(f"Best hyperparameters: {grid.best_params_}")
    print(f"Best score: {grid.best_score_}")
        
    results = grid.cv_results_
    print(f"Results: {results}")

In [19]:
param_grid_dt = [
    {'max_depth': range(1, 10), # default = None
   'criterion': ["gini", "entropy", "log_loss"] }, # default = gini
]
param_grid_kn = [
  {'n_neighbors': range(1, 6),  # default = 5
   'weights': ["uniform", "distance"]} # default = uniform
]
param_grid_lr = [
  {'penalty': ["l1", "l2", "elasticnet", "none"], # default = l2
   'max_iter' : [100, 200, 400, 800, 1600], # default = 100
   'tol' : [0.01, 0.001, 0.0001]} # default = 1e-4
]

In [None]:
dt_model2 = DecisionTreeClassifier()

grid_search(dt_model2, param_grid_dt, X_train_, y_train_, X_test_, y_test_)

In [None]:
knn_model2 = KNeighborsClassifier()

grid_search(knn_model2, param_grid_kn, X_train_, y_train_, X_test_, y_test_)

In [None]:
lr_model2 = LogisticRegression()

grid_search(lr_model2, param_grid_lr, X_train_, y_train_, X_test_, y_test_)

## Analyse des résultats

10. **Comparaison des modèles** :

    - Comparez les résultats obtenus pour chaque modèle.

    - Discutez des différences observées dans les performances des modèles et fournissez des explications potentielles. Considérez des aspects tels que la complexité des modèles, le déséquilibre des données, le surapprentissage et l'impact du réglage des paramètres sur les résultats globaux.

    - Fournissez des recommandations sur le(s) modèle(s) à choisir pour cette tâche et justifiez vos choix en fonction des résultats de l'analyse.

    - Entraînez le(s) modèle(s) recommandé(s) en utilisant les valeurs optimales des paramètres identifiés lors de l'optimisation des paramètres. Appliquez ensuite le modèle entraîné aux données de test. Documentez vos observations de manière détaillée. Évaluez spécifiquement si les résultats dérivés de la validation croisée sont cohérents avec ceux obtenus sur le jeu de test.

In [21]:
# Cellule de code

# 2. Documentation de l'analyse exploratoire

Le rapport doit documenter de manière complète le processus suivi pendant ce devoir. Le notebook Jupyter doit inclure les éléments suivants :

- Votre nom(s), numéro(s) d'étudiant.e.s et un titre de rapport.
- Expliquez comment les tâches ont été réparties entre les membres. Comment avez-vous fait en sorte que les deux personnes atteignent les objectifs d'apprentissage ?
- Une section pour chaque étape de l'analyse exploratoire, contenant le code Python pertinent et les explications ou résultats.
  - Pour les sections nécessitant du code Python, incluez le code dans une cellule.
  - Pour les sections nécessitant des explications ou des résultats, incluez-les dans une cellule distincte ou en combinaison avec les cellules de code.
- Assurez une séparation logique du code dans différentes cellules. Par exemple, la définition d'une fonction doit se trouver dans une cellule et son exécution dans une autre. Évitez de placer trop de code dans une seule cellule pour maintenir la clarté et la lisibilité.
- Le notebook que vous soumettez doit inclure les résultats de l'exécution, y compris les graphiques, en veillant à ce que l'assistant d'enseignement puisse évaluer le notebook sans avoir à exécuter le code.

# Ressources

- [Guide to Scaling and Standardizing](https://www.kaggle.com/code/discdiver/guide-to-scaling-and-standardizing/notebook)
- [Compare the effect of different scalers on data with outliers — scikit-learn 1.5.2 documentation](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html)
- [One Hot Encoding in Machine Learning - GeeksforGeeks](https://www.geeksforgeeks.org/ml-one-hot-encoding/)
- [A Gentle Introduction to k-fold Cross-Validation - MachineLearningMastery.com](https://machinelearningmastery.com/k-fold-cross-validation/)