# K-plus proches voisins (K-NN)

<img src="./figures/knn.jpg" width="700px"/>

## Diabetes Prediction

Le but de ce projet est de **prédire la présence de diabète chez une personne** (variable `Outcome`) en fonction de divers paramètres tels que la pression sanguine, le body-mass index (BMI), etc.

Pour plus de précision sur les data, voir le lien suivant:<br>
https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

## Exercice


### Load Data
1. Loadez et examinez les data.<br>
   ```
   df = pd.read_csv('./data/diabetes.csv')
   ```


### Data Analysis
2. Spittez les data en un **train set** et un **test set** selon les proportions 80% / 20%.<br>
   ```
   X_train, X_test, y_train, y_test = train_test_split(...)
   ```
   Vérifiez s'il existe des data dupliquées ou manquantes:<br>
   ```
   df.duplicated().sum()
   df.isna().values.sum()
   ```


3. Visualisez la répartition des valeurs de la variable `Outcome` à prédire:<br> 
   ```
   ...
   sns.countplot(x=y_train, order=y_train.value_counts().index)
   plt.xticks(rotation = 15)
   ...
   ```

### Model and Results
4. Instanciez et entraînez un **K-nearest neighbors** `KNeighborsClassifier` sur vos data:<br>
   https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html<br>
    Le processus s'effectue en 3 étapes:
    1. Instanciation du modèle
    2. Entraînement du modèle sur le train set (méthode `fit(...)`)
    3. Prédictions sur le test set


5. Calculez ensuite le **rapport de classification** de votre modèle sur le test set:<br>
    Que représentent la **precision**, le **recall**, l'**accuracy** et le **F1-score**?<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html<br>    


### Hyperparameter Tuning
7. Utilisez la technique de **grid search** avec **cross validation** pour optimiser les hyperparamètres de votre K-NN.<br>
   https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV
    - Faites varier les nombre de voisins possibles de votre modèle parmi valeurs suivantes:<br>
    ```
    hyperparameters = {"n_neighbors" : range(1, 51, 2)}
    ```
    - Recalculez les prédictions sur le test set avec le meilleur modèle obtenu. Les résultats sont-il meilleurs?
    
    
### Logistic Regression
8. Fittez une **régression logistique** sur vos data:<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html


9. Réutilisez la technique de **grid search** avec **cross validation** pour optimiser l'hyperparamètre `C` de votre régression logistique. Vous pouvez faire varier `C` entre $10^{-3}$ et $10^3$ selon une échelle logarithmique en utilisant:
   ```
   hyperparameters = {"C" : np.logspace(-3, 3, num=10)}
   ```

## Libraries

In [78]:
#!pip install pandas
#!pip install scikit-learn

In [79]:
import pandas as pd
import numpy as np

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression

import seaborn as sns
import matplotlib.pyplot as plt

## Load Data

In [80]:
df = pd.read_csv('./data/diabetes.csv')

In [81]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## Data Analysis

In [82]:
X = df.drop(columns=["Outcome"])
y = df["Outcome"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

In [83]:
print(X_train, X_test, y_train, y_test)

     Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
60             2       84              0              0        0   0.0   
618            9      112             82             24        0  28.2   
346            1      139             46             19       83  28.7   
294            0      161             50              0        0  21.9   
231            6      134             80             37      370  46.2   
..           ...      ...            ...            ...      ...   ...   
71             5      139             64             35      140  28.6   
106            1       96            122              0        0  22.4   
270           10      101             86             37        0  45.6   
435            0      141              0              0        0  42.4   
102            0      125             96              0        0  22.5   

     DiabetesPedigreeFunction  Age  
60                      0.304   21  
618                     1.282   50  


## Model and Results

In [84]:
knn = KNeighborsClassifier(n_neighbors=8)

In [85]:
knn.fit(X_train, y_train)

In [86]:
y_test_pred = knn.predict(X_test)
# y_train_pred = knn.predict(X_train)

y_test_pred

array([0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1,
       0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1,
       0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0])

In [87]:
y_test.values

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1,
       0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0])

In [88]:
print(classification_report(y_test, y_test_pred))

# Toujours se comparer à l'aléatoire
random = [np.random.choice([0, 1], p=[2/3, 1/3]) for p in range(0, 154)]
print(classification_report(y_test, random))

              precision    recall  f1-score   support

           0       0.79      0.82      0.81        99
           1       0.65      0.62      0.64        55

    accuracy                           0.75       154
   macro avg       0.72      0.72      0.72       154
weighted avg       0.74      0.75      0.75       154

              precision    recall  f1-score   support

           0       0.62      0.64      0.63        99
           1       0.31      0.29      0.30        55

    accuracy                           0.51       154
   macro avg       0.46      0.46      0.46       154
weighted avg       0.51      0.51      0.51       154



## Hyperparameter Tuning

In [89]:
hyperparameter = {"n_neighbors": range(1, 20, 2)} # 2 -> toujours impaire pour éviter les égalités

In [90]:
gscv = GridSearchCV(KNeighborsClassifier(), hyperparameter)

In [91]:
gscv.fit(X_train, y_train)

In [92]:
gscv.best_params_

{'n_neighbors': 11}

In [93]:
y_pred = gscv.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.79      0.80      0.79        99
           1       0.63      0.62      0.62        55

    accuracy                           0.73       154
   macro avg       0.71      0.71      0.71       154
weighted avg       0.73      0.73      0.73       154



## Logistic Regression

In [110]:
lr = LogisticRegression(max_iter=10000)

In [95]:
lr.fit(X_train, y_train)

In [96]:
y_pred = lr.predict(X_test)

print(classification_report(y_test, y_pred, output_dict=True)["macro avg"]["f1-score"])

0.727433628318584


In [113]:
hyperparameters = {"C" : np.logspace(-3, 3, num=10)}
gscv = GridSearchCV(lr, hyperparameters, scoring="f1_macro")
gscv.fit(X_train, y_train)

In [114]:
gscv.best_score_

0.7315969835707425