# Maladie Cardiaque : Exercie noté

## Importation des librairies

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV

## Chargement des données

In [None]:
Heart_Dataset = pd.read_csv("heart.dat", sep="\s+", names=["age", "sex", "chest_pain", "blood_pressure", "serum_cholestoral", "fasting_blood_sugar", "electrocardiographic", "max_heart_rate", "induced_angina", "oldpeak", "slope", "major vessels", "thal", "Label"])

In [None]:
Heart_Dataset.head()

## Analyse statistique descriptive

### Profilage des donnees

In [None]:
Heart_Dataset.info()

- On peut s'apercevoir que le jeu de donnees ne presente pas de valeurs nulles.

In [None]:
Heart_Dataset.describe()

- Pour les colonnes age, blood_pressure, serum_cholestoral et max_heart_rate on note une dispersion assez elevee des donnees par rapport à la moyenne.
- Par rapport aux quartiles, la repartition des donnees est assez differentes selon les colonnes. En effet, pour les colonnes age, blood_pressure, serum_cholestoral, on note plus une repartition assez homogene des donnees sur q1, q2 et q3 avec une des proportions croissantes en passant de q1, q2 et q3. Pour d'autres colonnes comme max_heart_rate, la tendance de la repartition est differentes des colonnes citées ci-dessus.
- S'agissant de la moyenne, Il est notable de remarquer l'heterogeneité des echelles. En effet, la moyenne des colonnes du dataset sont tres differentes : Ceci peut etre problematique durant la phase d'apprentissage ; ainsi, un travail de normalisation sera fait pour contourner ce probleme

### Correlation des donnees

In [None]:
Heart_Dataset.corr()

- Les colonnes ont des correlations souvent tres faibles entre elles. Ceci teimoigne d'une absence de redondance d'informations tres probable sur l'ensemble de donnees. 

### Data visualisation

#### Analyse univariée

In [None]:
print(Heart_Dataset.Label.value_counts())
sns.countplot(y="Label", hue="Label", data=Heart_Dataset)

- On constate que l'absence maladie est plus importante que la presence de donnees dans l'ensemble de donnees

In [None]:
print(Heart_Dataset.sex.value_counts())
sns.countplot(y="sex", hue="sex", data=Heart_Dataset)

- Ce graphe montre que la proportion de sex maculin est plus important que celle de sex feminin

In [None]:
print(Heart_Dataset.chest_pain.value_counts())
sns.countplot(x="chest_pain", hue="chest_pain", data=Heart_Dataset)

- Les douleurs thoraciques de niveau 4 sont tres representees dans l'ensemble de donnees. Elles sont suvie par le niveau 3, ensuite par le niveau 2 et 1 en suivant la meme ordre.

In [None]:
print(Heart_Dataset.electrocardiographic.value_counts())
sns.countplot(y="electrocardiographic", hue="electrocardiographic", data=Heart_Dataset)

In [None]:
print(Heart_Dataset.thal.value_counts())
sns.countplot(y="thal", hue="thal", data=Heart_Dataset)

In [None]:
sns.distplot(Heart_Dataset.age, rug=True, hist=True)

- La plus part des patient ont un age compris entre 40 - 70 annees. Les personnes qui pourraient etre atteintes par la maladie seraient tres probablement d'une age avancé

In [None]:
sns.distplot(Heart_Dataset.max_heart_rate, rug=True, hist=True)

In [None]:
sns.distplot(Heart_Dataset.blood_pressure, rug=True, hist=True)

In [None]:
sns.distplot(Heart_Dataset.serum_cholestoral, rug=True, hist=True)

#### Analyse bivariée

In [None]:
sns.boxplot(x='Label',y='age', data=Heart_Dataset)

In [None]:
plt.figure(figsize=(25,5))
plt.subplot(1,4,1)
sns.boxplot(x='Label',y='oldpeak', data=Heart_Dataset)
plt.subplot(1,4,2)
sns.boxplot(x='Label',y='max_heart_rate', data=Heart_Dataset)
plt.subplot(1,4,3)
sns.boxplot(x='Label',y='serum_cholestoral', data=Heart_Dataset)
plt.subplot(1,4,4)
sns.boxplot(x='Label',y='blood_pressure', data=Heart_Dataset);

- On voit que la plus des variables presente des valeurs aberrentes. 

In [None]:
# Répartition graphique des exemples en fonction de toutes les combinaisons de variables 2 à 2
sns.pairplot(Heart_Dataset, hue='Label', corner = True, palette = ['orange', 'blue'], height=4)

## Apprentissage du modele predictif

### Entrainement du modèle de prediction

#### Strategie 1 : ensemble d’apprentissage, de validation et de test 

In [None]:
X = Heart_Dataset.drop('Label', axis=1)
Y = Heart_Dataset['Label']

In [None]:
# Division des donnees en sous ensemble d'entrainement, de validation et de test

In [None]:
X_av, X_t, Y_av, Y_t = train_test_split(X, Y, test_size=0.2)

In [None]:
X_a, X_v, Y_a, Y_v = train_test_split(X, Y, test_size=0.2)

In [None]:
# Normalisation des donnees

In [None]:
scaler = StandardScaler()
X_a_scalled = scaler.fit(X_a)
X_a_scalled = scaler.transform(X_a)

In [None]:
X_v_scalled = scaler.transform(X_v)

In [None]:
p_k = [1, 5, 10, 15, 20, 25]

eval_err = {
    "apprentissage": [],
    "validation": []
}

models = {}

In [None]:
for k in p_k:
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(X_a, Y_a)
    eval_err["apprentissage"].append(1 - model.score(X_a, Y_a))
    
    Y_v_pred = model.predict(X_v)
    eval_err["validation"].append(1 - accuracy_score(Y_v, Y_v_pred))
    models[k]=model

In [None]:
eval_err

In [None]:
plt.figure()
plt.plot(p_k, eval_err["apprentissage"])
plt.plot(p_k, eval_err["validation"])

In [None]:
# D'apres le graphe, nous pouvons constater que l'erreur de validation est plus petite pour la valeur de k=15.
# Ainsi, pour cette valeur, le modele de prediction generalise mieux sur l'ensemble de validation.
# De ce fait, nous avons comme modele optimal, le modele avec comme hyperparamettre k=15. 

In [None]:
best_model = models[15]

In [None]:
# Normalisation des X_t

In [None]:
X_t_scalled = scaler.transform(X_t)

In [None]:
Y_t_pred = best_model.predict(X_t_scalled)

In [None]:
accuracy_score(Y_t, Y_t_pred)

In [None]:
print(classification_report(Y_t, Y_t_pred))

In [None]:
## Ce modele presente des resultats pas satisfaisants. En effet, nous pouvons noter une precision nulle
## sur la classe 1 (presence de maladie). De plus, cette metrique n'est pas tres elevee pour la classe 2
## (absence de maladie). Ceci peut etre expliquer par le fait que le modele ne generalise pas bien les donnees
## test et par consequent il fait bcp d'erreurs dans ses predictions.
## Pour resoudre ce probleme, nous allons experimenter une nouvelle strategie d'apprentissage du modele predictif.

#### Strategie 2 : validation-croisée pour la sélection de k

In [None]:
param_grid = {'n_neighbors': p_k,
             'metric' : ['euclidean', 'manhattan']}

In [None]:
clf = GridSearchCV(
    KNeighborsClassifier(), # un classifieur k_NN
    param_grid,     # hyperparamètres à tester
    cv=5,           # nombre de folds de validation croisée
    scoring='accuracy'   # score à optimiser
)

In [None]:
clf.fit(X_a_scalled, Y_a)

In [None]:
clf.best_params_

In [None]:
for mean, std, params in zip(
        clf.cv_results_['mean_test_score'], # score moyen
        clf.cv_results_['std_test_score'],  # écart-type du score
        clf.cv_results_['params']           # valeur de l'hyperparamètre
    ):
    print("{} = {:.3f} (+/-{:.03f}) for {}".format(
        'accuracy',
        mean,
        std*2,
        params
    ) )

In [None]:
new_best_model = clf.best_estimator_

In [None]:
New_Y_t_pred = new_best_model.predict(X_t_scalled)

In [None]:
print(classification_report(Y_t, New_Y_t_pred))

In [None]:
## Cette nouvelle strategie presente des resultats bien meilleurs que la precedente. En effet, les performances
## du modele sur le jeu de donnees test donne des resultats plus satisfaisants sur la precision, le rappel et
## f1-score. Ce qui teimoigne d'une capacite de generalisation que le modele a.

#### Prise en compte de la matrice de cout

In [None]:
from sklearn.metrics import plot_confusion_matrix
from sklearn.metrics import confusion_matrix

In [None]:
plot_confusion_matrix(best_model, X_t_scalled, Y_t)

In [None]:
conf_matrix = confusion_matrix(Y_t, New_Y_t_pred)

In [None]:
conf_matrix

In [None]:
new_matrix_conf = [[conf_matrix[0][0], conf_matrix[0][1]],[5*conf_matrix[1][0], conf_matrix[1][1]]]

In [None]:
new_matrix_conf

In [None]:
precision = ((new_matrix_conf[0][0])/(new_matrix_conf[0][0]+new_matrix_conf[1][1]))

In [None]:
precision

In [None]:
recall = ((new_matrix_conf[0][0])/(new_matrix_conf[0][0]+new_matrix_conf[1][0]))

In [None]:
recall

In [None]:
taux_erreur_classique = ((new_matrix_conf[0][1]+new_matrix_conf[1][0])/(new_matrix_conf[0][0]+new_matrix_conf[0][1]+new_matrix_conf[1][0]+new_matrix_conf[1][1]))

In [None]:
taux_erreur_classique

In [None]:
## En tenant compte de la remarque faite sur la matrice de cout, nous pouvons constaté que les mesures
## faites dans la strategie 2 s'averent fausses. En effet, les nouvelles mesures faite en calculant la nouvelle
## de confusion, montre que les resultats de la strategie 2 ne sont pas en realite fameux.