# Maladie Cardiaque 

# Importation des bliotheques de bases

In [1]:
import pandas as pd
import numpy as np
import missingno as mno
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn import metrics

# Chargement des données

In [2]:
Heart_Dataset = pd.read_csv("heart.dat", sep="\s+", names=["age", "sex", "chest_pain", "blood_pressure", "serum_cholestoral", "fasting_blood_sugar", "electrocardiographic", "max_heart_rate", "induced_angina", "oldpeak", "slope", "major vessels", "thal", "Label"])

In [None]:
Heart_Dataset.head()

ici nous presentons notre jeu de données

# Analyse statistique descriptive

### Profilage des donnees

In [None]:
Heart_Dataset.info()

In [None]:
Heart_Dataset.isnull().sum()

In [None]:
mno.matrix(Heart_Dataset)

Nous constatons ici d'apres les trois approches utilisées que le jeu de donnees ne presente pas de valeurs nulles.

In [4]:
Heart_Dataset.describe()

Unnamed: 0,age,sex,chest_pain,blood_pressure,serum_cholestoral,fasting_blood_sugar,electrocardiographic,max_heart_rate,induced_angina,oldpeak,slope,major vessels,thal,Label
count,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0,270.0
mean,54.433333,0.677778,3.174074,131.344444,249.659259,0.148148,1.022222,149.677778,0.32963,1.05,1.585185,0.67037,4.696296,1.444444
std,9.109067,0.468195,0.95009,17.861608,51.686237,0.355906,0.997891,23.165717,0.470952,1.14521,0.61439,0.943896,1.940659,0.497827
min,29.0,0.0,1.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,1.0,0.0,3.0,1.0
25%,48.0,0.0,3.0,120.0,213.0,0.0,0.0,133.0,0.0,0.0,1.0,0.0,3.0,1.0
50%,55.0,1.0,3.0,130.0,245.0,0.0,2.0,153.5,0.0,0.8,2.0,0.0,3.0,1.0
75%,61.0,1.0,4.0,140.0,280.0,0.0,2.0,166.0,1.0,1.6,2.0,1.0,7.0,2.0
max,77.0,1.0,4.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,3.0,3.0,7.0,2.0


#### Commentaire

Pour les colonnes age, blood_pressure, serum_cholestoral et max_heart_rate on note une dispersion assez elevee des donnees par rapport à la moyenne.
Par rapport aux quartiles, la repartition des donnees est assez differentes selon les colonnes. En effet, pour les colonnes age, blood_pressure, serum_cholestoral, on note plus une repartition assez homogene des donnees sur q1, q2 et q3 avec une des proportions croissantes en passant de q1, q2 et q3. Pour d'autres colonnes comme max_heart_rate, la tendance de la repartition est differentes des colonnes citées ci-dessus.
S'agissant de la moyenne, Il est notable de remarquer l'heterogeneité des echelles. En effet, la moyenne des colonnes du dataset sont tres differentes : Ceci peut etre problematique durant la phase d'apprentissage ; ainsi, un travail de normalisation sera fait pour contourner ce probleme

# Correlation des donnees

In [None]:
Heart_Dataset.corr()

In [3]:
corr = Heart_Dataset.corr()
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,age,sex,chest_pain,blood_pressure,serum_cholestoral,fasting_blood_sugar,electrocardiographic,max_heart_rate,induced_angina,oldpeak,slope,major vessels,thal,Label
age,1.0,-0.094401,0.09692,0.273053,0.220056,0.123458,0.128171,-0.402215,0.098297,0.194234,0.159774,0.356081,0.1061,0.212322
sex,-0.094401,1.0,0.034636,-0.062693,-0.201647,0.04214,0.039253,-0.076101,0.180022,0.097412,0.050545,0.08683,0.391046,0.297721
chest_pain,0.09692,0.034636,1.0,-0.043196,0.090465,-0.098537,0.074325,-0.317682,0.35316,0.167244,0.1369,0.22589,0.262659,0.417436
blood_pressure,0.273053,-0.062693,-0.043196,1.0,0.173019,0.155681,0.116157,-0.039136,0.082793,0.2228,0.142472,0.085697,0.132045,0.155383
serum_cholestoral,0.220056,-0.201647,0.090465,0.173019,1.0,0.025186,0.167652,-0.018739,0.078243,0.027709,-0.005755,0.126541,0.028836,0.118021
fasting_blood_sugar,0.123458,0.04214,-0.098537,0.155681,0.025186,1.0,0.053499,0.022494,-0.004107,-0.025538,0.044076,0.123774,0.049237,-0.016319
electrocardiographic,0.128171,0.039253,0.074325,0.116157,0.167652,0.053499,1.0,-0.074628,0.095098,0.120034,0.160614,0.114368,0.007337,0.182091
max_heart_rate,-0.402215,-0.076101,-0.317682,-0.039136,-0.018739,0.022494,-0.074628,1.0,-0.380719,-0.349045,-0.386847,-0.265333,-0.253397,-0.418514
induced_angina,0.098297,0.180022,0.35316,0.082793,0.078243,-0.004107,0.095098,-0.380719,1.0,0.274672,0.255908,0.153347,0.321449,0.419303
oldpeak,0.194234,0.097412,0.167244,0.2228,0.027709,-0.025538,0.120034,-0.349045,0.274672,1.0,0.609712,0.255005,0.324333,0.417967


Les colonnes ont des correlations souvent tres faibles entre elles. Ceci teimoigne d'une absence de redondance d'informations tres probable sur l'ensemble de donnees.

# Data visualisation

Analyse univariée

In [None]:
print(Heart_Dataset.Label.value_counts())
sns.countplot(y="Label", hue="Label", data=Heart_Dataset)

On constate que l'absence de maladie est sensiblement plus importante que sa presence dans notre jeu de donnees, Cependant, nous ne somme pas dans une disproportion car les valeurs sont plus ou moins proches 

In [None]:
print(Heart_Dataset.sex.value_counts())
sns.countplot(y="sex", hue="sex", data=Heart_Dataset)

Ce graphe montre que la proportion de sexe maculin est plus important que celle de sexe feminin.Alors là par contre on constate une difference importante entre les deux proportions

In [None]:
print(Heart_Dataset.chest_pain.value_counts())
sns.countplot(x="chest_pain", hue="chest_pain", data=Heart_Dataset)

Les douleurs thoraciques de niveau 4 sont tres representees dans l'ensemble de donnees. Elles sont suvie par le niveau 3, ensuite par le niveau 2 et 1 en suivant la meme ordre.

In [None]:
print(Heart_Dataset.electrocardiographic.value_counts())
sns.countplot(y="electrocardiographic", hue="electrocardiographic", data=Heart_Dataset)

ici nous constatons que les individus présentants des riques cardiaques ont un electrocardiogramme trés faibles (ce qui est normal)

In [None]:
print(Heart_Dataset.thal.value_counts())
sns.countplot(y="thal", hue="thal", data=Heart_Dataset)

Dans cette reprsentation graphique, on constate la proportion d'individus présentant des douleurs thoraxique est plus importante chez les personnes présentantes des risques cardiaques

In [None]:
sns.distplot(Heart_Dataset.age, rug=True, hist=True)

La plus part des patient ont un age compris entre 40 - 70 annees. Les personnes qui pourraient etre atteintes par la maladie seraient tres probablement d'une age avancé

In [None]:
sns.distplot(Heart_Dataset.max_heart_rate, rug=True, hist=True)

la frequence cardiaque normale devrant envoisiner 60 à 80 pulsations par minute chez les personnes saines, on constate ici que les frequences cardiaques peuvent atteindre jusqu'a 170 pulsations de densité chez les personnes malades 

In [None]:
sns.distplot(Heart_Dataset.blood_pressure, rug=True, hist=True)

la pression arterielle pourrait etre tres élevée chez les personnes malades

In [None]:
sns.distplot(Heart_Dataset.serum_cholestoral, rug=True, hist=True)

Analyse bivariée detaillé dans le rapport

In [None]:
sns.boxplot(x='Label',y='age', data=Heart_Dataset)

In [None]:
plt.figure(figsize=(25,5))
plt.subplot(1,4,1)
sns.boxplot(x='Label',y='oldpeak', data=Heart_Dataset)
plt.subplot(1,4,2)
sns.boxplot(x='Label',y='max_heart_rate', data=Heart_Dataset)
plt.subplot(1,4,3)
sns.boxplot(x='Label',y='serum_cholestoral', data=Heart_Dataset)
plt.subplot(1,4,4)
sns.boxplot(x='Label',y='blood_pressure', data=Heart_Dataset);

On voit que la plus des variables presente des valeurs aberrentes.

In [None]:
# Répartition graphique des exemples en fonction de toutes les combinaisons de variables 2 à 2
sns.pairplot(Heart_Dataset, hue='Label', corner = True, palette = ['orange', 'blue'], height=4)

ici nous avons globalement une distribution gaussienne sur l'ensemble des variables. On voit qu'il y'a des variables qui nous permettent d'observer deux modes sur les labels et d'autres variables qui observents trois modes 

# Apprentissage du modele predictif

### Entrainement du modèle de prediction

## Strategie 1: Procédure d'estimation du SVM sur un noyau lineaire

In [None]:
#decoupage de mon jeu de données en deux parties
X = Heart_Dataset.drop(['Label'], axis=1)
y = Heart_Dataset['Label']

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

In [None]:
#normalisation de mon jeu de données
from sklearn import preprocessing
scandler = preprocessing.StandardScaler().fit(X_train)
X_train_Std = scandler.transform(X_train)
X_test_std = scandler.transform(X_test)

In [None]:
### Procédure d'estimation d'un SVM linéaire pour différentes valeurs de C
### -> GridSearchCV

parameters = {'kernel': ['linear'], 'C': np.logspace(-1, 1, 3)}
score = 'accuracy' #'recall'

print("# Réglage des hyper-paramètres en fonction de %s" % score)
clf = GridSearchCV(SVC(), parameters, scoring=score)
clf.fit(X_train_Std, y_train)

print("Résultats de validation sur l'ensemble des paramètres:")
print(clf, clf.cv_results_)        
print("Meilleurs paramètres:")
print(clf.best_params_)

In [None]:
### Résultats de test pour les meilleurs paramètres

print("Rapport de classification sur l'ensemble de test:")
y_true, y_pred = y_test, clf.predict(X_test)
print(classification_report(y_true, y_pred))

Ici, nous avons une trés mauvaise precision de notre modele cela prouve qu'il est totalement impossible d'utiliser un noyau linaire pour classer nos données

## Strategie 2: Procédure d'estimation du SVM sur un noyau gaussienne

In [None]:
# choisir 6 valeurs pour C, entre 1e-2 et 1e3
C_range = np.logspace(-2, 3, 6)

# choisir 4 valeurs pour gamma, entre 1e-2 et 10
gamma_range = np.logspace(-2, 1, 4)

# grille de paramètres
param_grid = {'C': C_range, 'gamma': gamma_range}

# critère de sélection du meilleur modèle
score = 'accuracy'

# initialiser une recherche sur grille
grid = model_selection.GridSearchCV(svm.SVC(kernel='rbf', class_weight={1:35 , 2:1}), 
                                    param_grid, 
                                    cv=5, # 5 folds de validation croisée  
                                    scoring=score,
                                    refit = True, 
                                    verbose = 3)

# faire tourner la recherche sur grille
grid.fit(X_train_Std, y_train)

# afficher les paramètres optimaux
print("The optimal parameters are {} with a score of {:.2f}".format(grid.best_params_, grid.best_score_))

In [None]:
# prédire sur le jeu de test avec le modèle optimisé
print("Rapport de classification sur l'ensemble de test:")
y_true, y_pred = y_test, clf.predict(X_test_std)
print(classification_report(y_true, y_pred))

ici gràce à la distribution gaussienne dans la globalité de nos variables, nous constatons des performances de modele 
Cette nouvelle strategie presente ainsi des resultats bien meilleurs que la precedente. En effet, les performances
 du modele sur le jeu de donnees test donne des resultats plus satisfaisants sur la precision, le rappel et
 f1-score. Ce qui teimoigne d'une capacite de generalisation que le modele a.