# Heart Failure Prediction Dataset

**Objectif** : Identifier une possible défaillance cardiaque en fonction des rensignements du patient 

## Packages necessaire: 

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as mpl
import plotly.express as px
import matplotlib.pyplot as plt
import pydotplus
%matplotlib inline
sns.set_style("darkgrid")

from six import StringIO
from IPython.display import Image  
from sklearn.impute import SimpleImputer
from sklearn.datasets import make_classification, load_iris
from sklearn.pipeline import make_pipeline
from sklearn.compose import make_column_transformer,make_column_selector
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder,RobustScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.tree import export_graphviz, DecisionTreeClassifier
from sklearn.feature_selection import RFE, RFECV, chi2, SelectKBest, mutual_info_classif
import warnings
warnings.filterwarnings('ignore')

#### **_A propros de la base de données :_**

In [None]:
# Definition de toutes les variables
df={"Age": "age of the patient [years]",

"Sex": "sex of the patient [M: Male, F: Female]",

"ChestPainType": "chest pain type [TA: Typical Angina, ATA: Atypical Angina, NAP: Non-Anginal Pain, ASY: Asymptomatic]",

"RestingBP": "resting blood pressure [mm Hg]",

"Cholesterol": "serum cholesterol [mm/dl]",

"FastingBS": "fasting blood sugar [1: if FastingBS > 120 mg/dl, 0: otherwise]",

"RestingECG": ["resting electrocardiogram results [Normal: Normal, ST: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV)", "LVH: showing probable or definite left ventricular hypertrophy by Estes' criteria"],

"MaxHR": "maximum heart rate achieved [Numeric value between 60 and 202]",

"ExerciseAngina": "exercise-induced angina [Y: Yes, N: No]",

"Oldpeak": "ST [Numeric value measured in depression]",

"ST_Slope": "the slope of the peak exercise ST segment [Up: upsloping, Flat: flat, Down: downsloping]",

"HeartDisease": "output class [1: heart disease, 0: Normal]"}

In [None]:
df_explications = pd.DataFrame(df).T
df_explications.drop(1, axis=1, inplace=True)
df_explications.rename(columns = {0:'Definitions'}, inplace = True)

In [None]:
df_explications

#### **_Recuperation des données_**

In [2]:
# data: stockage des données recuperées du fichier .csv
data = pd.read_csv("heart.csv") 

## **Analyse des donnes**

In [None]:
#Affichage des 5 premières lignes de la table des données 
data.head(5)

In [None]:
# Taille du jeu des données 
# Nombre des lignes :
print("Ce jeu de données possèdent:")
print(f"--> {data.shape[0]} lignes")
# Nombre des colones 
print(f"--> {data.shape[1]} colones")

In [None]:
#un dictionnaire des colones de la tableu par la nature des valeurs contenues
type_dct = {str(k): list(v) for k, v in data.groupby(data.dtypes, axis=1)}


In [None]:
#Compter les valeurs pour identifier de possible valeurs manquantes
print("Les valeurs par colones:")
data.count()

**_Toutes les colones sont remplies, donc il n'y a pas de valeurs manquantes_** 

In [None]:
#Identifications des différents catégories
print(data["RestingECG"].value_counts().to_frame(),"\n")
print(data["ST_Slope"].value_counts().to_frame(),"\n")
print(data["ChestPainType"].value_counts().to_frame(),"\n")
print(data["ExerciseAngina"].value_counts().to_frame())

In [None]:
#Quelques statistiques des variables numériques 
data.describe().T

### **Visualition des données**

In [None]:
#Nombre total de femmes & d'hommes dans ce jeu de donnée
plt.figure(figsize=(10,10))
sns.catplot(data=data, x="Sex", kind="count", palette="hls")
plt.title("Diagramme du nombre total d'hommes & de femmes du jeu de données")
filename = "Diagramme nombre total hommes & femmes"
plt.savefig(filename+'.png')
plt.show();

In [None]:
#calcul des valeurs médianes des variables catégorielles
med_Sex = data.groupby("Sex")["Age"].median()
med_Chestp = data.groupby("ChestPainType")["Age"].median()
med_RECG= data.groupby("RestingECG")["Age"].median()
med_Slope= data.groupby("ST_Slope")["Age"].median()

In [None]:
box = sns.boxplot(data=data, palette='hls', linewidth=1.2,
                  fliersize=3, x="Sex",y="Age")
for i in range(len(med_Sex)):
    box.annotate(str(med_Sex [i]), xy=(i,med_Sex[i]),horizontalalignment="center")

plt.title("Repartition des patients selon l'âge par genre")

filename = "Graphe age en fonction du genre"
plt.savefig(filename+'.png')
plt.show();

In [None]:
box1 = sns.boxplot(data=data,palette='hls', linewidth=1.2,
                   fliersize=3, x="ChestPainType",y="Age")
for i in range(len(med_Chestp)):
    box1.annotate(str(med_Chestp[i]), xy=(i,med_Chestp[i]),horizontalalignment="center")
    
plt.title("Repartition des patients selon l'âge par type de douleur à la poitrine")
filename = "Graphe Age en fonction du type de douleur"
plt.savefig(filename+'.png')
plt.show();

In [None]:
box2 = sns.boxplot(data=data,palette='hls', linewidth=1.2, dodge = True,
                   fliersize=3, x="RestingECG",y="Age")
for i in range(len(med_RECG)):
    box2.annotate(str(med_RECG[i]), xy=(i,med_RECG[i]),horizontalalignment="center")

plt.title("Repartition des patients selon l'âge par Electro-Cardio-Gram au repos")
filename = "Graphe Age en fonction de l'ECG"
plt.savefig(filename+'.png')
plt.show();

In [None]:
box3= sns.boxplot(data=data,palette='hls', linewidth=1.2, dodge = False,
                   fliersize=3, x="ST_Slope",y="Age")
for i in range(len(med_Slope)):
    box3.annotate(str(med_Slope[i]), xy=(i,med_Slope[i]),horizontalalignment="center")

plt.title("Repartition des patients selon l'âge par la pente du segment ST d'effort maximal")
filename = "Graphe Age en fonction du ST_slope"
plt.savefig(filename+'.png')
plt.show();

In [None]:
#Paiprolt: visualisation globale de toutes les variables du jeu de données
sns.set_theme(style="ticks")
facecolor = "#eaeaf2"
plt.figure(figsize=(15,15))
sns.pairplot(data,hue="HeartDisease")
plt.title("Visualisation des relations entre variables")
plt.legend("HeartDisease")
plt.tight_layout()
filename = 'Pairplot du jeu de données'
plt.savefig(filename+'.png', facecolor=facecolor)
plt.show();

In [None]:
# Shows the Distribution of Heat Diseases with respect to male and female
fig=px.histogram(data, x="HeartDisease", color="Sex", hover_data=data.columns, 
                 title="Repartition par patients malades ou non selon le genre",barmode="group")

filename = "Diagramme cas positif ou non selon le genre"
plt.savefig(filename+'.png')
fig.show();

In [None]:
#Histrogramme de distribution par variable 
plt.figure(figsize=(15,10))
for i,col in enumerate(data.columns,1):
    plt.subplot(4,3,i)
    plt.title(f"Distribution of {col} Data")
    sns.histplot(data[col],kde=True)
    plt.tight_layout()
    plt.plot()
    
filename = "Ensemble de distributions par colones"
plt.savefig(filename+'.png');

In [None]:
heatmap = sns.heatmap(data.corr(), vmin=-1, vmax=1, annot=True)
# Give a title to the heatmap. Pad defines the distance of the title from the top of the heatmap.
heatmap.set_title('Correlation Heatmap', fontdict={'fontsize':12}, pad=12);

**_les variables numeriques semblent assez independantes les unes des autres_**

## **Preprocessing :**
    
    -> Cible : Heart Disease 
    -> Variables: les onze colones restantes
    -> instantiation de la classe de preprocessing pour lancer la démarche de fitting et scaling du model.
    -> entraînement du model sur les features d’entraînement (toujours)
    -> mise à l'échelle des features (données présentes en X dans le dataset d'étude)


In [3]:
#extraction de la cible(y) et des variables explicatives(X)
y=data["HeartDisease"]
X=data.drop(["HeartDisease"],axis=1)

### **_Les modèles de classification utilisés_**

In [4]:
names=["Nearest Neighbors", "Linear SVM","RBF SVM",
                      "Gaussian Process","Decision Tree","Random Forest",
                         "Naive Bayes"]
clf_models = [ KNeighborsClassifier(3),
           SVC(kernel="linear", C=0.025),
           SVC(gamma=2, C=1),
           GaussianProcessClassifier(1.0 * RBF(1.0)),
           DecisionTreeClassifier(max_depth=5),
           RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),
          GaussianNB()]

### _Première itération_ : Modeles de base 

     . Utilisation des dummies pour toutes les variables (features)

In [None]:
#Transformation des variables categorielle
X_dummies = pd.get_dummies(X)

In [None]:
#séparation des données : données d'entrainement & données de test 
X_train_dummies,X_test_dummies,y_train,y_test = train_test_split(X_dummies, y, test_size=0.30, random_state=42)

In [None]:
 # Entrainement et évalaution de chaque modele dans la boucle for 
tab_score_ml = []
for nam, clfml in zip(names,clf_models):
    model = clfml
    modelfit=model.fit(X_train_dummies, y_train)
    score_ml = modelfit.score(X_test_dummies, y_test)
    tab_score_ml.append(score_ml)
    print(f"{nam} a un score de :{score_ml}")
    #print(classification_report(y_test, modelfit.predict(X_test_dummies)))


### _Deuxième itération_ : Optimisation par traitement sur la nature des variables
        . Traitement des variables catégorielles : encodage_
        . Traitement des variables numériques : Scaling & normalisation_

In [5]:
#séparation des données : données d'entrainement & données de test 
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.30, random_state=42)

In [6]:
#Trie entre les variables : catégorielles & numériques 
var_numeriques = make_column_selector(dtype_include=np.number)
var_categorielles = make_column_selector(dtype_exclude=np.number)  

In [7]:
#generation du pipeline : une transformation en serie sur les groupes de variables en fonction de leur nature
numerique_pipe = make_pipeline(SimpleImputer(),StandardScaler())
categorielle_pipe = make_pipeline(SimpleImputer(strategy="most_frequent"),OneHotEncoder(handle_unknown='ignore', drop='first'))

In [8]:
#Application des transformations sur l'ensemble des variables (features)
preprocessor = make_column_transformer((numerique_pipe,var_numeriques),(categorielle_pipe,var_categorielles))


In [9]:
 # Entrainement et évalaution de chaque modele dans la boucle for 
tab_score = []
for name, clf in zip(names,clf_models):
    model = make_pipeline(preprocessor,clf)
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    tab_score.append(score)
    #selector = RFECV(model, step=1,
                #min_features_to_select=2, cv=5)
    print(f"{name} a un score de :{score}")
    #print(classification_report(y_test, model.predict(X_test)))

Nearest Neighbors a un score de :0.8623188405797102
Linear SVM a un score de :0.8514492753623188
RBF SVM a un score de :0.7246376811594203
Gaussian Process a un score de :0.8876811594202898
Decision Tree a un score de :0.7681159420289855
Random Forest a un score de :0.8623188405797102
Naive Bayes a un score de :0.8768115942028986


### _Troisième itération_:  Optimisation par selection des variables 

  **a)** Chi2 entre les varaibles catégorielles 
  
  **b)** RFE & RFECV : éliminent les variables les moins importantes de façon recursive
           

In [14]:
X_train_transform = 

SyntaxError: invalid syntax (4293190093.py, line 1)

In [13]:
mutual_info = mutual_info_classif(model)

TypeError: mutual_info_classif() missing 1 required positional argument: 'y'

In [None]:
cat_vars = data.select_dtypes(include=["object"])
y_cat = cat_vars["Sex"]
X_cat = cat_vars.drop(["Sex"],axis=1)

In [None]:
Ohe= OneHotEncoder()
X_cat_ohe = Ohe.fit_transform(X_cat)

In [None]:
X_df_encod = pd.DataFrame(X_cat_ohe.toarray())
X_df_encod

In [None]:
chi2(X_cat_ohe,y_cat)

In [None]:
slector = SelectKBest(chi2, k=1)
slector.fit_transform(X_cat_ohe,y_cat)
encod= slector.get_support()

In [None]:
np.array(X_df_encod.columns)[slector.get_support()]

In [None]:
n_enc = encod.reshape(1,-1)

In [None]:
Ohe.inverse_transform(X_cat_ohe)