## Machine Learning Projet 🎓
Groupe : BARROUG Zakaria , Hamidouche Abderrahim


---
### ***Contexte*** 🫀

Chez *HeartVital Sciences*, nous nous consacrons à la compréhension des facteurs critiques qui influencent la survie des patients atteints d'insuffisance cardiaque. Une de nos priorités est d'étudier l'impact des niveaux de créatinine sérique sur la mortalité. La créatinine sérique est un indicateur clé de la fonction rénale, et des niveaux élevés sont souvent associés à une mortalité accrue chez les patients atteints d'insuffisance cardiaque.

## ***Objectif*** 🔽
Notre objectif est de démontrer que la réduction des niveaux de créatinine sérique peut significativement améliorer la survie des patients atteints d'insuffisance cardiaque. Nous visons également à sensibiliser les professionnels de la santé sur l'importance de surveiller et de gérer ces niveaux pour réduire les risques de mortalité.




### **Méthodologie📑**
En utilisant le dataset "Heart Failure Clinical Data" de Kaggle, nous avons analysé les données de plus de 299 patients, en mettant l'accent sur les niveaux de créatinine sérique.

**Lien Kaggle :** https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data/data?select=heart_failure_clinical_records_dataset.csv

In [5]:

#Premier modèle : Régression logistique


import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Charger le dataset Kaggle
data = pd.read_csv('/content/heart_failure_clinical_records_dataset.csv')

data

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.00,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.00,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.00,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.00,2.7,116,0,0,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62.0,0,61,1,38,1,155000.00,1.1,143,1,1,270,0
295,55.0,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0
296,45.0,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0
297,45.0,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0


In [6]:
data.dropna(inplace=True)

# Normaliser les données
scaler = StandardScaler()
data[['serum_creatinine']] = scaler.fit_transform(data[['serum_creatinine']])

# Diviser les données
X = data[['serum_creatinine']]
y = data['DEATH_EVENT']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# Créer et entraîner le modèle
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

# Prédictions
y_pred_logreg = logreg.predict(X_test)

# Évaluation
accuracy = accuracy_score(y_test, y_pred_logreg)
precision = precision_score(y_test, y_pred_logreg)
recall = recall_score(y_test, y_pred_logreg)
f1 = f1_score(y_test, y_pred_logreg)
auc = roc_auc_score(y_test, y_pred_logreg)

print(f'Accuracy: {accuracy}')
print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'F1 Score: {f1}')
print(f'AUC: {auc}')

Accuracy: 0.5833333333333334
Precision: 0.5
Recall: 0.08
F1 Score: 0.13793103448275865
AUC: 0.5114285714285715


In [9]:
## 2eme modele : Forêt d'Arbres Décisionnels ajusté avec SMOTE

from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Charger les données
data = pd.read_csv('heart_failure_clinical_records_dataset.csv')

# Gérer les valeurs manquantes
data.dropna(inplace=True)

# Normaliser les données
scaler = StandardScaler()
data[['creatinine_phosphokinase', 'ejection_fraction', 'platelets', 'serum_creatinine', 'serum_sodium']] = scaler.fit_transform(data[['creatinine_phosphokinase', 'ejection_fraction', 'platelets', 'serum_creatinine', 'serum_sodium']])

# Diviser les données
X = data.drop('DEATH_EVENT', axis=1)
y = data['DEATH_EVENT']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Appliquer SMOTE
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

# Ajuster le modèle avec les hyperparamètres optimaux
rf = RandomForestClassifier(bootstrap=True, max_depth=20, min_samples_leaf=4, min_samples_split=10, n_estimators=50)
rf.fit(X_train_smote, y_train_smote)

# Prédictions
y_pred_rf = rf.predict(X_test)

# Évaluation
accuracy_rf = accuracy_score(y_test, y_pred_rf)
precision_rf = precision_score(y_test, y_pred_rf)
recall_rf = recall_score(y_test, y_pred_rf)
f1_rf = f1_score(y_test, y_pred_rf)
auc_rf = roc_auc_score(y_test, y_pred_rf)

print(f'Accuracy: {accuracy_rf}')
print(f'Precision: {precision_rf}')
print(f'Recall: {recall_rf}')
print(f'F1 Score: {f1_rf}')
print(f'AUC: {auc_rf}')


Accuracy: 0.7833333333333333
Precision: 0.7727272727272727
Recall: 0.68
F1 Score: 0.7234042553191491
AUC: 0.7685714285714287


In [10]:
import pandas as pd
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Charger les données
data = pd.read_csv('heart_failure_clinical_records_dataset.csv')

# Gérer les valeurs manquantes
data.dropna(inplace=True)

# Normaliser les données
scaler = StandardScaler()
data[['creatinine_phosphokinase', 'ejection_fraction', 'platelets', 'serum_creatinine', 'serum_sodium']] = scaler.fit_transform(data[['creatinine_phosphokinase', 'ejection_fraction', 'platelets', 'serum_creatinine', 'serum_sodium']])

# Diviser les données
X = data.drop('DEATH_EVENT', axis=1)
y = data['DEATH_EVENT']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Appliquer SMOTE
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

# Ajuster le modèle avec les hyperparamètres optimaux
rf = RandomForestClassifier(bootstrap=True, max_depth=20, min_samples_leaf=4, min_samples_split=10, n_estimators=50)
rf.fit(X_train_smote, y_train_smote)

# Prédictions
y_pred_rf = rf.predict(X_test)

# Évaluation
accuracy_rf = accuracy_score(y_test, y_pred_rf)
precision_rf = precision_score(y_test, y_pred_rf)
recall_rf = recall_score(y_test, y_pred_rf)
f1_rf = f1_score(y_test, y_pred_rf)
auc_rf = roc_auc_score(y_test, y_pred_rf)

print(f'Accuracy: {accuracy_rf}')
print(f'Precision: {precision_rf}')
print(f'Recall: {recall_rf}')
print(f'F1 Score: {f1_rf}')
print(f'AUC: {auc_rf}')

# Importance des caractéristiques
importances = rf.feature_importances_
feature_names = X.columns
feature_importance_df = pd.DataFrame({'feature': feature_names, 'importance': importances})
feature_importance_df = feature_importance_df.sort_values(by='importance', ascending=False)

print(feature_importance_df)



Accuracy: 0.7666666666666667
Precision: 0.7894736842105263
Recall: 0.6
F1 Score: 0.6818181818181819
AUC: 0.7428571428571429
                     feature  importance
11                      time    0.402542
7           serum_creatinine    0.199748
0                        age    0.091588
4          ejection_fraction    0.089362
2   creatinine_phosphokinase    0.056900
8               serum_sodium    0.055915
6                  platelets    0.050619
9                        sex    0.028755
10                   smoking    0.008867
3                   diabetes    0.007108
1                    anaemia    0.004862
5        high_blood_pressure    0.003733



## *Interprétation des Résultats*

Les résultats d'importance des caractéristiques montrent que la créatinine sérique est la deuxième variable la plus importante pour prédire la mortalité chez les patients atteints d'insuffisance cardiaque

# Conclusion  :
En conclusion, les résultats confirment que la créatinine sérique a un impact significatif sur la mortalité, et des mesures pour surveiller et gérer cette variable peuvent être cruciales dans les soins aux patients atteints d'insuffisance cardiaque.