In [323]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, recall_score, precision_score, classification_report
from sklearn.linear_model import LogisticRegression


In [324]:
#Chargement du DF
data = pd.read_excel('Coeur.xlsx')
data.head()

Unnamed: 0,AGE,SEXE,TDT,PAR,CHOLESTEROL,GAJ,ECG,FCMAX,ANGINE,DEPRESSION,PENTE,CŒUR
0,40,homme,AA,140,289,0,Normal,172,Non,0.0,Ascendant,0
1,49,femme,DNA,160,180,0,Normal,156,Non,1.0,Plat,1
2,37,homme,AA,130,283,0,ST,98,Non,0.0,Ascendant,0
3,48,femme,ASY,138,214,0,Normal,108,Oui,1.5,Plat,1
4,54,homme,DNA,150,195,0,Normal,122,Non,0.0,Ascendant,0


In [325]:
# Travailler avec une copie du data Frame pour le modele de regression lineaire pour éviter de le rechager en cas d'êrreur
df = data.copy()
df.head()

Unnamed: 0,AGE,SEXE,TDT,PAR,CHOLESTEROL,GAJ,ECG,FCMAX,ANGINE,DEPRESSION,PENTE,CŒUR
0,40,homme,AA,140,289,0,Normal,172,Non,0.0,Ascendant,0
1,49,femme,DNA,160,180,0,Normal,156,Non,1.0,Plat,1
2,37,homme,AA,130,283,0,ST,98,Non,0.0,Ascendant,0
3,48,femme,ASY,138,214,0,Normal,108,Oui,1.5,Plat,1
4,54,homme,DNA,150,195,0,Normal,122,Non,0.0,Ascendant,0


In [326]:
#Normalisation des variables quantitatives
for col in df.drop('CŒUR', axis =1).select_dtypes(np.number).columns:
    df[col] = (df[col] - df[col].mean()) / df[col].std()

df.head()

Unnamed: 0,AGE,SEXE,TDT,PAR,CHOLESTEROL,GAJ,ECG,FCMAX,ANGINE,DEPRESSION,PENTE,CŒUR
0,-1.432359,homme,AA,0.410685,0.824621,-0.551041,Normal,1.382175,Non,-0.831979,Ascendant,0
1,-0.478223,femme,DNA,1.49094,-0.171867,-0.551041,Normal,0.753746,Non,0.105606,Plat,1
2,-1.750404,homme,AA,-0.129442,0.769768,-0.551041,ST,-1.524307,Non,-0.831979,Ascendant,0
3,-0.584238,femme,ASY,0.30266,0.138964,-0.551041,Normal,-1.131539,Oui,0.574398,Plat,1
4,0.051853,homme,DNA,0.950812,-0.034736,-0.551041,Normal,-0.581664,Non,-0.831979,Ascendant,0


In [327]:
#Encodage des variables qualitatives
for col in df.select_dtypes('object').columns:
    df[col] = df[col].astype('category').cat.codes
    
df.head()

Unnamed: 0,AGE,SEXE,TDT,PAR,CHOLESTEROL,GAJ,ECG,FCMAX,ANGINE,DEPRESSION,PENTE,CŒUR
0,-1.432359,1,0,0.410685,0.824621,-0.551041,1,1.382175,0,-0.831979,0,0
1,-0.478223,0,3,1.49094,-0.171867,-0.551041,1,0.753746,0,0.105606,2,1
2,-1.750404,1,0,-0.129442,0.769768,-0.551041,2,-1.524307,0,-0.831979,0,0
3,-0.584238,0,1,0.30266,0.138964,-0.551041,1,-1.131539,1,0.574398,2,1
4,0.051853,1,3,0.950812,-0.034736,-0.551041,1,-0.581664,0,-0.831979,0,0


In [328]:
#Subdivision du jeu de données en apprentissage et en test
train_set, test_set = train_test_split(df, random_state=1, test_size=0.3)

In [329]:
# Initialisation du modèle
model_regre = LogisticRegression(solver='newton-cg', random_state=1)

# Entraînement du modèle
model_regre.fit(train_set.drop('CŒUR', axis = 1), train_set['CŒUR'])


LogisticRegression(random_state=1, solver='newton-cg')

In [330]:
# Initialisation du modèle
model_arbre = DecisionTreeClassifier(random_state=0)

# Entraînement du model
model_arbre.fit(train_set.drop(['CŒUR'], axis=1), train_set['CŒUR'])

DecisionTreeClassifier(random_state=0)

In [331]:
# Performance sur le train_set de la regression logistique
print(model_regre.score(train_set.drop(['CŒUR'], axis=1), train_set['CŒUR']))

# Performance sur le train set de l'arbre de decision
print(model_arbre.score(train_set.drop(['CŒUR'], axis=1), train_set['CŒUR']))


0.8535825545171339
1.0


In [332]:
# Performance sur le test_set de la Régression Logistique
print(model_regre.score(test_set.drop(['CŒUR'], axis=1), test_set['CŒUR']))

# Performance sur le test_set de l'Arbre de décision
print(model_arbre.score(test_set.drop(['CŒUR'], axis=1), test_set['CŒUR']))

0.8514492753623188
0.7753623188405797


In [333]:

# Prédiction régression logistique
regre_pred = model_regre.predict(test_set.drop(['CŒUR'], axis=1))
print(regre_pred)

print('                                                               ')

# Prédiction arbre de décision
arbre_pred = model_arbre.predict(test_set.drop(['CŒUR'], axis=1))
print(arbre_pred)


[1 1 1 1 1 0 1 0 0 1 0 0 1 1 1 0 1 0 1 1 1 0 1 0 1 1 0 1 1 0 0 0 0 0 1 1 1
 1 0 0 1 1 1 0 0 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1
 0 1 0 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 0 1 1 1 1 1 1 0 1 0 1 1 1 0 0 1 1 0 0
 1 0 0 0 0 1 0 0 1 1 1 1 0 1 0 1 0 1 1 0 1 0 1 1 1 1 1 0 1 1 0 0 1 1 1 1 1
 1 1 1 0 0 0 0 1 0 1 1 1 1 1 1 0 1 0 0 1 1 1 0 1 1 1 1 1 0 0 1 0 1 0 0 0 1
 0 1 1 0 1 1 1 0 0 1 0 1 0 0 1 1 0 1 0 1 0 0 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0
 1 1 1 0 1 0 1 0 0 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 0 1 1 0 1 0 0 0 1 1 1 0
 0 0 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0]
                                                               
[1 0 1 1 0 0 0 0 0 1 0 0 0 1 1 0 1 0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 1 1 1
 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 1 1 0 0 1 1 1 0 1 1 0 0 1
 0 1 0 1 1 1 1 1 0 1 0 1 0 0 0 0 1 1 0 1 1 0 1 1 0 1 0 0 0 1 1 0 0 0 1 0 0
 0 0 1 0 0 1 0 0 1 0 1 1 0 1 0 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 0 0 0 1 1 1 1
 1 1 1 0 0 0 0 1 0 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 0 0 1 1


In [334]:
# Matrice de confusion régression logistique
print(confusion_matrix(test_set['CŒUR'], regre_pred))

print('                                                   ')

# Matrice de confusion arbre de décision
print(confusion_matrix(test_set['CŒUR'], arbre_pred))


[[ 92  17]
 [ 24 143]]
                                                   
[[ 86  23]
 [ 39 128]]


In [335]:
# Sensibité régression logistique
print(recall_score(test_set['CŒUR'], regre_pred))

# Sensibilité arbre de décision
print(recall_score(test_set['CŒUR'], arbre_pred))

0.8562874251497006
0.7664670658682635


In [336]:
# Précision régression logistique
print(precision_score(test_set['CŒUR'], regre_pred))

# Précision arbre de décision
print(precision_score(test_set['CŒUR'], arbre_pred))

0.89375
0.847682119205298


In [337]:
#plus de détails avec classification report sur l'arbrre de decision
arbre_deci = classification_report(test_set['CŒUR'], arbre_pred)
print(arbre_deci)

print('#####################################################################################')

#plus de détails avec classification report sur la regression logistique
print(classification_report(test_set['CŒUR'], regre_pred))

              precision    recall  f1-score   support

           0       0.69      0.79      0.74       109
           1       0.85      0.77      0.81       167

    accuracy                           0.78       276
   macro avg       0.77      0.78      0.77       276
weighted avg       0.78      0.78      0.78       276

#####################################################################################
              precision    recall  f1-score   support

           0       0.79      0.84      0.82       109
           1       0.89      0.86      0.87       167

    accuracy                           0.85       276
   macro avg       0.84      0.85      0.85       276
weighted avg       0.85      0.85      0.85       276



In [338]:
#Comparaison au niveau des  Score d'entrainement (le taux de bonne prédiction calculé sur la base des données d'entrainement)
if (model_regre.score(train_set.drop(['CŒUR'], axis=1), train_set['CŒUR'])) > (model_arbre.score(train_set.drop(['CŒUR'], axis=1), train_set['CŒUR'])):
    print("Sur l'entrainement, le resultat de la Régression Logistique est supérieure à celui de l'Arbre de Décision")
else:
    print("Sur l'entrainement, le resultat de la Régression Logistique est inférieure à celui de l'Arbre de Décision")


Sur l'entrainement, le resultat de la Régression Logistique est inférieure à celui de l'Arbre de Décision


In [339]:
#Comparaison au niveau des  Score d'entrainement (le taux de bonne prédiction calculé sur la base des données d'entrainement)
if (model_regre.score(test_set.drop(['CŒUR'], axis=1), test_set['CŒUR'])) > (model_arbre.score(test_set.drop(['CŒUR'], axis=1), test_set['CŒUR'])):
    print("Sur les tests, le resultat de la Régression Logistique est supérieure à celui de l'Arbre de Décision")
else:
    print("Sur les tests, le resultat de la Régression Logistique est inférieure à celui de l'Arbre de Décision")

Sur les tests, le resultat de la Régression Logistique est supérieure à celui de l'Arbre de Décision
