In [13]:
# importation des librairies et modules necessaires pour la realisation de ce projet

import os, pandas as pd, numpy as np, matplotlib.pyplot as plt
from sklearn import model_selection as modele, linear_model as lm, metrics as mes

In [14]:
os.getcwd()

'C:\\Users\\marc\\Documents\\projet_regression_logistique'

In [15]:
os.chdir("C:\\Users\\marc\\Documents\\projet_regression_logistique")

In [16]:
# 1- importation du fichier coeur

data = pd.read_excel("Coeur.xlsx")
data.head()

Unnamed: 0,AGE,SEXE,TDT,PAR,CHOLESTEROL,GAJ,ECG,FCMAX,ANGINE,DEPRESSION,PENTE,CŒUR
0,40,homme,AA,140,289,0,Normal,172,Non,0.0,Ascendant,0
1,49,femme,DNA,160,180,0,Normal,156,Non,1.0,Plat,1
2,37,homme,AA,130,283,0,ST,98,Non,0.0,Ascendant,0
3,48,femme,ASY,138,214,0,Normal,108,Oui,1.5,Plat,1
4,54,homme,DNA,150,195,0,Normal,122,Non,0.0,Ascendant,0


In [17]:
# 2- copie de du dataframe dans la variable df

df = data.copy()

In [18]:
# 3- verifions s'il y'a des doublons dans df
# on peut voir qu'il y'a 0 doublon donc on n'a pas de ligne a supprimer

df.duplicated().sum()

0

In [19]:
# 4- verifions s'il y'a des contantes ou encore des variables a une modalite dans notre dataset
# on voit que chaque colonne a au moins 2 valeurs differentes donc pas de constante dans notre jeux de donnees

df.nunique()

AGE             50
SEXE             2
TDT              4
PAR             67
CHOLESTEROL    222
GAJ              2
ECG              3
FCMAX          119
ANGINE           2
DEPRESSION      53
PENTE            3
CŒUR             2
dtype: int64

In [20]:
# 5- verifions s'il y'a des donnees manquantes
# il n'y a pas de donnees manquantes donc on a aucune ligne a supprimer
df.isna().sum()

AGE            0
SEXE           0
TDT            0
PAR            0
CHOLESTEROL    0
GAJ            0
ECG            0
FCMAX          0
ANGINE         0
DEPRESSION     0
PENTE          0
CŒUR           0
dtype: int64

In [21]:
# 6- normalisons les variables quantitatives

# on recupere la liste des variables quantitatives
quant = ['AGE', 'PAR', 'CHOLESTEROL', 'FCMAX', 'DEPRESSION']

# on normailse en divisant les elements de chaque variable quanti par leurs moyennes respective arrondi a l'ordre 2
df[quant] = round(df[quant]/df[quant].mean().copy(), 2)

# on affiche un appercu des resulats
df.head()

Unnamed: 0,AGE,SEXE,TDT,PAR,CHOLESTEROL,GAJ,ECG,FCMAX,ANGINE,DEPRESSION,PENTE,CŒUR
0,0.75,homme,AA,1.06,1.45,0,Normal,1.26,Non,0.0,Ascendant,0
1,0.92,femme,DNA,1.21,0.91,0,Normal,1.14,Non,1.13,Plat,1
2,0.69,homme,AA,0.98,1.42,0,ST,0.72,Non,0.0,Ascendant,0
3,0.9,femme,ASY,1.04,1.08,0,Normal,0.79,Oui,1.69,Plat,1
4,1.01,homme,DNA,1.13,0.98,0,Normal,0.89,Non,0.0,Ascendant,0


In [22]:
# 7 - recodage des variable qualitatives

# avant verifions la nature des variables

df.dtypes

AGE            float64
SEXE            object
TDT             object
PAR            float64
CHOLESTEROL    float64
GAJ              int64
ECG             object
FCMAX          float64
ANGINE          object
DEPRESSION     float64
PENTE           object
CŒUR             int64
dtype: object

In [23]:
# la variable qualitative GAJ etant deja recode en 0 et 1 alors nous l'excluons du recodage des variables qualitatives

# nous creons une fonction de recodage pour nous aider

def recode(dataset):
    
    dict_sexe = {"homme":1, "femme":0}
    dataset['SEXE'].replace(dict_sexe, inplace = True)
    
    dict_tdt = {"AA":0, "ASY":1, "AT":2, "DNA":3}
    dataset['TDT'].replace(dict_tdt, inplace = True)
    
    dict_ecg  = {"ST":0, "Normal":1, "LVH":2}
    dataset['ECG'].replace(dict_ecg, inplace = True)
    
    dict_angine = {"Oui":1, "Non":0}
    dataset['ANGINE'].replace(dict_angine, inplace = True)
    
    dict_pente = {"Descendant":0, "Plat":1, "Ascendant":2}
    dataset['PENTE'].replace(dict_pente, inplace = True)
    
    return dataset

recode(df)


Unnamed: 0,AGE,SEXE,TDT,PAR,CHOLESTEROL,GAJ,ECG,FCMAX,ANGINE,DEPRESSION,PENTE,CŒUR
0,0.75,1,0,1.06,1.45,0,1,1.26,0,0.00,2,0
1,0.92,0,3,1.21,0.91,0,1,1.14,0,1.13,1,1
2,0.69,1,0,0.98,1.42,0,0,0.72,0,0.00,2,0
3,0.90,0,1,1.04,1.08,0,1,0.79,1,1.69,1,1
4,1.01,1,3,1.13,0.98,0,1,0.89,0,0.00,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...
913,0.84,1,2,0.83,1.33,0,1,0.96,0,1.35,1,1
914,1.27,1,1,1.09,0.97,1,1,1.03,0,3.83,1,1
915,1.07,1,1,0.98,0.66,0,1,0.84,1,1.35,1,1
916,1.07,0,0,0.98,1.19,0,2,1.27,0,0.00,1,1


In [24]:
# 8- separons la variable cible des variables explicatives

X = df.iloc[:, 0:11]

Y = df['CŒUR']

In [26]:
# 9- susbdivision des donnees

X_train, X_test, Y_train, Y_test = modele.train_test_split(X, Y, test_size = 0.2)

In [28]:
# 10- construction du modele de regression logistique

mod = lm.LogisticRegression(penalty = 'none', solver = 'newton-cg')
mod.fit(X_train, Y_train)

LogisticRegression(penalty='none', solver='newton-cg')