# Exercice: réseaux de neurones en Python

Nous allons nous intéresser à un jeu de données décrivant des personnes atteintes ou non de maladies cardiaques, avec plusieurs caractéristiques. Le but va être d'essayer de prédire, selon un jeu d'attributs, si oui ou non la personne risque d'avoir une maladie cardiaque.

Le jeu de données est téléchargeable sur Arche, "Données maladie cardiaque". Le fichier téléchargé devrait avoir comme nom "heart.csv".

Pour lire et manipuler un fichier csv sur python, je vous conseille d'utiliser la librairie pandas. La documentation de pandas est accessible via ce lien: https://pandas.pydata.org/docs/getting_started/index.html . Installation: `pip install pandas`

Pour vous aider, voici comment faire quelques manipulations de base

In [1]:
import pandas as pd

data = pd.read_csv("heart.csv") # Cela suppose que le fichier se trouve dans le même répertoire que le code
print(data) # Affiche le dataframe

     age  sex  cp  trestbps  chol  fbs  restecg  thalach  exang  oldpeak  \
0     63    1   3       145   233    1        0      150      0      2.3   
1     37    1   2       130   250    0        1      187      0      3.5   
2     41    0   1       130   204    0        0      172      0      1.4   
3     56    1   1       120   236    0        1      178      0      0.8   
4     57    0   0       120   354    0        1      163      1      0.6   
..   ...  ...  ..       ...   ...  ...      ...      ...    ...      ...   
298   57    0   0       140   241    0        1      123      1      0.2   
299   45    1   3       110   264    0        1      132      0      1.2   
300   68    1   0       144   193    1        1      141      0      3.4   
301   57    1   0       130   131    0        1      115      1      1.2   
302   57    0   1       130   236    0        0      174      0      0.0   

     slope  ca  thal  target  
0        0   0     1       1  
1        0   0     2     

In [2]:
print(data.head()) # Affiche les cinq premières lignes

   age  sex  cp  trestbps  chol  fbs  restecg  thalach  exang  oldpeak  slope  \
0   63    1   3       145   233    1        0      150      0      2.3      0   
1   37    1   2       130   250    0        1      187      0      3.5      0   
2   41    0   1       130   204    0        0      172      0      1.4      2   
3   56    1   1       120   236    0        1      178      0      0.8      2   
4   57    0   0       120   354    0        1      163      1      0.6      2   

   ca  thal  target  
0   0     1       1  
1   0     2       1  
2   0     2       1  
3   0     2       1  
4   0     2       1  


In [3]:
print(list(data.columns)) # Liste des attributs (colonnes)

['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']


In [6]:
subdata = data.iloc[:,5:10] # Sélectionne colonnes 5 à 9
print(subdata)

     fbs  restecg  thalach  exang  oldpeak
0      1        0      150      0      2.3
1      0        1      187      0      3.5
2      0        0      172      0      1.4
3      0        1      178      0      0.8
4      0        1      163      1      0.6
..   ...      ...      ...    ...      ...
298    0        1      123      1      0.2
299    0        1      132      0      1.2
300    1        1      141      0      3.4
301    0        1      115      1      1.2
302    0        0      174      0      0.0

[303 rows x 5 columns]


In [7]:
subdata = data[["sex","cp","chol"]] # Sélectionne les colonnes à partir des noms (clés)
print(subdata)

     sex  cp  chol
0      1   3   233
1      1   2   250
2      0   1   204
3      1   1   236
4      0   0   354
..   ...  ..   ...
298    0   0   241
299    1   3   264
300    1   0   193
301    1   0   131
302    0   1   236

[303 rows x 3 columns]


In [8]:
data.age.unique() # Affiche toutes les valeurs possible pour la colonne "age"

array([63, 37, 41, 56, 57, 44, 52, 54, 48, 49, 64, 58, 50, 66, 43, 69, 59,
       42, 61, 40, 71, 51, 65, 53, 46, 45, 39, 47, 62, 34, 35, 29, 55, 60,
       67, 68, 74, 76, 70, 38, 77], dtype=int64)

In [6]:
data[data["cp"]==0] # Affiche toutes les lignes ou cp=0

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
5,57,1,0,140,192,0,1,148,0,0.4,1,0,1,1
10,54,1,0,140,239,0,1,160,0,1.2,2,0,2,1
18,43,1,0,150,247,0,1,171,0,1.5,2,0,2,1
20,59,1,0,135,234,0,1,161,0,0.5,1,0,3,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
296,63,0,0,124,197,0,1,136,1,0.0,1,0,2,0
297,59,1,0,164,176,1,0,90,0,1.0,1,2,1,0
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0


In [33]:
# On peut utiliser map pour transformer une colonne
data["oldpeak"]=data["oldpeak"].map(lambda oldpeak: -oldpeak)
print(data["oldpeak"])

# Il est aussi possible d'utiliser des compréhensions de liste pour faire des transformations conditionnelles
data["oldpeak"]=[abs(x) if x<-1 else x for x in data["oldpeak"]]
print(data["oldpeak"])

0     -2.3
1     -3.5
2     -1.4
3     -0.8
4     -0.6
      ... 
298   -0.2
299   -1.2
300   -3.4
301   -1.2
302   -0.0
Name: oldpeak, Length: 303, dtype: float64
0      2.3
1      3.5
2      1.4
3     -0.8
4     -0.6
      ... 
298   -0.2
299    1.2
300    3.4
301    1.2
302   -0.0
Name: oldpeak, Length: 303, dtype: float64


In [8]:
data["sex_age"] = data.apply(lambda row: (2*row.sex-1)*row.age, axis=1) # Define new column based on other columns
print(data)

     age  sex  cp  trestbps  chol  fbs  restecg  thalach  exang  oldpeak  \
0     63    1   3       145   233    1        0      150      0      2.3   
1     37    1   2       130   250    0        1      187      0      3.5   
2     41    0   1       130   204    0        0      172      0      1.4   
3     56    1   1       120   236    0        1      178      0      0.8   
4     57    0   0       120   354    0        1      163      1      0.6   
..   ...  ...  ..       ...   ...  ...      ...      ...    ...      ...   
298   57    0   0       140   241    0        1      123      1      0.2   
299   45    1   3       110   264    0        1      132      0      1.2   
300   68    1   0       144   193    1        1      141      0      3.4   
301   57    1   0       130   131    0        1      115      1      1.2   
302   57    0   1       130   236    0        0      174      0      0.0   

     slope  ca  thal  target  sex_age  
0        0   0     1       1     63.0  
1      

# Exercice
Le but de l'exercice est de prédire, selon les attributs de votre choix, la présence ou non d'une maladie cardiaque. C'est à dire prédire la colonne `target` du jeu de données. 

Voici donc les contraintes:

1) Vous devez prédire la colonne `target` du jeu de données, elle ne doit pas être utilisée comme attribut en entrée du modèle.

2) Vous devez utiliser un réseau de neurones, vous êtes cependant libre d'utiliser la libraire de votre choix: tensorflow (que je vous ai présenté la dernière fois), ou une autre comme pytorch... A vous de voir avec quoi vous êtes le plus à l'aise. Je risque cependant de moins pouvoir vous aider d'un point de vue technique et implémentation si vous choisissez autre chose que tensorflow.

3) Vous devez utiliser 80% des données en entraînement et 20% en test.

Vous êtes donc libres de:

1) Manipuler les 13 autres colonnes de données comme vous le souhaitez: vous pouvez toutes les utiliser, ou les agréger, ou en enlever...

2) Vous pouvez choisir l'architecture de votre choix pour le réseau de neurones, le but étant d'essayer plusieurs jeux de paramètres pour voir ce qui fonctionne le mieux :)

Quelques conseils/astuces:

1) N'hésitez pas à relancer plusieurs fois un entraînement si nécessaire. Le jeu de données étant petit l'entraînement devrait se faire rapidement, et l'initialisation aléatoire du réseau peut faire varier les résultats d'un essai à l'autre. Idéalement un bon réseau devrait avoir une précision en jeu de test entre 0.8 et 0.86.

2) Vous allez peut être tomber sur un modèle qui surapprend. Dans ce cas, il est intéressant de regarder la meilleure précision obtenue au cours de l'entraînement si la précision obtenue à la fin n'est pas maximale.

3) Commencez par quelque chose de simple, et complexifiez ensuite petit à petit pour avoir de meilleurs résultats.

4) Je vous conseille de passer un peu de temps sur le prétraitement des données. Plus précisément, remarquez que les valeurs d'une colonne à l'autre varient énormément: le sexe est un entier entre 0 et 1, et les valeurs de cholestérol varient entre 100 et 400 environ. Il est courant en prétraitement des données de "normaliser" les valeurs des données en entrée pour qu'elles soient toutes au même ordre de grandeur. scikit-learn possède un outil pour automatiquement normaliser les données, StandardScaler: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html. Exemple ci dessous. 

**Attention**, si vous choisissez de normaliser vos données, vous devez absolument le faire séparement sur vos données d'entraînement et de test !! C'est à dire utiliser deux scaler différents pour train et test. Autrement, si vous utilisez un seul scaler pour TOUT le jeu de données, vous allez injecter des informations du jeu de test dans le jeu d'entraînement et vice versa...

In [54]:
from sklearn import preprocessing

subdata = data[["cp","chol"]]

print("Possible values for cp:")
print(subdata.cp.unique())
print("Possible values for chol:")
print(subdata.chol.unique())
print("The values for chol and cp have a completely different scale...")

print("Before standardization:")
print(subdata)

scaler = preprocessing.StandardScaler() # We create the scaler
standardized_subdata = scaler.fit_transform(subdata) # We use the scaler to "fit" the normal distribution on the data and then transform it.

print("After standardization (first 10 rows only):")
print(standardized_subdata[:10])

Possible values for cp:
[3 2 1 0]
Possible values for chol:
[233 250 204 236 354 192 294 263 199 168 239 275 266 211 283 219 340 226
 247 234 243 302 212 175 417 197 198 177 273 213 304 232 269 360 308 245
 208 264 321 325 235 257 216 256 231 141 252 201 222 260 182 303 265 309
 186 203 183 220 209 258 227 261 221 205 240 318 298 564 277 214 248 255
 207 223 288 160 394 315 246 244 270 195 196 254 126 313 262 215 193 271
 268 267 210 295 306 178 242 180 228 149 278 253 342 157 286 229 284 224
 206 167 230 335 276 353 225 330 290 172 305 188 282 185 326 274 164 307
 249 341 407 217 174 281 289 322 299 300 293 184 409 259 200 327 237 218
 319 166 311 169 187 176 241 131]
The values for chol and cp have a completely different scale...
Before standardization:
     cp  chol
0     3   233
1     2   250
2     1   204
3     1   236
4     0   354
..   ..   ...
298   0   241
299   3   264
300   0   193
301   0   131
302   1   236

[303 rows x 2 columns]
After standardization (first 10 rows only)