# Classification de pathologies cancéreuses à partie de paramètres physiologiques en utilisant un perceptron multi-couches

#### Françoise Bouvet (IJCLab, CNRS)  francoise.bouvet@ijclab.in2p3.fr

1. [Introduction](#Introduction)
2. [Préparation des données](#Préparation-des-données)
3. [Structure du réseau](#Structure-du-réseau)
4. [Apprentissage](#Apprentissage)
5. [Evaluation](#Evaluation)
6. [Exercice](#Exercice)

## Introduction

L'objectif de cet exercice est de créer un MLP pour prédire la présence ou l'absence de cancer du sein à partir de 9 paramètres physiologiques.   
Les données proviennent de la plateforme [kaggle](https://www.kaggle.com/).  
Le code est écrit avec la librairie open source [keras](https://keras.io/).

#### Structure des données
 
L'ensemble de données est un fichier ".csv" qui contient 10 colonnes de nombres réels : 
- Age (years)
- BMI (kg/m2)
- Glucose (mg/dL)
- Insulin (µU/mL)
- HOMA
- Leptin (ng/mL)
- Adiponectin (µg/mL)
- Resistin (ng/mL)
- MCP-1(pg/dL)  

La dernière colonne contient "1" pour l'absence de cancer et "2" pour la présence de cancer.   

## Prétraitement des données
- Lire les données (read_csv() de la librairie pandas)
- Encoder l'étiquette de classe
- Normaliser chaque paramètre sur [0-1]
- Mélanger les données (shuffle) 

In [None]:
import pandas as pd

data_read = pd.read_csv('../datasets/data_cancer.csv')
print(data_read.head())
print(data_read.columns.values.tolist())
print(f"Le fichier de données contient {data_read.shape[0]} échantillons et {data_read.shape[1]} ""paramètres")

In [None]:
import numpy as np

#### Séparation de la dernière colonne (contient l'étiquette) et étiquetage en 0 et 1

In [None]:
# Copy data in variable data (copy)
data = data_read.copy()

# Select last column as label (pop)
data_labels = data.pop('Classification')

# Convert into numpy array and substract 1 to have class 0 and class 1 
data_labels =...

print(np.shape(data_labels))
print(data.columns.values.tolist())

### Normalisation des données d'entrée
Alternative : les paramètres peuvent également être normalisés en ajoutant une couche de normalisation au réseau

In [None]:
# Normalise features
#for column in data.columns:
#    data[column] = (data[column] - data[column].min()) / (data[column].max() - data[column].min())

#### Conversion des données d'entrée en tableau :

In [None]:
# Convert into numpy array 
data_features = ...
print(np.shape(data_features), np.mean(data_features, axis=0), np.min(data_features), np.max(data_features))

#### Mélange des échantillons (shuffle)
Génère un tableau d'indices qui est ensuite appliqué à la fois aux paramètres (input) et aux étiquettes (output)

In [None]:
# Shuffle index
ind = np.arange(0, np.shape(data_features)[0])
np.random.shuffle(ind)

# Apply to data ;
data_features = data_features[ind]
data_labels = data_labels[ind]

#### Séparation  dataset into train / test sets: the first 80% are assigned to the train test, the other 20% to the test set.

In [None]:
# Separate train set and test set
# n_train : number of samples for train test
n_train = ...

x_train, x_test = data_features[0:n_train], data_features[n_train:-1]
y_train, y_test = data_labels[0:n_train], data_labels[n_train:-1]

## Structure du réseau
Le modèle est défini par ajout successif des couches. On peut commencer par une couche de normalisation si cela n'a pas été fait avant. Ensuite, on rajoute les couches successives en spécifiant le nombre de neurones et la fonction d'activation, typiquement  tanh, sigmoid ou relu. Etant donné qu'on est en classification binaire, la couche de sortie possède 1 seul neurone et la fonction d'activation est sigmoid.

model.add(Dense(N, activation='...'))  
où : 
- N est le nombre de neurones dans la couche
- activation spécifie le type de fonction d'activation  

Pour la première couche, on rajoute "input_shape=k", où k est le nombre de neurones en entrée du réseau.

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Normalization

layer_norm = Normalization()
layer_norm.adapt(x_train)

model = Sequential()
# add layers
# Couche de normalisation si la normalisation n'a pas été réalisée avant
model.add(...)
# Couches cachées
model.add(Dense(..., activation=.., input_dim=...))
model.add(...)
...
# Couche de sortie
model.add(...))


### Configuration complète
Une fois la structure définie, le modèle doit être complètement configuré en spécifiant la fonction de coût, la métrique et l'algorithme d'optimisation.  

On spécifie donc :
* la fonction de coût utilisée pour calculer l'erreur à rétropropager : loss='...' ; (ex ici : 'binary_crossentropy')
* l'algorithme d'optimisation : optimizer='...' (ex : 'adam', 'adamax', 'rmsprop', 'sgd')
* la liste des métriques évaluées à titre indicatif à chaque étape : metrics=['...'] (ex ici : 'accuracy', 'AUC') 

On peut ensuite vérifier avec summary() que le modèle est conforme à ce que l'on souhaite.

In [None]:
# Compilation
model.compile(...)

# Check the model
model.summary()

## Apprentissage
L'apprentissage est réalisé avec la fonction fit(...)  
On spécifie : 
* le tableau des données en entrée
* le tableau des données souhaitées en sortie
* le nombre d'époques epochs=...  (commencer avec une petite valeur)  

Facultatif :
* la proportion des données utilisées pour la validation validation_split=... (typiquement entre 0.1 et 0.4)
* la taille des batch batch=... (taille des paquets utilisés pour l'apprentissage ; typiquement 16, 32, 64)
* verbose= 0, 1 ou 2 en fonction de ce que l'on souhaite afficher au cours de l'apprentissage

In [None]:
# Learning step
history = model.fit(...) 

#### La fonction "draw_history" fournie dans utils.py permet de visualiser l'évolution de l'apprentissage.

In [None]:
from utils import draw_history

draw_history(history)

## Evaluation
L'évaluation finale est réalisée sur l'échantillon test. La fonction evaluate(...) donne le score global. La fonction predict(...) donne la prédiction échantillon par échnantillon.

In [None]:
score = model.evaluate(...)
print("The cost function on the test set is %.3f. The rate of correct prediction is %.2f"%(score[0], score[1]))


output_predict = model.predict(...)
for sample_predict, sample_true in zip(output_predict[0:5], y_test[0:5]):
    print(sample_predict, sample_true)

## Exercice

Votre travail consiste maintenant à modifier le réseau pour améliorer les résultats. Quelques pistes :
* ajouter des couches cachées
* modifier le nombre de neurones
* implanter des fonctions de régularisation type dropout
