
## Mini projet 1
# PRÉDICTION DE DIABÈTE : Préparation des données
## 1.	TRAVAIL À RÉALISER
Dans le cadre de ce mini projet, vous allez réaliser un programme complet s’appuyant sur les techniques du Deep Learning et du Data Mining vues en cours, en suivant les étapes de ce Notebook python.  
Pour ce faire, vous pouvez utiliser en local sur vos machines l'environnement _Jupyter Notebook_ distribué par _anaconda_, ou bien en ligne via [kaggle.com](http://kaggle.com).  
Il nous permettra d'aborder les premiers traitements de données nécessaires dans tous les problèmes issus du monde réel.  
L’objectif fondamental est de prédire si oui ou non un patient est atteint du diabète à partir de certains attributs : âge, nombre de grossesses, taux d’insuline, etc.  

_NB : la compétence à utiliser la langage Python n'est pas l'objectif de ce travail, même s'il va certainement vous permettre d'évoluer dans ce domaine. Nous vous conseillons la documentation officielle https://www.python.org/ et en particulier la description de sa syntaxe. Vous pouvez aisément connaître la version exécutée par votre plateforme grâce à la commande `print (sys.version)`_

_Sujet créé par Amine Chemchem_

>### Plan de réalisation
>Votre travail suivra les étapes suivantes qui sont fondamentales pour le traitement des données :
>1.	Effectuer un prétraitement pour uniformiser les données traitées ;
>2. Visualiser les données pour montrer le degré d’influence d’un attribut par rapport à la classe finale. Ceci est facilement réalisable grâce à _matplot.pyplot_ et _pyplot scatter_. (Voir la suite de ce notebook).  
>Réaliser plusieurs visualisations pour les variables de votre choix ;
>3. Choisir les variables d’entrainement par rapport à la variable cible ;
>4. Découper votre jeu de données en deux parties : entrainement et test ;
>5.	Mettre en œuvre l’algorithme d’apprentissage : arbre de décision. Calculer le taux de précision (accuracy) et son temps d’exécution. (Vous pouvez utiliser la bibliothèque python _sklearn_) ;
>6. (2ème TD) Mettre en œuvre l’algorithme d’apprentissage : KNN. Calculer le taux d'exactitude. <!-- (Sans utiliser la lib sklearn) -->;
>7. ((2ème TD)) Faire des comparaisons entre les deux approches knn et arbre de décision en taux d’accuracy ;
>8. (Question bonus) Complétez votre étude par des approches de votre choix telles que réseaux de neurones, SVM, ou autre...

>### Travail à rendre
>Un petit rapport reprenant vos remarques relatives aux codes proposés dans le sujet, ainsi que vos codes et commentaires à chacune des questions
>Envoi à mailto:eric.desjardin@univ-reims?Subject=DL


## 2.	À PROPOS DU JEUX DE DONNÉES
Cet ensemble de données provient d’une extraction fournie par un Institut du diabète. Vous pouvez le télécharger [d'ici](https://drive.google.com/file/d/1lrROnXEB5b55IznkdDKKCK9rZgOCuETK/view)
 , mais il est déjà présent dans la partie _Data_ de ce Notebook.  
L'objectif de cet ensemble est de construire un outil permettant de réaliser un diagnostic positif ou négatif de la présence d'un diabète chez un patient. 
Plusieurs contraintes ont été placées sur la sélection de ces instances dans la base de données d'origine (bien plus volumineuse). En particulier, tous les patients ici sont des femmes âgées d'au moins 21 ans.

Les ensembles de données comprennent plusieurs variables prédictives médicales et la variable cible « _Outcome_ » dont la valeur _1_ signifie que la patiente est diabétique et la valeur _0_ qu'il ne l'est pas.  
Les variables prédictives comprennent le nombre de grossesses que le patient a eues, son IMC, son taux d'insuline, son âge, etc.

Chaque ligne représente un patient et les colonnes sont :
-	_Grossesses_ : nombre de fois où la patiente a déjà été enceinte
-	_Glucose_ : concentration en glucose plasmatique 2 heures dans un test de tolérance au glucose par voie orale
-	_BloodPressure_ : pression artérielle diastolique (mm Hg)
-	_SkinThickness_ : épaisseur du pli cutané des triceps (mm)
-	_Insuline_ : insuline sérique de 2 heures (mu U / ml)
-	_IMC_ : indice de masse corporelle (poids en kg / (taille en m) ^ 2)
-	_DiabetesPedigreeFunction_ : Fonction pédigrée du diabète
-	_Age_ : age (ans)
-	_Outcome_ : Variable de classe dont les états sont soit 1 (diabète), soit 0 (non diabète).

# 3. Guide de réalisation du Projet
Nous allons maintenant mettre en oeuvre le plan de réalisation.

## Étape 1 : Lecture des données

Grâce à la bibliothèque '_pandas_', nous pouvons manipuler notre jeux de données : lire, écrire, stocker, visualiser, supprimer des lignes, des colonnes, créer des dataframes, etc.

In [None]:
# importer la lib pandas pour le traitement sur le jeux de données
import pandas as pd

### Documentation Pandas
Consulter le lien https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html pour rechercher les informations sur les fonctionnalités présentes dans le code ci-dessous :


In [None]:
# read the csv-formatted data file into a pandas dataframe
df=pd.read_csv('../input/diabetes.csv')
# get shape of data frame
print('Shape (n_rows,n_columns) of dataframe:',df.shape)
# print top 5 rows (default) of the data frame
df.head()

## Manipuler le jeux de données en utilisant quelques commandes de Pandas 

### Sélection d'une (ou plusieurs) colonne(s) comme un nouveau dataframe et affichage uniquement les 5 premières lignes.


In [None]:
df2=df[['Outcome','Pregnancies','Insulin']].head()
df2

In [None]:
df3=df[['Age']].head()
df3

### Sélection des données qui satisfont une condition, et calcul de leur nombre.


In [None]:
# Le premier élément est le nombre de lignes, le second est celui de colonnes:
print(df[df.BMI>30].shape) 
# le premier élément (nbr lignes) a pour indice 0, le second (nbr colonnes) 1.
print('The number of rows where BMI>30 = ',df[df.BMI>30].shape[0]) 

In [None]:
# A nouveau les 5 premiers enregistrements
df[df.BMI<10].head()

In [None]:
# On peut observer le comportement par défaut avec cette commande :
df.BMI>30

## Exercice 1
### Question 1.1
1. Faire une sélection des données pour lesquelles le glucose est supérieur à 90, _puis en_
1. Sélectionner uniquement les colonnes: Outcome, BMI, and Age, _puis en_ 
1. Sélectionner uniquement les 8 premières lignes.

<!-- df[df.Glucose>90][["Outcome","BMI","Age"]].head(8) -->

### Question 1.2
1. Faire une sélection des enregistrements où le glucose est entre 90 et 130, _puis en_
1. Sélectionner uniquement les colonnes: Outcome, BMI, and Age, _puis en_
1. Sélectionner uniquement les 6 premières lignes.

<!-- df[(df.Glucose>90)&(df.Glucose<130)][["Outcome","BMI","Age"]].head(6) -->

In [None]:
# Votre code ici

### Question 1.3
1. Sélectionner les données qui ont Outcome = 1 et Pregnancies>0, _puis_
1. Se restreindre aux seules colonnes Glucose et BloodPressure, _puis_
1. Se restreindre aux 3 premieres lignes du dataframe résultant.
<!--
df[ (df.Outcome==1) & (df.Pregnancies>0) ] [ ["Glucose","BloodPressure"] ] . head(3)
-->

### Question 1.4 

Dans ce jeux de données, combien de personnes présentant un diabète ont une tension artérielle supérieur à 70 ?
<!-- 
  df[ (df.Outcome==1) & (df.BloodPressure>70)] . count()
-->

In [None]:
# Votre code ici


### Savoir si notre jeux de données possède des champs vides (non renseignés) ?

In [None]:
# Nombre de cellules nulles (non renseignées) par colonnes
df.isnull().sum()

In [None]:
# Nombre de cellules non nulles (donc renseignées) par colonnes
df.notnull().sum()

### Afficher la liste des colonnes

In [None]:
df.columns

### Afficher le type de données des colonnes 

In [None]:
df.dtypes

### Avoir un résumé statistique de notre Dataframe

In [None]:
df.describe()

Notez que le "nombre" de valeurs pour chaque colonne est le même que le nombre de lignes dans le bloc de données. Cela signifie qu'il n'y a pas de valeurs manquantes (NULL).

### Combien y a-t-il de diagnostics ?

In [None]:
df.Outcome.value_counts()
#df.Insulin.value_counts()

### Quelle est la moyenne de l'épaisseur de la peau des patientes dont le diagnostic est le diabète  ?

In [None]:
# Il y a plein de manière d'écrire cette commande
df[df.Outcome==1].SkinThickness.mean()

In [None]:
# Ou
df[df["Outcome"]==1].SkinThickness.mean()

In [None]:
# Ou encore...
df[df["Outcome"]==1]["SkinThickness"].mean()

In [None]:
# Et pour jouer : mais encore...


### Question 1.5
Quel est le maximum du "_BMI_" lorsque la patiente n'est pas atteinte par le diabète ?
<!-- df[df["Outcome"]==0].BMI.max() -->

## Étape  2 : Visualisation des données

La visualisation des données est une étape très importante dans l'analyse des données.  
_NB : Consultez ce lien pour la documentation de Matplot Scatter:   https://matplotlib.org/gallery/index.html_

In [None]:
# get a plotting library
import matplotlib.pyplot as plt
# make it interactive in the notebook (Only needed for that librairy)
%matplotlib inline 

Première analyse visuelle par des  diagrammes de dispersion (scatter plot)

In [None]:
# plot Glucose vs BloodPressure and color points according to Outcome
plt.figure()
plt.scatter(df[df.Outcome==1].BloodPressure,df[df.Outcome==1].Glucose,label='Diabete',color='r', marker="o",s=5)
plt.scatter(df[df.Outcome==0].BloodPressure,df[df.Outcome==0].Glucose,label='No Diabete',color='b',marker="x",s=5)
plt.legend()
plt.xlabel('BloodPressure')
plt.ylabel('Glucose')

Remarquez qu'on peut constater que plus le taux de glucose est élevé, plus l'enregistrement est associé à un diabète (résultat = 1, points rouges), tandis que plus il est bas, et plus il est associé à l'absence du diabète (résultat = 0, points bleus).

Notez également qu'il y a un ensemble de points de valeur 0 pour _Glucose_ et un autre de valeur 0 pour _BloodPressure._ Cela n'a pas de sens physiologiquement (les patientes seraient mortes). Il semble dont que ces données ont été remplies avec 0 alors que la valeur aurait dû être _NULL_.  
Vérifions combien de zéros apparaissent dans chaque colonne.

In [None]:
# Récupération du plus long nom de colonne
dimension = max( [ len(c) for c in df.columns ] )

# Pour chacune des colonnes (plus exactement : Pour chacun des noms de colonne)
for c in df.columns:
    # Version basique : print('For column',c,' there are',df[df[c]==0][c].count(),'zero values.')
    # ou d'une manière plus riche visuellement
    print(
        'Pour l\'attribut {quoi!r:<{dim}} il y a {combien:>4} valeurs 0.' 
        .format(
            quoi=c,
            combien=df[df[c]==0][c].count(),
            dim=dimension+2)
    )


Pour certaines de ces colonnes, 0 a un sens, comme pour le nombre de grossesses (_Pregnancies_) ou  le résultat (_Outcome_). Mais pour d'autres colonnes, comme _BloodPressure_ ou _BMI_, zéro n'a absolument aucun sens.  
Examinons de plus près les données en dessinant un histogramme des valeurs pour chaque colonne.

In [None]:
# Pour chacun des attributs
for c in df.columns:
    plt.figure()               # On construit un nouveau dessin
    plt.hist(df[c],bins=15)    # On regroupe les valeurs de la colonne 'c' par plage de largeur 15
    plt.xlabel(c)              # On donne le nom de l'attribut pour l'abscisse
    plt.ylabel('Fréquence')    # On nomme l'axe des ordonnées "Fréquence"
    plt.show()                 # On demande l'affichage

À partir de ces histogrammes, il semble que bon nombre de valeurs à 0 sont en effet des données dont la valeur manquait et qui auraient dû être étiquetées NULL. Elles devront être prises en compte avant que nous formions un modèle pour classer les données.

De plus, nous pouvons remarquer que la colonne _Insuline_ n'a que 374 valeurs renseignées (sur un total de 768 lignes), soit presque 50% des valeurs sont des 0.

Dans l'étape 3 où nous traiterons les cas d'inconsistance des données, nous supprimerons la colonne d'insuline, car beaucoup de ses valeurs sont manquantes.  Ensuite, nous remplacerons les zéros dans les colonnes où zéro n'a pas de sens. Nous ferons le choix d'utiliser la moyenne des valeurs non nulles dans chaque colonne pour remplacer ces valeurs nulles.

_NB : il ne faudra pas oublier lors de l'analyse finale des résultats de vérifier que ces hypothèses sont pertinentes (valides) sous peine d'avoir introduit des biais ou des erreurs importantes. Une connaissance experte du domaine est alors très souvent nécessaire._


### EXERCISE 2 : 

En vous appuyant sur les 2 exemples de code ci-dessous, inspecter chacune des caractéristiques. Vous recherchez en particulier une caractéristique dont un seuil permettrait de scinder efficacement l'ensemble de enregistrements en 'Diabète' et 'Non diabète'.

#### Visualisation des nuages de points/graphes de dispersion.

In [None]:
# Exemple 1 : Visualisation de liaison entre Sucre et Pression artérielle 
#             pour les patientes diabétiques en utilisant un ScatterPlot
plt.figure
for c in df.columns:
    plt.scatter(
        df[df.Outcome==1].BloodPressure,
        df[df.Outcome==1].Glucose,
        label='Diabete',
        color='r',
        s=3
    )
    plt.xlabel("Pression sanguine")
    plt.ylabel("Sucre")



#### Superposition d'histogrammes

In [None]:
# Exemple 2 : superposition des histogrammes de l'Age en fonction du diabète
plt.figure()
plt.hist(df[df.Outcome==1]['Age'],bins=15,label='Diabetes',color='r',alpha=0.2)
plt.hist(df[df.Outcome==0]['Age'],bins=15,label='No Diabetes',color='b',alpha=0.2)
plt.xlabel('Age')
plt.ylabel('Frequence')
plt.legend()
plt.show()

### Question 2.1
Choisir la colonne (l'attribut) qui, pour vous, maximise pour vous visuellement l'efficacité de la séparation.  Vous expliciterez votre démarche.

### Question 2.2
En vous inspirant du code ci-dessous, où l'on fait l'hypothèse que l'âge est l'attribut discriminant avec un seuil à 30 ans, calculer le degré d'exactitude de votre classificateur ?
_NB : Pour la documentation sur Numpy visitez le lien : https://docs.scipy.org/doc/numpy/user/quickstart.html_


In [None]:
import numpy as np
# create a new column in the data frame with the predicted outcome based on your split 
#   (here, Age<30 means outcome=0, otherwise outcome=1)
df['PredictedOutcome']=np.where(df.Age<100,0,1)
# calculate accuracy
N_correct=df[df.PredictedOutcome==df.Outcome].shape[0]
N_total=df.shape[0]
accuracy=N_correct/N_total
print('number of correct examples =',N_correct)
print('number of examples in total =',N_total)
print('accuracy =',accuracy)

In [None]:
# Votre code ici


Il existe de nombreuses mesures pour calculer la qualité d'un classificateur. (Vous pouvez faire une petite recherche sur le sujet et l'ajouter dans votre rapport - sinon, voir étape 5).

## Étape 3 :
  La préparation des données pour le traitement se divise en 2 sous-étapes : 
  1. Correction de l'ensemble initial ;
      - Nous avons remarqué que le colonne _Insuline_ était insuffisamment renseignée et nous allons la retirer
      - Certaines valeurs à 0 doivent(/peuvent) être remplacées par la moyenne
  1. Division de l'ensemble de données en un ensemble d'entrainement et un ensemble de test (TRAIN/TEST)


#### Retrait des données non pertinentes ou incorrectes

In [None]:
# Retrait physique de la colonne _Insulin_ (axis=1 signifie par son nom)
donnees = df
donnees.drop('Insulin',axis=1,inplace=True)
# où l'on voit bien que l'objet 'donnees' est bien le même objet que 'df' !!!
df.columns


#### Création des sous-ensemble d'entrainement et de test
On réalise ce découpage avant le remplacement de valeur afin de pouvoir utiliser les statistiques de chacun de ces ensembles.


In [None]:
# Avec la fonction train_test_split de sklearn on peut facilement diviser notre dataframe
# en ensembles train/test 
import sklearn
from sklearn.model_selection import train_test_split
# 0,3 pour préciser que 30% seront pour l'ensemble de test et 70% pour l'entrainement
train, test = train_test_split(donnees, test_size = 0.3, random_state = 0) 

# Visualisaton des ensembles
train.describe()

#### Traitement des valeurs manquantes

In [None]:
# La bibliothèque numpy offre plusieurs fonctions très utiles. Par exemple, elle nous permet de créer une nouvelle colonne dans notre
# dataframe si une condition est satisfaite
import numpy as np

def imputeColumns(dataset):
    """ Pour chacune des colonnes du dataset,
        mise à jour des valeurs à zero par la moyenne de ses valeurs non nulles.
    """
    # liste des colonnes qui seront traitées
    columnsToImpute=['Glucose', 'BloodPressure', 'SkinThickness','BMI']

    for c in columnsToImpute:
        avgOfCol=dataset[dataset[c]>0][[c]].mean()
        dataset[c+'_imputed']=np.where(dataset[[c]]!=0,dataset[[c]],avgOfCol)
#        dataset[c]=np.where(dataset[[c]]!=0,dataset[[c]],avgOfCol)

imputeColumns(train)
imputeColumns(test)
# check that we've imputed the 0 values  
train[['Glucose','Glucose_imputed']].head()

In [None]:
# Réécrivez (par réflexion et non copiage direct) ce code par vous-même :


## Étape 4:  
Extraction des attributs d'entrèe , et l'attribut cible

In [None]:
# Construction des sous-ensembles Entrée (X) et Sortie (Y) 
X_train = train[['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness','BMI', 'DiabetesPedigreeFunction', 'Age']]
Y_train = train[['Outcome']]
X_test = test[['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'BMI', 'DiabetesPedigreeFunction', 'Age']]
Y_test = test[['Outcome']]

# Exemple d'affichage
X_train.columns


### EXERCISE 4 : Vérifier les ensembles d'apprentissage et de test

### Question 4.1  : 
Vérifier succinctement que les deux ensembles ont des statistiques équivalentes
<!-- train.describe() -->
<!-- test.describe() -->

In [None]:
# Comparaison des statistiques des 2 ensembles Train et Test


## Étape 5:
# La classification avec les arbres de decision

Nous allons voir un exemple de mise en oeuvre d'un classificateur 'arbre de décision' pour le problème du diabète. L'objectif est de prédire sur la base de mesures diagnostiques si un patient est atteint de diabète ou non.

Nous construisons un modèle qui va faire des prédictions, nous devons donc trouver un moyen d'évaluer la qualité de ces prédictions . Étant donné que les prédictions par définition ne concernent que des données inédites, nous ne pouvons pas dépendre des données utilisées pour évaluer le modèle. Nous avons pour cela  diviser le jeu de données en deux parties non croisées.  
_NB : nous utiliserons la bibliothèque http://scikit-learn.org/stable/_ ; en particulier [les arbres de décision](http://scikit-learn.org/stable/modules/tree.html#tree)

In [None]:
Y_train.describe()

In [None]:
Y_test.describe()

 Nous utilisons l'ensemble d'entrainement pour construire notre modèle pour les arbres de decision. Puis on va évaluer son score sur l'ensemble de test. 

In [None]:
from sklearn import tree

# Create the classifier
mon_arbre_de_decision = tree.DecisionTreeClassifier(random_state = 0)

# Train the classifier on the training set
mon_arbre_de_decision.fit(X_train, Y_train)

# Evaluate the classifier on the testing set using classification accuracy
mon_arbre_de_decision.score(X_test, Y_test)

#### Visualisation de l'arbre

In [None]:
import graphviz
resultat_visuel = tree.export_graphviz(mon_arbre_de_decision, out_file=None)
graph = graphviz.Source(resultat_visuel)
graph
                             
#dot_data = export_graphviz(mon_arbre_de_decision, out_file=None)

### EXERCISE 5 : Calcul d'indicateurs de classification

### Question 5.1  : 
Calculer les pourcentages de couples VV, VF, FV, FF sur respectivement les ensembles de test et d'entrainement (d'apprentissage) où : 
- V(rai) et F(aux) représente l'appartenance à la classe "est sujette au diabète", 
- La première position correspond à l'estimation et la deuxième à la classe réelle

In [None]:
# Votre code ici

### Question 5.2 : 
Calculer les indices de Jaccard <http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard> et de Dice <https://fr.wikipedia.org/wiki/Mesure_de_similarit%C3%A9>

In [None]:
# Votre code ici

### Question 5.3 : 
Proposer un nouvel échantillon et évaluer sa classification (fonctionnalité `predict`)

In [None]:
### Votre code ici
# exemple = [[ 5,12,20.0, 12,5,123,1]]
# mon_arbre_de_decision.predict(exemple)

### Maintenant à vous de jouer 
Compléter votre travail en suivant l énoncé des étapes 6, 7 et 8 énoncées en introduction.