# Atelier théorique #6 - **Préparation des données**

### Objectifs de cette leçon
1. Explorer les types de données dans un contexte de programmation
2. Se familiariser avec la préparation de données
3. Introduire les méthodes de transformation des données
4. Comprendre l'importance de préparer les données

Exemple de jeu de données avec tous les types de données :
https://www.kaggle.com/c/titanic-dataset/data?select=titanic_test.csv 

## Théorie : Types de données

On a déjà vu les types de données dans pandas dans les leçons précédentes. On va maintenant voir comment il est important de bien les interpréter dans un jeu de données avant de commencer à faire des analyses plus poussées.

> *Parfois, le type de données pré-défini pour une variable peut être erroné. Il faut donc l'ajuster manuellement.* 

In [None]:
# Créer un jeu de données exemple pour montrer les différents types de données
import numpy as np
import pandas as pd

myarray = np.array([[4, 2.90, 'hard', 'hard', 'cat', True], 
                    [8, 4.87, 'easy', 'easy', 'dog', True],
                    [18, 7.43, 'easy', 'easy','dog', False],
                    [10, 1.57, 'medium', 'medium', 'snake', True],
                    [3, 20.00, 'easy', 'easy', 'snake', False],
                    [5, 9.32, 'medium', 'medium', 'dog', True]])

colnames = ['num_discrete', 'num_continuous', 'cat_ordinal_1', 'cat_ordinal_2', 'cat_nominal', 'cat_binary']

data_types = pd.DataFrame(myarray, columns=colnames)

In [None]:
# Jeter un coup d'oeil au jeu de données
data_types.head(6)

Unnamed: 0,num_discrete,num_continuous,cat_ordinal_1,cat_ordinal_2,cat_nominal,cat_binary
0,4,2.9,hard,hard,cat,True
1,8,4.87,easy,easy,dog,True
2,18,7.43,easy,easy,dog,False
3,10,1.57,medium,medium,snake,True
4,3,20.0,easy,easy,snake,False
5,5,9.32,medium,medium,dog,True


In [None]:
# Extraire le type de données pour chaque variable
data_types.dtypes

num_discrete      object
num_continuous    object
cat_ordinal_1     object
cat_ordinal_2     object
cat_nominal       object
cat_binary        object
dtype: object

In [None]:
data_types.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   num_discrete    6 non-null      object
 1   num_continuous  6 non-null      object
 2   cat_ordinal_1   6 non-null      object
 3   cat_ordinal_2   6 non-null      object
 4   cat_nominal     6 non-null      object
 5   cat_binary      6 non-null      object
dtypes: object(6)
memory usage: 416.0+ bytes


In [None]:
# Convertir les variables au bon type de données lorsque nécessaire
data_types['num_discrete'] = data_types['num_discrete'].astype(dtype='int')
data_types['num_continuous'] = data_types['num_continuous'].astype(dtype='float')

In [None]:
# Extraire le type de données modifié pour chaque variable
data_types.dtypes

num_discrete        int64
num_continuous    float64
cat_ordinal_1      object
cat_ordinal_2      object
cat_nominal        object
cat_binary         object
dtype: object

In [None]:
data_types.head()

Unnamed: 0,num_discrete,num_continuous,cat_ordinal_1,cat_ordinal_2,cat_nominal,cat_binary
0,4,2.9,hard,hard,cat,True
1,8,4.87,easy,easy,dog,True
2,18,7.43,easy,easy,dog,False
3,10,1.57,medium,medium,snake,True
4,3,20.0,easy,easy,snake,False


### Encoder une variable binaire (boolean)

Dans notre cas, on a une variable boolean True ou False.

On peut donc remplacer True par 1 et False par 0.

In [None]:
data_types['cat_binary'] = data_types['cat_binary'].replace(['True', 'False'], [1, 0])

data_types.head(6)

Unnamed: 0,num_discrete,num_continuous,cat_ordinal_1,cat_ordinal_2,cat_nominal,cat_binary
0,4,2.9,hard,hard,cat,1
1,8,4.87,easy,easy,dog,1
2,18,7.43,easy,easy,dog,0
3,10,1.57,medium,medium,snake,1
4,3,20.0,easy,easy,snake,0
5,5,9.32,medium,medium,dog,1


### Encoder une variable catégorique ordinale

Utiliser un encodeur de variable de 0 à n-catégories (exemple avec `cat_ordinal`).
  * Faire attention : Un tel encodage fera en sorte que l'algorithme interprètera les données de façon ordonnée.

> **IMPORTANT** :
 Les catégories numériques associées aux étiquettes textuelles ne seront pas nécessairement dans le bon ordre.

In [None]:
# Utiliser une suite de nombre en partant de 0
from sklearn.preprocessing import LabelEncoder

# Activer l'encodeur de variable LabelEncoder
label_encoder = LabelEncoder()

data_types['cat_ordinal_1'] = label_encoder.fit_transform(data_types['cat_ordinal_1'])

data_types.head(6)

Unnamed: 0,num_discrete,num_continuous,cat_ordinal_1,cat_ordinal_2,cat_nominal,cat_binary
0,4,2.9,1,hard,cat,1
1,8,4.87,0,easy,dog,1
2,18,7.43,0,easy,dog,0
3,10,1.57,2,medium,snake,1
4,3,20.0,0,easy,snake,0
5,5,9.32,2,medium,dog,1


On voit ici que les valeurs dans la colonne cat_ordinal ne suit pas une logique étant easy=0, medium=1 et hard=2.

Il faut donc faire l'encodage manuellement.

In [None]:
data_types['cat_ordinal_2'] = data_types['cat_ordinal_2'].replace(['easy', 'medium', 'hard'], [0,1,2])

data_types.head(6)

Unnamed: 0,num_discrete,num_continuous,cat_ordinal_1,cat_ordinal_2,cat_nominal,cat_binary
0,4,2.9,1,2,cat,1
1,8,4.87,0,0,dog,1
2,18,7.43,0,0,dog,0
3,10,1.57,2,1,snake,1
4,3,20.0,0,0,snake,0
5,5,9.32,2,1,dog,1


### Encoder une variable catégorique nominale

Utiliser un encodeur "one-hot" (exemple avec `cat_nominal`).
  * Préférable pour éviter une interprétation ordonnée de la variable encodée.

In [None]:
# Utiliser un encodeur One Hot
data_types = pd.get_dummies(data_types, columns=['cat_nominal'])
data_types.head(6)

Unnamed: 0,num_discrete,num_continuous,cat_ordinal_1,cat_ordinal_2,cat_binary,cat_nominal_cat,cat_nominal_dog,cat_nominal_snake
0,4,2.9,1,2,1,1,0,0
1,8,4.87,0,0,1,0,1,0
2,18,7.43,0,0,0,0,1,0
3,10,1.57,2,1,1,0,0,1
4,3,20.0,0,0,0,0,0,1
5,5,9.32,2,1,1,0,1,0


## Pratique : Préparer l'environnement de travail

In [None]:
# Importer la librairie pandas
import pandas as pd

# Télécharger le jeu de données
data = pd.read_csv('diabetes.csv')

# Remplacer le nom des colonnes
colnames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data.columns = colnames

In [None]:
data.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
data.dtypes

preg       int64
plas       int64
pres       int64
skin       int64
test       int64
mass     float64
pedi     float64
age        int64
class      int64
dtype: object

## Application des méthodes de transformation

### 4 méthodes pour préparer des données numériques :
1. Redimensionner les données (rescale)
2. Standardiser les données (standardize)
3. Normaliser les données (normalize)
5. Binariser les données (binarize)

### Données pour exemple plus concret

Afin de visualiser un peu mieux le résultat de chacunes des méthodes, nous allons utiliser un array artificiel.

In [None]:
# Créer un array comme exemple
myarray = np.array([0, 25, 50, 75, 100])
print(myarray)

[  0  25  50  75 100]


In [None]:
# Transformer l'array pour en faire l'éuivalent d'une colonne
myarray = myarray.reshape(-1, 1)
print(myarray)

[[  0]
 [ 25]
 [ 50]
 [ 75]
 [100]]


## 6.0 Préparer des données numériques

Avant de pouvoir préparer les données, on doit les organiser en deux catégories:
1. Valeurs d'entrées
2. Valeurs de sortie

In [None]:
import numpy as np
from numpy import set_printoptions

In [None]:
# Transposer la table de données en array numpy
data_array = data.values

In [None]:
# Aperçu de la structure de la table de données
data_array.shape

(768, 9)

In [None]:
data.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
# Sélectionner les valeurs d'entrée (X)
X = data_array[:,0:8]
X.shape

(768, 8)

In [None]:
# Sélectionner les valeurs de sortie (Y)
Y = data_array[:,8]
Y.shape

(768,)

In [None]:
# Imprimer les valeurs brutes de X 
set_printoptions(precision=3, suppress=True)
print(data_array[0:5,:])

[[  6.    148.     72.     35.      0.     33.6     0.627  50.      1.   ]
 [  1.     85.     66.     29.      0.     26.6     0.351  31.      0.   ]
 [  8.    183.     64.      0.      0.     23.3     0.672  32.      1.   ]
 [  1.     89.     66.     23.     94.     28.1     0.167  21.      0.   ]
 [  0.    137.     40.     35.    168.     43.1     2.288  33.      1.   ]]


## 6.1 Redimensionner les données

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
# Exemple avec le array simple
minmax_scaler = MinMaxScaler(feature_range=(0, 1))
myarray_minmax = minmax_scaler.fit_transform(myarray)
print(f'myarray: \n {myarray} \n\n myarray_minmax: \n {myarray_minmax}')

myarray: 
 [[  0]
 [ 25]
 [ 50]
 [ 75]
 [100]] 

 myarray_minmax: 
 [[0.  ]
 [0.25]
 [0.5 ]
 [0.75]
 [1.  ]]


In [None]:
# Activer minmaxscaler avec un intervalle de 0 à 1
scaler = MinMaxScaler(feature_range=(0, 1))

# Transformer les données
X_scaled = scaler.fit_transform(X)

# Imprimer les valeurs d'entrée transformées (5 premières lignes seulement)
set_printoptions(precision=3)
print(X_scaled[0:5,:])

[[0.353 0.744 0.59  0.354 0.    0.501 0.234 0.483]
 [0.059 0.427 0.541 0.293 0.    0.396 0.117 0.167]
 [0.471 0.92  0.525 0.    0.    0.347 0.254 0.183]
 [0.059 0.447 0.541 0.232 0.111 0.419 0.038 0.   ]
 [0.    0.688 0.328 0.354 0.199 0.642 0.944 0.2  ]]


In [None]:
# Exemple avec diabetes

# Activer minmaxscaler avec un intervalle de 0 à 100
scaler = MinMaxScaler(feature_range=(0, 100))

# Transformer les données
X_scaled = scaler.fit_transform(X)

# Imprimer les valeurs d'entrée transformées (5 premières lignes seulement)
set_printoptions(precision=3)
print(X_scaled[0:5,:])

[[35.294 74.372 59.016 35.354  0.    50.075 23.442 48.333]
 [ 5.882 42.714 54.098 29.293  0.    39.642 11.657 16.667]
 [47.059 91.96  52.459  0.     0.    34.724 25.363 18.333]
 [ 5.882 44.724 54.098 23.232 11.111 41.878  3.8    0.   ]
 [ 0.    68.844 32.787 35.354 19.858 64.232 94.364 20.   ]]


## 6.2 Standardiser les données

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# Exemple avec le array simple
std_scaler = StandardScaler()
myarray_std = std_scaler.fit_transform(myarray)
print(f'myarray: \n {myarray} \n\n myarray_std: \n {myarray_std}')

myarray: 
 [[  0]
 [ 25]
 [ 50]
 [ 75]
 [100]] 

 myarray_std: 
 [[-1.414]
 [-0.707]
 [ 0.   ]
 [ 0.707]
 [ 1.414]]


In [None]:
# Exemple avec diabetes

# Activer standardscaler
scaler = StandardScaler()

# Transformer les données
X_scaled = scaler.fit_transform(X)

# Imprimer les valeurs d'entrée transformées (5 premières lignes seulement)
set_printoptions(precision=3)
print(X_scaled[0:5,:])

[[ 0.64   0.848  0.15   0.907 -0.693  0.204  0.468  1.426]
 [-0.845 -1.123 -0.161  0.531 -0.693 -0.684 -0.365 -0.191]
 [ 1.234  1.944 -0.264 -1.288 -0.693 -1.103  0.604 -0.106]
 [-0.845 -0.998 -0.161  0.155  0.123 -0.494 -0.921 -1.042]
 [-1.142  0.504 -1.505  0.907  0.766  1.41   5.485 -0.02 ]]


## 6.3 Normaliser les données

In [None]:
from sklearn.preprocessing import Normalizer

In [None]:
# Exemple avec le array simple
norm_scaler = Normalizer()
myarray_norm = norm_scaler.fit_transform(myarray)
print(f'myarray: \n {myarray} \n\n myarray_norm: \n {myarray_norm}')

myarray: 
 [[  0]
 [ 25]
 [ 50]
 [ 75]
 [100]] 

 myarray_norm: 
 [[0.]
 [1.]
 [1.]
 [1.]
 [1.]]


In [None]:
# Exemple avec diabetes

# Activer normalizer
scaler = Normalizer()

# Transformer les données
X_scaled = scaler.fit_transform(X)

# Imprimer les valeurs d'entrée transformées (5 premières lignes seulement)
set_printoptions(precision=3)
print(X_scaled[0:5,:])

[[0.034 0.828 0.403 0.196 0.    0.188 0.004 0.28 ]
 [0.008 0.716 0.556 0.244 0.    0.224 0.003 0.261]
 [0.04  0.924 0.323 0.    0.    0.118 0.003 0.162]
 [0.007 0.588 0.436 0.152 0.622 0.186 0.001 0.139]
 [0.    0.596 0.174 0.152 0.731 0.188 0.01  0.144]]


## 6.4 Binariser les données

In [None]:
from sklearn.preprocessing import Binarizer

In [None]:
# Exemple avec le array simple
bin_scaler = Binarizer(threshold=50)
myarray_bin = bin_scaler.fit_transform(myarray)
print(f'myarray: \n {myarray} \n\n myarray_bin: \n {myarray_bin}')

myarray: 
 [[  0]
 [ 25]
 [ 50]
 [ 75]
 [100]] 

 myarray_bin: 
 [[0]
 [0]
 [0]
 [1]
 [1]]


In [None]:
data.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
# Activer Binarizer avec un seuil de 0
scaler = Binarizer(threshold=0)

# Transformer les données
X_scaled = scaler.fit_transform(X)

# Imprimer les valeurs d'entrée transformées (5 premières lignes seulement)
set_printoptions(precision=3)
print(X_scaled[0:5,:])

[[1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 0. 0. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [0. 1. 1. 1. 1. 1. 1. 1.]]


In [None]:
# Exemple avec diabetes

# Activer Binarizer avec un seuil de 20
scaler = Binarizer(threshold=20)

# Transformer les données
X_scaled = scaler.fit_transform(X)

# Imprimer les valeurs d'entrée transformées (5 premières lignes seulement)
set_printoptions(precision=3)
print(X_scaled[0:5,:])

[[0. 1. 1. 1. 0. 1. 0. 1.]
 [0. 1. 1. 1. 0. 1. 0. 1.]
 [0. 1. 1. 0. 0. 1. 0. 1.]
 [0. 1. 1. 1. 1. 1. 0. 1.]
 [0. 1. 1. 1. 1. 1. 0. 1.]]


## **LEÇON #6 - EXERCICE CONTINU**

> *Utiliser votre notebook individuel `notebook_pratique_classification_binaire.ipynb`*

### Description
En utilisant le notebook pratique que vous avez commencer à utiliser durant la dernière leçon, accomplir les tâches énumérées ci-dessous.

> **Répondre aux questions dans une cellule de texte Markdown au fur et à mesure que vous progressez.**

> **Refaites rouler le code en entier avant de commencer cet exercice.** Utiliser le menu Exécution/Tout exécuter pour y parvenir.

## Tâches à accomplir :
1. Questions théoriques sur le jeu de données
  * **Question 1.1**: Y a-t-il des variables catégoriques dans le jeu de données? 
  * **Question 1.2**: Identifier le type de données pour chacune des variables.
2. Préparer les données de `banknotes` pour effectuer les transformations.
3. Appliquer au jeu de données `banknotes` les 4 méthodes de transformation vues dans cette leçon. Prenez bien soin de les nommer au fur et à mesure.
  * **Question 2.1** : En fonction de ce qu'on a vu dans les 2 dernières leçons (statistiques descriptives et visualisations), parmis les 4 transformations, y en a-t-il une qui vous paraît plus adéquate pour les données de `banknote`? Veuillez la nommer et expliquer votre réflexion en 1-2 phrases.
