# 2CSSID-TP01. Prétraitement

- Nom : ABCHICHE
- Prénom : Sarah

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
from typing import Tuple

## I. Réalisation des algorithmes

Cette partie sert à améliorer la compréhension des algorithmes de préparation de données vus en
cours en les implémentant à partir de zéro. Pour ce faire, on va utiliser la bibliothèque numpy qui
est utile dans les calcules surtout matricielles.

### I.1. Normalisation

Ici, on va réaliser les deux fonctions de nomalisation : standard et min-max.
On va prendre une matrice $X[N, M]$ de $N$ échantillons et $M$ colonnes.
La normalisation standard d'une colonne $j$ peut être décrite comme : 
$$standard(X_j) = \frac{X_j - \mu(X_j)}{\sigma(X_j)}$$
La nomalisation min-max d'une colonne $j$ peut être décrite comme : 
$$minmax(X_j) = \frac{X_j - min(X_j)}{max(X_j) - min(X_j)}$$


In [4]:
# TODO compléter la standardisation d'une matrice
# Entrée : la matrice des données (N échantillons X  M caractéristiques)
# Sortie : vecteur de M moyennes, vecteur de M écart-types, une matrice normalisée
def norm_std(X: np.ndarray) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
    moy = X.mean(0)
    std = np.std(X, axis = 0)
    X_new = (X - moy) / std
    return moy, std, X_new


#=====================================================================
# TEST UNITAIRE
#=====================================================================
# (array([4. , 3. , 0.5]),
#  array([1.87082869, 2.        , 0.5       ]),
#  array([[ 1.60356745,  1.        , -1.        ],
#         [-1.06904497, -1.        ,  1.        ],
#         [-0.53452248,  1.        , -1.        ],
#         [ 0.        , -1.        ,  1.        ]]))
#---------------------------------------------------------------------

X = np.array([
    [7, 5, 0],
    [2, 1, 1],
    [3, 5, 0],
    [4, 1, 1],
])

norm_std(X)

(array([4. , 3. , 0.5]),
 array([1.87082869, 2.        , 0.5       ]),
 array([[ 1.60356745,  1.        , -1.        ],
        [-1.06904497, -1.        ,  1.        ],
        [-0.53452248,  1.        , -1.        ],
        [ 0.        , -1.        ,  1.        ]]))

In [5]:
# TODO compléter la standardisation d'une matrice
# Entrée : la matrice des données (N échantillons X  M caractéristiques)
# Sortie : vecteur de M max, vecteur de M min, une matrice normalisée
def norm_minmax(X: np.ndarray) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
    mx = X.max(axis = 0)
    mn = X.min(axis = 0)
    X_new = (X  - mn) / (mx - mn)
    return mx, mn, X_new

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# (array([7, 5, 1]),
#  array([2, 1, 0]),
#  array([[1. , 1. , 0. ],
#         [0. , 0. , 1. ],
#         [0.2, 1. , 0. ],
#         [0.4, 0. , 1. ]]))
#---------------------------------------------------------------------

X = np.array([
    [7, 5, 0],
    [2, 1, 1],
    [3, 5, 0],
    [4, 1, 1],
])

norm_minmax(X)

(array([7, 5, 1]),
 array([2, 1, 0]),
 array([[1. , 1. , 0. ],
        [0. , 0. , 1. ],
        [0.2, 1. , 0. ],
        [0.4, 0. , 1. ]]))

### I.2. Encodage One-Hot

Etant donné un vecteur $A[N]$ représentant une caractéristique nominale donnée, on veut encoder les valeurs en utilisant One-Hot. Pour faciliter la tâche, on vous donne l'algorithme détaillé : 
1. Trouver les valeurs uniques dans le vecteur $A$ ; on appele ça : un vocabulaire $V$
1. Créer une matrice $X[N, |V|] en recopiant le vecteur $V$ $N$ fois. Dans python, on peut recopier un vecteur en utilisant l'instruction : [V] * N
1. Comparer l'égalité entre chaque ligne de $A$ et chaque ligne (qui est un vecteur) de $X$.
1. Transformer les booléens vers des entiers

In [15]:
# TODO compléter l'encodage One-Hot
# Entrée : un vecteur d'une caractéristique (N échantillons)
# Sortie : vecteur du vocabulaire V, matrice N X |V|
def one_hot(A: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
    V = np.unique(A)
    X =  np.transpose([A == v for v in V]).astype(int)
    return V, X

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# (array(['COLD', 'HOT', 'MILD'], dtype='<U4'),
#  array([[0, 1, 0],
#         [0, 0, 1],
#         [1, 0, 0],
#         [0, 1, 0],
#         [0, 0, 1]]))
#---------------------------------------------------------------------

A = np.array(['HOT', 'MILD', 'COLD', 'HOT', 'MILD'])
one_hot(A)

(array(['COLD', 'HOT', 'MILD'], dtype='<U4'),
 array([[0, 1, 0],
        [0, 0, 1],
        [1, 0, 0],
        [0, 1, 0],
        [0, 0, 1]]))

### I.3. Binarisation

Etant donné un vecteur $A[N]$ représentant une caractéristique numérique donnée, on veut encoder les valeurs en 0 ou 1 selon un seuil $s$.
La binarization d'un élément $A_i$ est donnée par :
$$A_i' = \begin{cases}
1 & \text{si } A_i \ge s\\
0 & \text{sinon}\\
\end{cases}$$

In [18]:
# TODO compléter la binarisation
# Entrée : un vecteur d'une caractéristique (N échantillons), un nombre
# Sortie : un vecteur binarisé (N échantillons)
def bin(A: np.ndarray, seuil: float) -> np.ndarray:
    B = (A >= seuil).astype('int')
    return B

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# array([1, 0, 0, 0, 1, 1])
#---------------------------------------------------------------------

A = np.array([5, 2, 1, -1, 6, 4])

bin(A, 4)

array([1, 0, 0, 0, 1, 1])

## II. Application et analyse

Cette partie sert à appliquer les algorithmes, modifier les paramètres et analyser les résultats.

### II.1. Lecture des données

On va lire 4 fichiers : 
- un fichier CSV avec des colonnes séparées par des virgules
- un fichier CSV avec des colonnes séparées par des point-virgules
- un fichier Sqlite 
- un fichier XML

In [39]:
adult1 = pd.read_csv("data/adult1.csv", skipinitialspace=True)
adult1.head(10)

Unnamed: 0,age,workclass,education,Marital-status,occupation,sex,Hours-per-week,class
0,39.0,State-gov,Bachelors,Never-married,Adm-clerical,Male,40,<=50K
1,50.0,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Male,13,<=50K
2,38.0,Private,HS-grad,Divorced,Handlers-cleaners,Male,40,<=50K
3,53.0,Private,11th,,Handlers-cleaners,Male,40,<=50K
4,28.0,Private,Bachelors,Married-civ-spouse,Prof-specialty,Female,40,<=50K
5,37.0,Private,Masters,Married-civ-spouse,Exec-managerial,Female,40,<=50K
6,49.0,Private,9th,Married-spouse-absent,Other-service,Female,16,<=50K
7,52.0,Self-emp-not-inc,HS-grad,Married-civ-spouse,Exec-managerial,Male,45,>50K
8,31.0,Private,Masters,Never-married,Prof-specialty,Female,50,>50K
9,42.0,Private,Bachelors,Married-civ-spouse,Exec-managerial,Male,40,>50K


In [40]:
noms = ["class", "age", "sex", "workclass", "education", "hours-per-week", "marital-status"]
adult2 = pd.read_csv("data/adult2.csv", skipinitialspace=True, sep=";", header=None, names=noms)
adult2.head(10)

Unnamed: 0,class,age,sex,workclass,education,hours-per-week,marital-status
0,N,25,F,Private,Some-college,40,Married-civ-spouse
1,N,18,F,Private,HS-grad,30,Never-married
2,Y,47,F,"Private, Prof-school",60,Married-civ-spouse,
3,Y,50,M,Federal-gov,Bachelors,55,Divorced
4,N,47,M,Self-emp-inc,HS-grad,60,Divorced
5,Y,43,M,Private,Some-college,40,Married-civ-spouse
6,N,46,M,Private,5th-6th,40,Married-civ-spouse
7,N,35,M,Private,Assoc-voc,40,Married-civ-spouse
8,N,41,M,Private,HS-grad,48,Married-civ-spouse
9,"N,30",M,"Private, HS-grad",40,Married-civ-spouse,,


In [41]:
import sqlite3
#établir la connexion avec la base de données
con = sqlite3.connect("data/adult3.db")
#récupérer le résultat d'une réquête SQL sur cette connexion
adult3 = pd.read_sql_query("SELECT * FROM income", con)

#remplacer les valeurs "?" par NaN de numpy
adult3 = adult3.replace('?', np.nan)

adult3.head(10)

Unnamed: 0,num,age,workclass,education,marital-status,sex,hours-per-day,class
0,1,76,Private,Masters,married,M,8.0,Y
1,2,44,Private,Bachelors,married,M,12.0,Y
2,3,47,Self-emp-not-inc,Masters,single,F,10.0,N
3,4,20,Private,Some-college,single,F,8.0,N
4,5,29,Private,HS-grad,single,M,8.0,N
5,6,32,Self-emp-inc,HS-grad,married,M,8.0,Y
6,7,17,,10th,single,F,6.4,N
7,8,30,Private,11th,single,M,8.0,N
8,9,31,Local-gov,HS-grad,single,F,8.0,N
9,10,42,Private,HS-grad,married,M,8.0,N


In [42]:
from lxml import etree
#créer le parser et spécifier qu'il doit valider le DTD
parser = etree.XMLParser(dtd_validation=True)
#analyser le fichier XML en utilisant ce parser
arbre = etree.parse("data/adult4.xml", parser)

def valeur_noeud(noeud):
    return noeud.text if noeud is not None else np.nan

noms2 = ["id", "age", "workclass", "education", "marital-status", "sex", "hours-per-week", "class"]
adult4 = pd.DataFrame(columns=noms2)

for candidat in arbre.getroot():
    idi = candidat.get("id")
    age = valeur_noeud(candidat.find("age"))
    workclass = valeur_noeud(candidat.find("workclass"))
    education = valeur_noeud(candidat.find("education"))
    marital = valeur_noeud(candidat.find("marital-status"))
    sex = valeur_noeud(candidat.find("sex"))
    hours = valeur_noeud(candidat.find("hours-per-week"))
    klass = valeur_noeud(candidat.find("class"))

    adult4 = adult4.append(
        pd.Series([idi, age, workclass, education, marital, sex, hours, klass],
        index=noms2), ignore_index=True)
adult4.head(10)

Unnamed: 0,id,age,workclass,education,marital-status,sex,hours-per-week,class
0,52,47,Local-gov,Some-college,divorced,F,38,N
1,53,34,Private,HS-grad,single,F,40,N
2,54,33,Private,Bachelors,single,F,40,N
3,55,21,Private,HS-grad,single,M,35,N
4,56,52,,HS-grad,divorced,M,45,Y
5,57,48,Private,HS-grad,married,M,46,N
6,58,23,Private,Bachelors,single,M,40,N
7,59,71,Self-emp-not-inc,Some-college,divorced,M,2,N
8,60,29,Private,HS-grad,divorced,M,60,N
9,61,42,Private,Bachelors,divorced,M,50,N


**TODO: Analyse** 
- Que remarquez-vous concernant l'ordre, le nombre et les noms des caractéristiques dans les 4 datasets ?
- Que remarquez-vous à propos des valeurs dans les 4 tables ?

**Réponse**
-  Le premier dataset contient 8 caractéristiques :
age de type entier.
workclass: Private, Self-emp-not-inc, State-gov
education: Bachelors, Some-college, HS-grad. 
Marital-status: Never-married, Married-civ-spouse, Divorced, Married-spouse-absent .
occupation: Adm-clerical, Exec-managerial, Handlers-cleaners, Prof-specialty, Other-service
sex: Female, Male.
Hours-per-week: entier.
class: <=50K, >50K
Les données sont ordonnées par la class en commencant par la class <=50k
On remarque la presence d'une valeur NaN au niveau de la ligne 3, ( martial-status manquant )


- Concernant le 2eme dataset :
Contient 7 caractériqtiques
class, age, sex, workclass, education, hours-per-week, martial-status
On remarque qu'il existe des valeurs avec séparation par virgules qui a conduit à un décalage des valeurs (incoherence)
On remarque la presence de valeur NaN
les donnees sont ordonnees par le sex


- Le 3eme dataset contient 8 classes : 
les données sont ordonnées selon num
les valeurs de la table sont toutes presentes et coherentes

- La 4eme table contient 8 classes
les données sont ordonnées par le id et le sex
On remarque au niveau de la ligne 7 que la valeur de hours-per-week est de 2 qui semble incohérent e par rapport au autres valeurs de la colonne 

### II.2. Intégration des données

Dans cette section, on va appliquer des opérations sur les différentes tables. Vous devez à chaque fois figurer ce qu'on a fait et pourquoi.

In [43]:
# Afficher les noms des colonnes de adult3
list(adult3.columns)

['num',
 'age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-day',
 'class']

In [44]:
adult3.rename(columns={"num": "id", "hours-per-day": "hours-per-week"}, inplace=True)
adult1.rename(columns={"Hours-per-week": "hours-per-week", "Marital-status": "marital-status"}, inplace=True)

# Afficher les noms des colonnes de adult3
list(adult3.columns)

['id',
 'age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class']

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)
- Est-ce qu'en appliquant cette opération, on aura certains problèmes ?

**Réponse**
- L'operation effectuée est le renommage des caractéristiques
- Pour des soucis d'homogéneité entre les 4 tables : 
adult3.num sera adult3.id, pour être homogène avec adult4.id
adult3.hours-per-day sera adult3.hours-per-week pour être homogène avec les autres schémas. 
adult1.Hours-per-week sera adult1.hours-per-week (un problème de majuscule)
adult1.Marital-status sera adult1.marital-status (un problème de majuscule)

- On peut faire face à de la redonndance spécialement au niveau de adult3 et adult4 par rapport à num et id respectivement

In [45]:
ordre = ["age", "workclass", "education", "marital-status", "sex", "hours-per-week", "class"]
adult1 = adult1.reindex(ordre + ["occupation"], axis=1)
#print adult1.head()
adult2 = adult2.reindex(ordre, axis=1)
adult3 = adult3.reindex(ordre + ["id"], axis=1)
adult4 = adult4.reindex(ordre + ["id"], axis=1)

# Afficher les noms des colonnes de adult3
list(adult3.columns)

['age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class',
 'id']

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Réorganisation de l'ordre des caractéristiques dans les tableaux.
- Les schémas des 4 fichiers sont différents, pour les fusionner on commence par reorganiser l'ordre des classes

In [46]:
# Afficher les deux premières lignes de la table adult3
adult3.head(2)

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
0,76,Private,Masters,married,M,8.0,Y,1
1,44,Private,Bachelors,married,M,12.0,Y,2


In [47]:
adult3["hours-per-week"] *= 5

# Afficher les deux premières lignes de la table adult3
adult3.head(2)

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
0,76,Private,Masters,married,M,40.0,Y,1
1,44,Private,Bachelors,married,M,60.0,Y,2


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Conversion de hours-per-day en hours-per-week
- Problème d'échelle : on a modifié adult3.hours-per-day par hours-per-week, le sens des valeurs a changé donc on devait les convertir 

In [50]:
adult34 = pd.concat([adult3, adult4], ignore_index=True)
adult34.head(10)

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
0,76,Private,Masters,married,M,40,Y,1
1,44,Private,Bachelors,married,M,60,Y,2
2,47,Self-emp-not-inc,Masters,single,F,50,N,3
3,20,Private,Some-college,single,F,40,N,4
4,29,Private,HS-grad,single,M,40,N,5
5,32,Self-emp-inc,HS-grad,married,M,40,Y,6
6,17,,10th,single,F,32,N,7
7,30,Private,11th,single,M,40,N,8
8,31,Local-gov,HS-grad,single,F,40,N,9
9,42,Private,HS-grad,married,M,40,N,10


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Fusion de adult3 et adult4
- Les tables "adult3" et "adult4" contiennent des enregistrements avec le même "id

In [51]:
# Transformer le champs "id" à un entier
adult34["id"] = pd.to_numeric(adult34["id"], downcast="integer")
# Ordonner la table en se basant sur les valeurs de "id"
adult34 = adult34.sort_values(by="id")

# L'opération que vous devez deviner (une opération de vérification)
red = adult34[adult34.duplicated("id", keep=False)]
red

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
44,70.0,Private,Some-college,single,M,40.0,N,45
94,70.0,Private,Some-college,single,M,8.0,N,45
45,31.0,Private,HS-grad,single,F,30.0,N,46
95,31.0,Private,HS-grad,single,,6.0,N,46
46,22.0,Private,Some-college,married,M,24.0,N,47
96,22.0,Private,Some-college,married,M,4.8,N,47
47,36.0,Private,HS-grad,widowed,F,24.0,N,48
97,,Private,HS-grad,widowed,F,4.8,N,48
48,64.0,Private,11th,married,M,40.0,N,49
98,64.0,Private,11th,married,M,8.0,N,49


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Afficher les échantillons redondants selon id
- vérification des échantillons redondants ( on veut pas garder des personnes ayant le meme id ) 

In [52]:
# Il y a un problème avec cette forme
# en attendant qu'il soit réglé
#adult34 = adult34.groupby("id").ffill()

adult34.update(adult34.groupby(['id']).ffill())
adult34.update(adult34.groupby(['id']).bfill())

# L'opération de vérification précédente
red = adult34[adult34.duplicated("id", keep=False)]
red

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
44,70,Private,Some-college,single,M,40.0,N,45
94,70,Private,Some-college,single,M,8.0,N,45
45,31,Private,HS-grad,single,F,30.0,N,46
95,31,Private,HS-grad,single,F,6.0,N,46
46,22,Private,Some-college,married,M,24.0,N,47
96,22,Private,Some-college,married,M,4.8,N,47
47,36,Private,HS-grad,widowed,F,24.0,N,48
97,36,Private,HS-grad,widowed,F,4.8,N,48
48,64,Private,11th,married,M,40.0,N,49
98,64,Private,11th,married,M,8.0,N,49


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- remplissage des valeurs manquantes à partir des autres échantillons identiques
- On remarque qu'il y a des échantillons dupliqués où un est plus complet. Or, avant de supprimer un des deux il faut remplir les valeurs manquantes

In [53]:
adult34.drop_duplicates("id", keep="last", inplace=True)

# On refait la même opération précédente
red = adult34[adult34.duplicated("id", keep=False)]
red

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- suppression des doublons en gardant la dernière ligne 
- gérer la redondance 

In [54]:
list(adult1.columns)

['age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class',
 'occupation']

In [55]:
adult1.drop(["occupation"], axis=1, inplace=True)
adult34.drop(["id"], axis=1, inplace=True)

list(adult1.columns)

['age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class']

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
-  Suppression de la colonne "occupation" de adult1
-  adult1 contient la caractéristique "occupation" qui ne figure pas chez les autres fichiers

In [56]:
# les différentes valeurs du colonne adult1.marital-status
adult1["marital-status"].unique()

array(['Never-married', 'Married-civ-spouse', 'Divorced', nan,
       'Married-spouse-absent', 'Separated', 'Married-AF-spouse'],
      dtype=object)

In [57]:
dic = {
    "Never-married": "single",
    "Married-civ-spouse": "married",
    "Married-spouse-absent": "married",
    "Married-AF-spouse": "married",
    "Divorced": "divorced",
    "Separated": "divorced",
    "Widowed": "widowed"
}
adult1["marital-status"] = adult1["marital-status"].map(dic)
adult2["marital-status"] = adult2["marital-status"].map(dic)

# les différentes valeurs du colonne adult1.marital-status après mappage
adult1["marital-status"].unique()

array(['single', 'married', 'divorced', nan], dtype=object)

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Unification des valeurs de la caractéristiques martial-status
- Pour gérer les conflits de valeurs : martial-status a différentes valeurs entres les 4 tables 

In [58]:
# On va appliquer la même opération sur d'autres caractéristiques
adult1["sex"] = adult1["sex"].map({"Female": "F", "Male": "M"})
adult1["class"] = adult1["class"].map({"<=50K": "N", ">50K": "Y"})

# Ensuite, on fusionne les tables dans une seule
adult = pd.concat([adult1, adult2, adult34], ignore_index=True)

# dimension de la table adult
adult.shape

(194, 7)

### II.3. Nétoyage des données

Ici, on va appliquer des opérations de nétoyage. C'est à vous de déviner quelle opération a-t-on utilisé et pourqoi.


In [59]:
# Afficher le nombre des valeurs nulles dans chaque colonne
adult.isnull().sum()

age                5
workclass         10
education          1
marital-status     4
sex                2
hours-per-week     2
class              0
dtype: int64

In [26]:
adult.dropna(subset=["workclass", "education", "marital-status", "sex", "hours-per-week", "class"], inplace=True)
adult.isnull().sum()

age               3
workclass         0
education         0
marital-status    0
sex               0
hours-per-week    0
class             0
dtype: int64

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Nettoyage des enregistrements avec une valeur NaN
- Pour gerer les données manquantes on ignore les tuples contenant des valeurs manquantes en les supprimant

In [64]:
adult["age"] = pd.to_numeric(adult["age"])
adult["age"] = adult.groupby(["class", "education"])["age"].transform(lambda x: x.fillna(int(round(x.mean()))))
adult.isnull().sum()

ValueError: Unable to parse string "M" at position 59

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)
- Existe-il une autre méthode plus exacte que la moyenne pour accoblir cette opération ? Si oui, expliquer.

**Réponse**
- Lissage par moyenne pour une classe
- Remplacer les valeurs NaN dans la colonne age par la moyenne de en regroupant les enregistrements par "class" et "education" ie on suppose que les individus de la meme classe et education ont le meme age
- Utiliser la valeur la plus probable : formule bayésienne ou arbre de décision 

### II.4. Transformation des données

In [62]:
adult["education"].head(6)

0    Bachelors
1    Bachelors
2      HS-grad
3         11th
4    Bachelors
5      Masters
Name: education, dtype: object

In [63]:
from sklearn.preprocessing import OrdinalEncoder
ord_enc = OrdinalEncoder()
# le résultat c'est un numpy.ndarray
education_enc = ord_enc.fit_transform(adult[["education"]])
education_enc[:6,]

ValueError: Input contains NaN

**TODO: Analyse** 
- Quel est le type d'encodage utilisé ?
- A votre avis, dans quel cas peut-on utiliser ce type d'encodage ?

**Réponse**
- encodage ordinal
- quand on ne peut pas utiliser les valeurs nominales

In [30]:
adult["sex"].head(6)

0    M
1    M
2    M
4    F
5    F
6    F
Name: sex, dtype: object

In [31]:
from sklearn.preprocessing import OneHotEncoder
onehot_enc = OneHotEncoder()
# le résultat c'est un numpy.ndarray
sex_enc = onehot_enc.fit_transform(adult[["sex"]])
sex_enc.toarray()[:6,]

array([[0., 1.],
       [0., 1.],
       [0., 1.],
       [1., 0.],
       [1., 0.],
       [1., 0.]])

**TODO: Analyse** 
- Quel est le type d'encodage utilisé ?
- A votre avis, dans quel cas peut-on utiliser ce type d'encodage ?

**Réponse**
- One hot encoding
- Des algorithmes d'apprentissage qui utilisent des valeurs numériques et pas des catégories par exemple neural networks 

In [32]:
adult["hours-per-week"] = pd.to_numeric(adult["hours-per-week"])
adult["hours-per-week"].head(3)

0    40.0
1    13.0
2    40.0
Name: hours-per-week, dtype: float64

In [33]:
from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()
# le résultat c'est un numpy.ndarray
hours_per_week_prop = min_max_scaler.fit_transform(adult[["hours-per-week"]])
hours_per_week_prop[:3,]

array([[0.49367089],
       [0.15189873],
       [0.49367089]])

In [34]:
# pour ajouter la nouvelle caractéristique au dataframe
adult["hours-per-week-prop"] = hours_per_week_prop
adult.head(3)

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,hours-per-week-prop
0,39.0,State-gov,Bachelors,single,M,40.0,N,0.493671
1,50.0,Self-emp-not-inc,Bachelors,married,M,13.0,N,0.151899
2,38.0,Private,HS-grad,divorced,M,40.0,N,0.493671


**TODO: Analyse** 
- Comment la normalisation MinMax est calculée ?
- Décrire les valeurs résultats (plage de valeurs, etc.) ?
- Est-ce que les valeurs du dataset de test sont garanties d'être dans la plage ?
- Si non, comment garantir la plage des valeurs ?

**Réponse**
- En utilisant MinMaxScaler = ( valeur - min ) / (max - min ) 
- Les valeurs résultats sont comprises entre 0 et 1 et la distance proportionnelle entre les valeurs est conservée
- Oui 

In [35]:
adult["age"].head(3)

0    39.0
1    50.0
2    38.0
Name: age, dtype: float64

In [36]:
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
# le résultat c'est un numpy.ndarray
age_normal = min_max_scaler.fit_transform(adult[["age"]])
age_normal[:3,]

array([[0.3442623 ],
       [0.52459016],
       [0.32786885]])

**TODO: Analyse** 
- Comment la normalisation standard est calculée ?
- Décrire les valeurs résultats (plage de valeurs, etc.) ?

**Réponse**
- std = (valeur - moyenne)/ ecart type
-  Les valeurs résultats sont comprises entre 0 et 1 et la distance proportionnelle entre les valeurs est conservée

In [37]:
adult["age"].head(10)

0     39.0
1     50.0
2     38.0
4     28.0
5     37.0
6     49.0
7     52.0
8     31.0
9     42.0
10    43.0
Name: age, dtype: float64

In [38]:
from sklearn.preprocessing import Binarizer

binarizer = Binarizer(threshold=40)
# le résultat c'est un numpy.ndarray
age_bin = binarizer.fit_transform(adult[["age"]])
age_bin[:10,]

array([[0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [1.],
       [1.],
       [0.],
       [1.],
       [1.]])

**TODO: Analyse** 
- Quelle est l'opération appliquée ici ?
- Quel est son rôle ?

**Réponse**
- Binarisation
- Encoder les valeurs en 0 ou 1 selon un seuil  𝑠 défini