# 2CSSID-TP01. Prétraitement

- Binôme 01 : Rezkellah FatmaZohra


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
from typing import Tuple

## I. Réalisation des algorithmes

Cette partie sert à améliorer la compréhension des algorithmes de préparation de données vus en
cours en les implémentant à partir de zéro. Pour ce faire, on va utiliser la bibliothèque numpy qui
est utile dans les calcules surtout matricielles.

### I.1. Normalisation

Ici, on va réaliser les deux fonctions de nomalisation : standard et min-max.
On va prendre une matrice $X[N, M]$ de $N$ échantillons et $M$ colonnes.
La normalisation standard d'une colonne $j$ peut être décrite comme : 
$$standard(X_j) = \frac{X_j - \mu(X_j)}{\sigma(X_j)}$$
La nomalisation min-max d'une colonne $j$ peut être décrite comme : 
$$minmax(X_j) = \frac{X_j - min(X_j)}{max(X_j) - min(X_j)}$$


In [5]:
# TODO compléter la standardisation d'une matrice
# Entrée : la matrice des données (N échantillons X  M caractéristiques)
# Sortie : vecteur de M moyennes, vecteur de M écart-types, une matrice normalisée
def norm_std(X: np.ndarray) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
    return  np.mean(X, axis=0), np.std(X, axis=0), (X - np.mean(X, axis=0)) / np.std(X, axis=0)

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# (array([4. , 3. , 0.5]),
#  array([1.87082869, 2.        , 0.5       ]),
#  array([[ 1.60356745,  1.        , -1.        ],
#         [-1.06904497, -1.        ,  1.        ],
#         [-0.53452248,  1.        , -1.        ],
#         [ 0.        , -1.        ,  1.        ]]))
#---------------------------------------------------------------------

X = np.array([
    [7, 5, 0],
    [2, 1, 1],
    [3, 5, 0],
    [4, 1, 1],
])

norm_std(X)

(array([4. , 3. , 0.5]),
 array([1.87082869, 2.        , 0.5       ]),
 array([[ 1.60356745,  1.        , -1.        ],
        [-1.06904497, -1.        ,  1.        ],
        [-0.53452248,  1.        , -1.        ],
        [ 0.        , -1.        ,  1.        ]]))

In [None]:
# TODO compléter la standardisation d'une matrice
# Entrée : la matrice des données (N échantillons X  M caractéristiques)
# Sortie : vecteur de M max, vecteur de M min, une matrice normalisée
def norm_minmax(X: np.ndarray) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
    min = np.min(X, axis = 0)
    max = np.max(X, axis = 0)
    return max, min,(X - min) / (max - min)


#=====================================================================
# TEST UNITAIRE
#=====================================================================
# (array([7, 5, 1]),
#  array([2, 1, 0]),
#  array([[1. , 1. , 0. ],
#         [0. , 0. , 1. ],
#         [0.2, 1. , 0. ],
#         [0.4, 0. , 1. ]]))
#---------------------------------------------------------------------

X = np.array([
    [7, 5, 0],
    [2, 1, 1],
    [3, 5, 0],
    [4, 1, 1],
])

norm_minmax(X)

(array([7, 5, 1]),
 array([2, 1, 0]),
 array([[1. , 1. , 0. ],
        [0. , 0. , 1. ],
        [0.2, 1. , 0. ],
        [0.4, 0. , 1. ]]))

### I.2. Encodage One-Hot

Etant donné un vecteur $A[N]$ représentant une caractéristique nominale donnée, on veut encoder les valeurs en utilisant One-Hot. Pour faciliter la tâche, on vous donne l'algorithme détaillé : 
1. Trouver les valeurs uniques dans le vecteur $A$ ; on appele ça : un vocabulaire $V$
1. Créer une matrice $X[N, |V|] en recopiant le vecteur $V$ $N$ fois. Dans python, on peut recopier un vecteur en utilisant l'instruction : [V] * N
1. Comparer l'égalité entre chaque ligne de $A$ et chaque ligne (qui est un vecteur) de $X$.
1. Transformer les booléens vers des entiers

In [12]:
# TODO compléter l'encodage One-Hot
# Entrée : un vecteur d'une caractéristique (N échantillons)
# Sortie : vecteur du vocabulaire V, matrice N X |V|
def one_hot(A: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
    V = np.unique(A)
    X=[V]*len(A)
    X=np.array(X)
    return V,X,(X==A.reshape(len(A),1))*1
    

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# (array(['COLD', 'HOT', 'MILD'], dtype='<U4'),
#  array([[0, 1, 0],
#         [0, 0, 1],
#         [1, 0, 0],
#         [0, 1, 0],
#         [0, 0, 1]]))
#---------------------------------------------------------------------

A = np.array(['HOT', 'MILD', 'COLD', 'HOT', 'MILD'])
one_hot(A)

(array(['COLD', 'HOT', 'MILD'], dtype='<U4'),
 array([['COLD', 'HOT', 'MILD'],
        ['COLD', 'HOT', 'MILD'],
        ['COLD', 'HOT', 'MILD'],
        ['COLD', 'HOT', 'MILD'],
        ['COLD', 'HOT', 'MILD']], dtype='<U4'),
 array([[0, 1, 0],
        [0, 0, 1],
        [1, 0, 0],
        [0, 1, 0],
        [0, 0, 1]]))

### I.3. Binarisation

Etant donné un vecteur $A[N]$ représentant une caractéristique numérique donnée, on veut encoder les valeurs en 0 ou 1 selon un seuil $s$.
La binarization d'un élément $A_i$ est donnée par :
$$A_i' = \begin{cases}
1 & \text{si } A_i \ge s\\
0 & \text{sinon}\\
\end{cases}$$

In [15]:
# TODO compléter la binarisation
# Entrée : un vecteur d'une caractéristique (N échantillons), un nombre
# Sortie : un vecteur binarisé (N échantillons)
def bin(A: np.ndarray, seuil: float) -> np.ndarray:
    v=np.zeros(A.shape[0])
    for i in range(0, len(A)):
        if A[i]>=seuil: 
            v[i]=1
            
        else:
            v[i]=0
            
    return np.array(v)

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# array([1, 0, 0, 0, 1, 1])
#---------------------------------------------------------------------

A = np.array([5, 2, 1, -1, 6, 4])

bin(A, 4)

array([1., 0., 0., 0., 1., 1.])

## II. Application et analyse

Cette partie sert à appliquer les algorithmes, modifier les paramètres et analyser les résultats.

### II.1. Lecture des données

On va lire 4 fichiers : 
- un fichier CSV avec des colonnes séparées par des virgules
- un fichier CSV avec des colonnes séparées par des point-virgules
- un fichier Sqlite 
- un fichier XML

In [17]:
adult1 = pd.read_csv("adult1.csv", skipinitialspace=True)
adult1.head(10)

Unnamed: 0,age,workclass,education,Marital-status,occupation,sex,Hours-per-week,class
0,39.0,State-gov,Bachelors,Never-married,Adm-clerical,Male,40,<=50K
1,50.0,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Male,13,<=50K
2,38.0,Private,HS-grad,Divorced,Handlers-cleaners,Male,40,<=50K
3,53.0,Private,11th,,Handlers-cleaners,Male,40,<=50K
4,28.0,Private,Bachelors,Married-civ-spouse,Prof-specialty,Female,40,<=50K
5,37.0,Private,Masters,Married-civ-spouse,Exec-managerial,Female,40,<=50K
6,49.0,Private,9th,Married-spouse-absent,Other-service,Female,16,<=50K
7,52.0,Self-emp-not-inc,HS-grad,Married-civ-spouse,Exec-managerial,Male,45,>50K
8,31.0,Private,Masters,Never-married,Prof-specialty,Female,50,>50K
9,42.0,Private,Bachelors,Married-civ-spouse,Exec-managerial,Male,40,>50K


In [22]:
noms = ["class", "age", "sex", "workclass", "education", "hours-per-week", "marital-status"]
adult2 = pd.read_csv("adult2.csv", skipinitialspace=True, sep=";", header=None, names=noms)
adult2.head(10)

Unnamed: 0,class,age,sex,workclass,education,hours-per-week,marital-status
0,N,25,F,Private,Some-college,40,Married-civ-spouse
1,N,18,F,Private,HS-grad,30,Never-married
2,Y,47,F,"Private, Prof-school",60,Married-civ-spouse,
3,Y,50,M,Federal-gov,Bachelors,55,Divorced
4,N,47,M,Self-emp-inc,HS-grad,60,Divorced
5,Y,43,M,Private,Some-college,40,Married-civ-spouse
6,N,46,M,Private,5th-6th,40,Married-civ-spouse
7,N,35,M,Private,Assoc-voc,40,Married-civ-spouse
8,N,41,M,Private,HS-grad,48,Married-civ-spouse
9,"N,30",M,"Private, HS-grad",40,Married-civ-spouse,,


In [24]:
import sqlite3
#établir la connexion avec la base de données
con = sqlite3.connect("adult3.db")
#récupérer le résultat d'une réquête SQL sur cette connexion
adult3 = pd.read_sql_query("SELECT * FROM income", con)

#remplacer les valeurs "?" par NaN de numpy
adult3 = adult3.replace('?', np.nan)

adult3.head(10)

Unnamed: 0,num,age,workclass,education,marital-status,sex,hours-per-day,class
0,1,76,Private,Masters,married,M,8.0,Y
1,2,44,Private,Bachelors,married,M,12.0,Y
2,3,47,Self-emp-not-inc,Masters,single,F,10.0,N
3,4,20,Private,Some-college,single,F,8.0,N
4,5,29,Private,HS-grad,single,M,8.0,N
5,6,32,Self-emp-inc,HS-grad,married,M,8.0,Y
6,7,17,,10th,single,F,6.4,N
7,8,30,Private,11th,single,M,8.0,N
8,9,31,Local-gov,HS-grad,single,F,8.0,N
9,10,42,Private,HS-grad,married,M,8.0,N


In [None]:
! pip install lxml



You should consider upgrading via the 'C:\Users\pc\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.


In [32]:
from lxml import etree
#créer le parser et spécifier qu'il doit valider le DTD
parser = etree.XMLParser(dtd_validation=True)
#analyser le fichier XML en utilisant ce parser
arbre = etree.parse("data/adult4.xml", parser)

def valeur_noeud(noeud):
    return noeud.text if noeud is not None else np.nan

noms2 = ["id", "age", "workclass", "education", "marital-status", "sex", "hours-per-week", "class"]
adult4 = pd.DataFrame(columns=noms2)

for candidat in arbre.getroot():
    idi = candidat.get("id")
    age = valeur_noeud(candidat.find("age"))
    workclass = valeur_noeud(candidat.find("workclass"))
    education = valeur_noeud(candidat.find("education"))
    marital = valeur_noeud(candidat.find("marital-status"))
    sex = valeur_noeud(candidat.find("sex"))
    hours = valeur_noeud(candidat.find("hours-per-week"))
    klass = valeur_noeud(candidat.find("class"))

    adult4 = pd.concat(
        [adult4, 
        pd.Series([idi, age, workclass, education, marital, sex, hours, klass],index=noms2).to_frame().T
        ], axis=0, ignore_index=True)
adult4.head(10)

OSError: Error reading file 'data/adult4.xml': failed to load external entity "data/adult4.xml"

**TODO: Analyse** 
- Que remarquez-vous concernant l'ordre, le nombre et les noms des caractéristiques dans les 4 datasets ?
- Que remarquez-vous à propos des valeurs dans les 4 tables ?

**Réponse**
- Dans le premier dataset, on a 4 colonnes, ordonnées comme suit: age,workclass,education,Marital-status,occupation,sex,Hours-per-week,class
- Dans le deuxieme, on a 7 colonnes, ordonnées comme suit:class,age,sex,workclass,education,hours-per-week,marital-status
- Dans le troisieme, on a 8 colonnes, ordonnées comme suit: num	age	workclass	education	marital-status	sex	hours-per-day	class
-Donc en gros, Lors de la lecture des 4 fichiers, on remarque que leurs schémas sont différents. Donc, avant de fusionner les 4 schémas, il faut régler les problèmes qui gênent à cette opération. 
-Concernant les valeurs dans les 4 tables, on remarque que les valeurs dans les 4 datasets sont differentes, il y a de nouvelles combinaisons pour chaque dataset

### II.2. Intégration des données

Dans cette section, on va appliquer des opérations sur les différentes tables. Vous devez à chaque fois figurer ce qu'on a fait et pourquoi.

In [29]:
# Afficher les noms des colonnes de adult3
list(adult3.columns),list(adult2.columns),list(adult1.columns)

(['num',
  'age',
  'workclass',
  'education',
  'marital-status',
  'sex',
  'hours-per-day',
  'class'],
 ['class',
  'age',
  'sex',
  'workclass',
  'education',
  'hours-per-week',
  'marital-status'],
 ['age',
  'workclass',
  'education',
  'Marital-status',
  'occupation',
  'sex',
  'Hours-per-week',
  'class'])

In [None]:
adult3.rename(columns={"num": "id", "hours-per-day": "hours-per-week"}, inplace=True)
adult1.rename(columns={"Hours-per-week": "hours-per-week", "Marital-status": "marital-status"}, inplace=True)

# Afficher les noms des colonnes de adult3
list(adult3.columns)

['id',
 'age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class']

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)
- Est-ce qu'en appliquant cette opération, on aura certains problèmes ?

**Réponse**
- On a fait un renommage des colonnes des deux datasets adult3, adult1
- On commence toujours par renommer les caractéristiques identiques.
(adult3.num sera adult3.id,
adult3.hours-per-day sera adult3.hours-per-week 
adult1.Hours-per-week sera adult1.hours-per-week 
adult1.Marital-status sera adult1.marital-status)
- L'interet est d'avoir le meme nom des colonnes qui veulent dire la meme chose dans les deux datasets pour faciliter l'integration des données des deux datasets par la suite
- Si fait avec les bonnes manieres, on n'aura normalement pas de pblm car comme cité cette opération nous aidera à fusionner plusieurs datasets ayant le meme contexte
- Donc, avant de fusionner les 4 schémas, il faut régler les problèmes qui gênent à cette opération. Pami lesquels, on a les noms des colonnes

In [30]:
ordre = ["age", "workclass", "education", "marital-status", "sex", "hours-per-week", "class"]
adult1 = adult1.reindex(ordre + ["occupation"], axis=1)
print (adult1.head())
adult2 = adult2.reindex(ordre, axis=1)
adult3 = adult3.reindex(ordre + ["id"], axis=1)
print (adult2.head())
# Afficher les noms des colonnes de adult3
list(adult3.columns)

    age         workclass  education  marital-status     sex  hours-per-week  \
0  39.0         State-gov  Bachelors             NaN    Male             NaN   
1  50.0  Self-emp-not-inc  Bachelors             NaN    Male             NaN   
2  38.0           Private    HS-grad             NaN    Male             NaN   
3  53.0           Private       11th             NaN    Male             NaN   
4  28.0           Private  Bachelors             NaN  Female             NaN   

   class         occupation  
0  <=50K       Adm-clerical  
1  <=50K    Exec-managerial  
2  <=50K  Handlers-cleaners  
3  <=50K  Handlers-cleaners  
4  <=50K     Prof-specialty  
  age             workclass     education      marital-status sex  \
0  25               Private  Some-college  Married-civ-spouse   F   
1  18               Private       HS-grad       Never-married   F   
2  47  Private, Prof-school            60                 NaN   F   
3  50           Federal-gov     Bachelors            Divorced  

['age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class',
 'id']

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- On a appliqué un nouvel ordre à nos colonnes pour chaque datset
-On va ordonner les caractéristiques selon cet ordre: "age", "workclass", "education", "marital-status", "sex", "hours-per-week", "class". Les caractéristiques en plus vont être appended ou bien placées en derniers.
- Pour que l'integration nous sera facile par la suite, si on ordonne les colonnes de chaque dataset de la méme maniere, l'integration sera coherente et les valeurs obtenues seront dans le bon contexte

In [None]:
# Afficher les deux premières lignes de la table adult3
adult3.head(2)

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
0,76,Private,Masters,married,M,8.0,Y,1
1,44,Private,Bachelors,married,M,12.0,Y,2


In [None]:
adult3["hours-per-week"] *= 5

# Afficher les deux premières lignes de la table adult3
adult3.head(2)

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
0,76,Private,Masters,married,M,40.0,Y,1
1,44,Private,Bachelors,married,M,60.0,Y,2


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- On a multiplié les valeurs de la colonnes hours_per_week par 5
-On a modifié "adult3.hours-per-day" par "hours-per-week" avant  ce qui change le sens mais pas les valeurs chose illogique donc on réctifie cela ici
- Pour avoir des données de bon contexte et des valeurs cohérente avec le nom de la colonne

In [43]:
adult34 = pd.concat([adult3, adult2], ignore_index=True)
adult34

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
0,76,Private,Masters,married,M,,Y,
1,44,Private,Bachelors,married,M,,Y,
2,47,Self-emp-not-inc,Masters,single,F,,N,
3,20,Private,Some-college,single,F,,N,
4,29,Private,HS-grad,single,M,,N,
...,...,...,...,...,...,...,...,...
95,29,Local-gov,Some-college,Never-married,M,50,N,
96,48,Self-emp-not-inc,Doctorate,Married-civ-spouse,M,60,Y,
97,37,Private,Some-college,Married-civ-spouse,M,48,Y,
98,48,Private,Assoc-acdm,Divorced,F,40,N,


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- On a concatené le contenu des deux datsets,
-Les 2 tables contiennent des enregistrements avec le même "id". Une solution COMME VUE EN BDD est de fusionner les deux tables dans une seule , ensuite ENLEVER LES DOUBLONS. 
- Pour avoir plus de data dans une seule table

In [46]:
# Transformer le champs "id" à un entier
adult34["age"] = pd.to_numeric(adult34["age"])
# Ordonner la table en se basant sur les valeurs de "id"
adult34 = adult34.sort_values(by="age")

# L'opération que vous devez deviner (une opération de vérification)
red = adult34[~adult34.duplicated("age", keep=False)]
red

ValueError: Unable to parse string "M" at position 59

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- on vérifie s'il y a des échantillons avec le même "id". donc, on ordonne les échantillons selon le "id" aprés les avoir transformé en entier
- Pour avoir une meilleure visibilités de nos donner, faciliter la suppression des doublons, ordonner selon le champs id

In [None]:
# Il y a un problème avec cette forme
# en attendant qu'il soit réglé
#adult34 = adult34.groupby("id").ffill()

adult34.update(adult34.groupby(['id']).ffill())
adult34.update(adult34.groupby(['id']).bfill())

# L'opération de vérification précédente
red = adult34[adult34.duplicated("id", keep=False)]
red

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id
44,70,Private,Some-college,single,M,40.0,N,45
94,70,Private,Some-college,single,M,8.0,N,45
45,31,Private,HS-grad,single,F,30.0,N,46
95,31,Private,HS-grad,single,F,6.0,N,46
46,22,Private,Some-college,married,M,24.0,N,47
96,22,Private,Some-college,married,M,4.8,N,47
47,36,Private,HS-grad,widowed,F,24.0,N,48
97,36,Private,HS-grad,widowed,F,4.8,N,48
48,64,Private,11th,married,M,40.0,N,49
98,64,Private,11th,married,M,8.0,N,49


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- On a remplacé les nan values en utilisant le backward filling et forward filling
ffil: regrouper les par "id", et pour chaque groupe remplacer les valeurs absentes par une valeur précédente dans le même groupe
- On les supprime pour nettoyer notre data, c'est une etape preliminaire dans le prétraitement

In [None]:
adult34.drop_duplicates("id", keep="last", inplace=True)

# On refait la même opération précédente
red = adult34[adult34.duplicated("id", keep=False)]
red

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,id


**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Avant de supprimer un échantillon, il faut remplir les valeurs manquantes à partir des autres échaantillons identiques (le même "id") avant de supprimer un des deux
- Apres on supprime les doublons
-Pour avoir une data qui nous est essentielle, sans avoir a traiter des redondances qui ne rajoutent aucune informations mais peuvent causer des probleme pour le moodel

In [None]:
list(adult1.columns)

['age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class',
 'occupation']

In [None]:
adult1.drop(["occupation"], axis=1, inplace=True)
adult34.drop(["id"], axis=1, inplace=True)

list(adult1.columns)

['age',
 'workclass',
 'education',
 'marital-status',
 'sex',
 'hours-per-week',
 'class']

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- on a supprimé les colonnes inutiles:
adult1.occupation
adult34.id
- Les caracterisitiques qui qui ne figure pas chez les autres fichiers, on les supprime car ils ne spont pas utiles lors de l'integration

In [None]:
# les différentes valeurs du colonne adult1.marital-status
adult1["marital-status"].unique()

array(['Never-married', 'Married-civ-spouse', 'Divorced', nan,
       'Married-spouse-absent', 'Separated', 'Married-AF-spouse'],
      dtype=object)

In [None]:
dic = {
    "Never-married": "single",
    "Married-civ-spouse": "married",
    "Married-spouse-absent": "married",
    "Married-AF-spouse": "married",
    "Divorced": "divorced",
    "Separated": "divorced",
    "Widowed": "widowed"
}
adult1["marital-status"] = adult1["marital-status"].map(dic)
adult2["marital-status"] = adult2["marital-status"].map(dic)

# les différentes valeurs du colonne adult1.marital-status après mappage
adult1["marital-status"].unique()

array(['single', 'married', 'divorced', nan], dtype=object)

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- Remplacer les valeurs de "marital-status" dans les tables "adult1" et "adult2" comme le dit le dictionnaire
- Pour regler le conflit des valeurs

In [48]:
# On va appliquer la même opération sur d'autres caractéristiques
adult1["sex"] = adult1["sex"].map({"Female": "F", "Male": "M"})
adult1["class"] = adult1["class"].map({"<=50K": "N", ">50K": "Y"})

# Ensuite, on fusionne les tables dans une seule
adult = pd.concat([adult1, adult2, adult34], ignore_index=True)

# dimension de la table adult
adult.shape

(200, 9)

### II.3. Nétoyage des données

Ici, on va appliquer des opérations de nétoyage. C'est à vous de déviner quelle opération a-t-on utilisé et pourqoi.


In [49]:
# Afficher le nombre des valeurs nulles dans chaque colonne
adult.isnull().sum()

age                 7
workclass          12
education           2
marital-status     56
sex                 3
hours-per-week    104
class               0
occupation        151
id                200
dtype: int64

In [52]:
adult.dropna(subset=["workclass", "education", "marital-status", "sex", "hours-per-week", "class"], inplace=True)
adult.isnull().sum()

age                0
workclass          0
education          0
marital-status     0
sex                0
hours-per-week     0
class              0
occupation        88
id                88
dtype: int64

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- on vérifier le nombre des valeurs indéfinies dans chaque colonne
nettoyer tous les enregistrements avec une valeur "NaN" ,on remarque que la coloone age ne subit pas le traitement
L'interet c'est le nettoyage de données

In [51]:
adult["age"] = pd.to_numeric(adult["age"])
adult["age"] = adult["age"].fillna(adult.age.mean())
adult.isnull().sum()

age                0
workclass          0
education          0
marital-status     0
sex                0
hours-per-week     0
class              0
occupation        88
id                88
dtype: int64

**TODO: Analyse** 
- Quelle opération a-t-on appliqué ?
- Pourquoi ? (Quel est l'intérêt ?)

**Réponse**
- ...Pour les valeurs de absentes de "age", on va remplacer ^par la moyenne
(Transformer les valeurs de "age" to numeric
On regroupe les enregistrements par "class" et "education".  
On calcule la moyenne et l'arrondir
On l'affecte aux valeurs indéfinies)

### II.4. Transformation des données

In [None]:
adult["education"].head(6)

0    Bachelors
1    Bachelors
2      HS-grad
4    Bachelors
5      Masters
6          9th
Name: education, dtype: object

In [None]:
from sklearn.preprocessing import OrdinalEncoder
ord_enc = OrdinalEncoder()
# le résultat c'est un numpy.ndarray
education_enc = ord_enc.fit_transform(adult[["education"]])
education_enc[:6,]

array([[6.],
       [6.],
       [8.],
       [6.],
       [9.],
       [3.]])

**TODO: Analyse** 
- Quel est le type d'encodage utilisé ?
- A votre avis, dans quel cas peut-on utiliser ce type d'encodage ?

**Réponse**
- C'est le fait d'affecter des entiers à chaque valeur categorielle
- Transformer les données non numeriques en des valeurs numeriques pour faciliter les traitements (Des algorithmes d'apprentissage  nécessitent des valeurs numériques et pas des catégories (comme les réseaux de neurones) 

In [None]:
adult["sex"].head(6)

0    M
1    M
2    M
4    F
5    F
6    F
Name: sex, dtype: object

In [None]:
from sklearn.preprocessing import OneHotEncoder
onehot_enc = OneHotEncoder()
# le résultat c'est un numpy.ndarray
sex_enc = onehot_enc.fit_transform(adult[["sex"]])
sex_enc.toarray()[:6,]

array([[0., 1.],
       [0., 1.],
       [0., 1.],
       [1., 0.],
       [1., 0.],
       [1., 0.]])

**TODO: Analyse** 
- Quel est le type d'encodage utilisé ?
- A votre avis, dans quel cas peut-on utiliser ce type d'encodage ?

**Réponse**
- on transforme une caractéristique vers plusieurs selon le nombre de ces valeurs via le onehot encoding
- Transformer les données non numeriques en des valeurs numeriques pour faciliter les traitements (Des algorithmes d'apprentissage  nécessitent des valeurs numériques et pas des catégories (comme les réseaux de neurones) 

In [None]:
adult["hours-per-week"] = pd.to_numeric(adult["hours-per-week"])
adult["hours-per-week"].head(3)

0    40.0
1    13.0
2    40.0
Name: hours-per-week, dtype: float64

In [None]:
from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()
# le résultat c'est un numpy.ndarray
hours_per_week_prop = min_max_scaler.fit_transform(adult[["hours-per-week"]])
hours_per_week_prop[:3,]

array([[0.49367089],
       [0.15189873],
       [0.49367089]])

In [None]:
# pour ajouter la nouvelle caractéristique au dataframe
adult["hours-per-week-prop"] = hours_per_week_prop
adult.head(3)

Unnamed: 0,age,workclass,education,marital-status,sex,hours-per-week,class,hours-per-week-prop
0,39.0,State-gov,Bachelors,single,M,40.0,N,0.493671
1,50.0,Self-emp-not-inc,Bachelors,married,M,13.0,N,0.151899
2,38.0,Private,HS-grad,divorced,M,40.0,N,0.493671


**TODO: Analyse** 
- Comment la normalisation MinMax est calculée ?
- Décrire les valeurs résultats (plage de valeurs, etc.) ?
- Est-ce que les valeurs du dataset de test sont garanties d'être dans la plage ?
- Si oui, expliquer pouruoi. Si non, comment garantir la plage des valeurs ?

**Réponse**
- La  normalisation min-max transforme chaque valeur numérique x vers une autre valeur x' ∈ [0,1] en utilisant la valeur minimale et la valeur maximale dans les données. Cette normalisation conserve la distance proportionnelle entre les valeurs d'une caractéristique.
Min-Max Scaling peut- être appliqué quand les données varient dans des échelles différentes. A l’issue de cette transformation, les features seront comprises dans un intervalle fixe [0,1]. Le but d’avoir un tel intervalle restreint est de réduire l’espace de variation des valeurs d’une feature et par conséquent réduire l’effet des outliers.





In [None]:
adult["age"].head(3)

0    39.0
1    50.0
2    38.0
Name: age, dtype: float64

In [53]:
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
# le résultat c'est un numpy.ndarray
age_normal = std_scaler.fit_transform(adult[["age"]])
age_normal[:3,]

array([[-1.06439156],
       [-1.61909985],
       [ 0.91670948]])

**TODO: Analyse** 
- Comment la normalisation standard est calculée ?
- Décrire les valeurs résultats (plage de valeurs, etc.) ?

**Réponse**
- .La normalisation standard d'une colonne $j$ peut être décrite comme : 
$$standard(X_j) = \frac{X_j - \mu(X_j)}{\sigma(X_j)}$$
La standardisation (aussi appelée Z-Score normalisation  à ne pas confondre avec la normalisation du paragraphe précendent) peut- être appliquée quand les input features répondent à des distributions normales (Distributions Gaussiennes) avec des moyennes et des écart-types différents. Par conséquent, cette transformation aura pour impact d’avoir toutes nos features répondant à la même loi normale X \sim \mathcal{N} (0, \, 1).

La standardisation peut également être appliquée quand les features ont des unités différentes.

La Standardisation est le processus de transformer une feature en une autre qui répondra à la loi normale (Gaussian Distribution) X \sim \mathcal{N} (\mu, \, \sigma) 

In [None]:
adult["age"].head(10)

0     39.0
1     50.0
2     38.0
4     28.0
5     37.0
6     49.0
7     52.0
8     31.0
9     42.0
10    43.0
Name: age, dtype: float64

In [None]:
from sklearn.preprocessing import Binarizer

binarizer = Binarizer(threshold=40)
# le résultat c'est un numpy.ndarray
age_bin = binarizer.fit_transform(adult[["age"]])
age_bin[:10,]

array([[0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [1.],
       [1.],
       [0.],
       [1.],
       [1.]])

**TODO: Analyse** 
- Quelle est l'opération appliquée ici ?
- Quel est son rôle ?

**Réponse**
- La binarisation
- Etant donné un vecteur $A[N]$ représentant une caractéristique numérique donnée, on veut encoder les valeurs en 0 ou 1 selon un seuil $s$.
La binarization d'un élément $A_i$ est donnée par :
$$A_i' = \begin{cases}
1 & \text{si } A_i \ge s\\
0 & \text{sinon}\\
\end{cases}$$
-utile surtout pour le traitement des images CNNs