#Preprocessing
 
Les opérations du preprocessing:

Encodage :  consiste à convertir les données qualitatives en valeur numérique

Normalisation : qui consiste à mettre sur une même échelle les valeurs quantitative

Imputation : Remplacer les données manquantes par certaines valeurs statistiques

Selection de variable : Utilise les tests statistiques pour sélectionner les variables les plus utiles au développement d'un modèle

Extration de caractéristique : Génerer des nouvelles variables à partir des informations cachées dans le dataset

Les modules de scikit-learn pour ces opérations:

Encodage et Normalisation : <span style="color:red;"> sklearn.preprocessing</span>

Imputation : <span style="color:red;">sklearn.impute</sapan>

Selection de variable : <span style="color:red;">sklearn.feature_selection</sapan>

Extration de caractéristique : <span style="color:red;">sklearn.feature_extraction</sapan>

## sklearn.preprocessing

Le module preprocessing on retrouve des classes transformers commençant toutes par la lettre majuscule.
exemple:

In [None]:
from sklearn.preprocessing import MinMaxScaler

Les transformers permettent de transformer l'ensemble de nos données de façon cohérente en transformant toutes nos données futures de la même manière qu'ont été transformées les données qui ont servit à l'entrainement de la machine grâce à 2 méthodes:
<ul>
<il>fit : Développer une fonction de transformation en analysant les données du trainset</il> 
<il>transform : Appliquer cette fonction de transformation sur toutes les données qu'on lui fournit</il>
</ul>

et des fonctions mathématiques . exemple:

In [None]:
from sklearn.preprocessing import minmax_scale

####  Les tranformers de l'encodage

il existe 2 types d'encodage: Ordinal et One-Hot

L'encodage ordinal: consiste à associer chaque classe à une valeur décimal unique.
exemple : Chat --> 0 et Chien --> 1
On dispose  des transformers:
LabelEncoder() et OrdinalEncoder()

##### LabelEncoder()
a été conçu pour encoder la variable y en une valeur numérique (0, n_classe-1)

In [1]:
import numpy as np
from sklearn.preprocessing import LabelEncoder

y = np.array(['Chien', 'Chat', 'Oiseau', 'Chat', 'Chat','Chien'])

encoder = LabelEncoder()
encoder.fit(y)

print(encoder.__dict__)

encoder.transform(y)

{'classes_': array(['Chat', 'Chien', 'Oiseau'], dtype='<U6')}


array([1, 0, 2])

In [3]:
# La méthode inverse_transform permet de decoder
encoder.inverse_transform(np.array([0, 1, 0, 0, 2, 2, 1]))

array(['Chat', 'Chien', 'Chat', 'Chat', 'Oiseau', 'Oiseau', 'Chien'],
      dtype='<U6')

##### OrdinalEncoder
permet d'encoder les tableaux à plusieurs dimensions, utiliser pour encoder les features X

In [5]:
from sklearn.preprocessing import OrdinalEncoder
X = np.array([['Chien', 'poils'], ['Oiseau', 'plumes'], ['Chat', 'poils'], ['Oiseau', 'plumes']])
encoder = OrdinalEncoder()
encoder.fit(X)
encoder.transform(X)

array([[1., 1.],
       [2., 0.],
       [0., 1.],
       [2., 0.]])

##### <span style="color:red;"> Encodage Ordinal à un souci car transformer des données en des valeurs ordinales peut mener à une comparaison où 0 <1<2 autrement dire Chat < Chien < Oiseau </span>

Pour résoudre ce problème nous avons l'encodage one-hot

### Encodage One-Hot

Les classes sont:
#### LabelBinarizer()
#### MultiLabelBinarizer()
#### OneHotEncoder()

In [6]:
import numpy as np
from sklearn.preprocessing import LabelBinarizer

y = np.array(['Chien', 'Chat', 'Oiseau', 'Chat', 'Chat','Chien'])

encoder = LabelBinarizer()
encoder.fit(y)

print(encoder.__dict__)

encoder.transform(y)

{'neg_label': 0, 'pos_label': 1, 'sparse_output': False, 'y_type_': 'multiclass', 'sparse_input_': False, 'classes_': array(['Chat', 'Chien', 'Oiseau'], dtype='<U6')}


array([[0, 1, 0],
       [1, 0, 0],
       [0, 0, 1],
       [1, 0, 0],
       [1, 0, 0],
       [0, 1, 0]])

## Normalisation

Mettre toutes les données sur une même échelle.

Les techniques de Normalisation les plus connus sont :

#### MinMaxScaler

Transforme chaque variable X de telle sorte à être comprise entre 0 et 1:

$$
 \frac{{X - X_{\text{min}}}}{{X_{\text{max}} - X_{\text{min}}}}
$$


In [7]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

X = np.array([[70], [80], [120]])
scaler = MinMaxScaler()
scaler.fit_transform(X)

array([[0. ],
       [0.2],
       [1. ]])

### StandardScaler

Cette technique part du principe que les données sont normalement distribuées. La fonction va recalculer chaque caractéristiques afin que les données soient centré autour de 0 et avec un Ecart-Type de 1.
Chaque variable X : La moyenne qui est égale à O et l'écart type égal à 1

La formule de la StandardScaler de scikit-learn est donnée par :

\[
X_{\text{scaled}} = \frac{X - \mu}{\sigma}
\]

où :
- \( X_{\text{scaled}} \) est la matrice des données transformées (centrées et réduites).
- \( X \) est la matrice originale des données.
- \( \mu \) est le vecteur moyen (moyenne) des colonnes de \( X \).
- \( \sigma \) est le vecteur écart-type des colonnes de \( X \).


### NB : Eviter d'utiliser MinMax ou standard lorsque nous sommes en présence d'un outilier

pour cela nous alons utiliser le troisième transfomer :

### RobustScaler

La formule de RobustScaler de scikit-learn est donnée par :

\[ X_{\text{scaled}} = \frac{{X - Q_1(X)}}{{Q_3(X) - Q_1(X)}} \]

où :
- \( X_{\text{scaled}} \) est la matrice des données transformées (robustes).
- \( X \) est la matrice originale des données.
- \( Q_1(X) \) représente le premier quartile (25e percentile) de chaque colonne de \( X \).
- \( Q_3(X) \) représente le troisième quartile (75e percentile) de chaque colonne de \( X \).


### Feature engineering
Creer de nouvelle variable à partir des données existantes.

Exemple de feature engineering:
##### PolynomialFeatures

####### Discrétisation qui permet de decouper une variable continu en plusieurs variables
exemple: 
##### Binarizer qui permet de decouper les variables en 2 variables continues
##### KBinDiscretizer(n_bins = X) ou X est le nombre de variables crééés


## Pipeline

In [11]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix
iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

#utilsation d'un transformer

scaler = StandardScaler()
X_train_tranformed = scaler.fit_transform(X_train)

#utilisation d'un estimator

model = SGDClassifier()
model.fit(X_train_tranformed, y_train)

#testing
X_test_transformed = scaler.transform(X_test)
predictions = model.predict(X_test_transformed)
print(predictions)
#verification des performances
confusion_matrix(y_test, predictions)

[2 1 2 2 2 0 1 0 2 0 0 2 1 1 0 0 0 2 1 1 0 1 1 1 1 0 0 1 0 1]


array([[11,  0,  0],
       [ 0, 10,  0],
       [ 0,  2,  7]])

#### Utilisation d'un pipeline pour faciliter (transfomrtaion et l'estimation)
pipeline = Transformer + Estimator

ECrire le code précédent sous forme de pipeline:

In [26]:
from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(), SGDClassifier())
model.fit(X_train, y_train)
print(model.score(X_train,y_train))
model.predict(X_test)


0.9583333333333334


array([2, 1, 2, 2, 2, 0, 1, 0, 2, 0, 0, 2, 1, 1, 0, 0, 0, 2, 2, 1, 0, 2,
       1, 2, 2, 0, 0, 1, 0, 1])

On obtient les mêmes prédictions

##### Pipeline GridSearch CV

grid = GridSearchCV(pipeline, params, cv)

In [21]:
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import PolynomialFeatures

pipeline = make_pipeline(PolynomialFeatures(),StandardScaler(),SGDClassifier(random_state=0))

params = {
    'polynomialfeatures__degree' : [2,3,4],
}
grid = GridSearchCV(pipeline,params, cv = 4)
grid.fit(X_train, y_train)


In [22]:
# Nos meilleurs paramètres sont
grid.best_params_

{'polynomialfeatures__degree': 4}

In [23]:
# Notre modèle
model = grid.best_estimator_
model

In [25]:
# scrore
model.score(X_train,y_train)

0.9916666666666667

In [24]:
# Prediction
model.predict(X_test)

array([2, 1, 2, 2, 2, 0, 1, 0, 2, 0, 0, 2, 1, 1, 0, 0, 0, 2, 2, 1, 0, 2,
       1, 1, 2, 0, 0, 1, 0, 1])

#### Pipeline avancé
avec :

##### make_column_transformer
##### make_column_selector
##### make_union

qui viennent du module: sklearn.compose

#### NB: La bonne stratégie 
est de séparer son dataset en des catégories en fonction d'un point commun.
Par exemple: numerical_features, categorical_features
. Ensuite créer un pipeline pour cahque features catégorisés 
. Ensuite mettre en relation chaque pipeline avec sa catégorie en utilisant un make_column_transformer qui nous retourne un transformer ouun preprocessor : make_column_transformer((..,..), (....,...))
. Ensuite créer notre pipeline final

Utilisons le dataset du titanic pour le pipeline avancé


In [52]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [59]:
pre_data = titanic.drop(columns=['sibsp', 'parch', 'class', 'who', 'adult_male', 'embark_town', 'alive'], axis=1)
data = pre_data.dropna(axis=0)
data

Unnamed: 0,survived,pclass,sex,age,fare,embarked,deck,alone
1,1,1,female,38.0,71.2833,C,C,False
3,1,1,female,35.0,53.1000,S,C,False
6,0,1,male,54.0,51.8625,S,E,True
10,1,3,female,4.0,16.7000,S,G,False
11,1,1,female,58.0,26.5500,S,C,True
...,...,...,...,...,...,...,...,...
871,1,1,female,47.0,52.5542,S,D,False
872,0,1,male,33.0,5.0000,S,B,True
879,1,1,female,56.0,83.1583,C,C,False
887,1,1,female,19.0,30.0000,S,B,True


In [60]:
# Séparations des features et des targets
X_train = data.drop('survived', axis=1)
y_train = data['survived']
print(f'X_train.shape : {X_train.shape}, y_train.shape : {y_train.shape}')
# Créations des categories de features
numerical_features = ['survived', 'pclass', 'age', 'fare']
categorical_features = ['sex', 'embarked', 'deck', 'alone']
y_train

X_train.shape : (182, 7), y_train.shape : (182,)


1      1
3      1
6      0
10     1
11     1
      ..
871    1
872    0
879    1
887    1
889    1
Name: survived, Length: 182, dtype: int64

In [61]:
from sklearn.impute import SimpleImputer
#creation de chaque pipeline
numerical_pipeline = make_pipeline(SimpleImputer(), StandardScaler())
categorical_pipeline = make_pipeline(SimpleImputer(strategy='most_frequent'), StandardScaler())

In [62]:
from sklearn.compose import make_column_transformer
#prepocessing
preprocessor = make_column_transformer((numerical_pipeline,numerical_features),(categorical_pipeline, categorical_features))

In [None]:
#model
model = make_pipeline(preprocessor, SGDClassifier())
model.fit(X_train, y_train)
#print(model.score(X_train, y_train))

### Impute : sklearn.impute
Ce transformer permet de nettoyer notre dataset en élimant ou en remplaçant:

##### SimpleImputer
##### MissingIndicator
##### KNNImputer
##### IterativeImputer

##### . SimpleImputer
Transforme les valeurs manquantes par une valeur statique.
.missing_values
.strategy : 
    mean
    median
    most_frequent
    constant
.fill_value (pour constant)

In [68]:
from sklearn.impute import SimpleImputer
import numpy as np

X = np.array([[2,3,4],[5,7,9],[10,np.nan,5],[np.nan,2,np.nan ]])
X

array([[ 2.,  3.,  4.],
       [ 5.,  7.,  9.],
       [10., nan,  5.],
       [nan,  2., nan]])

In [70]:
transformer = SimpleImputer(missing_values=np.nan, strategy='mean')
transformer.fit_transform(X)

array([[ 2.        ,  3.        ,  4.        ],
       [ 5.        ,  7.        ,  9.        ],
       [10.        ,  4.        ,  5.        ],
       [ 5.66666667,  2.        ,  6.        ]])

#### . KNNImputer
Remplace toutes les valeurs manquantes par des valeurs de leurs voisins manquants
.n_neighbors

In [72]:
from sklearn.impute import KNNImputer

knn_transformer = KNNImputer(n_neighbors=1)
knn_transformer.fit_transform(X)

array([[ 2.,  3.,  4.],
       [ 5.,  7.,  9.],
       [10.,  7.,  5.],
       [ 2.,  2.,  4.]])

### Selection : sklearn.selection

Permet de selectionner pour notre modèle les features les plus importants parmis toutes les variables disponibles dans un dataset .

#### VarianceThreshold([threshold])
Selectionner les variables selon leurs dégrés de vareiation .

#### SelectKBest
Selectionne les variables à partir des fonctions à partir des tests statistiques .

transformers qui permmettent de transformer les variables à partir des coefficients d'un modèle qui a été entraîner sur tout le dataset
#### SelectFromModel
#### La matrice coefficients
#### RFE + RFECV

##### Les test de dépendance
Classification : 