Sickit Learn Library

    estimators, transformers, and predictors:
        estimators have the fit() method
        transformers have the transform() method
        predictors have the predict() method

In [9]:
# Importation de la bibliothèque pandas avec l'alias 'pd'
import pandas as pd
# Importation de la classe StandardScaler depuis le module preprocessing de scikit-learn
from sklearn.preprocessing import StandardScaler

# Création d'un DataFrame X avec deux colonnes 'A' et 'B' contenant des données numériques
X = pd.DataFrame({'A': [1, 2, 3, 2], 'B': [10, 20, 40, 50]})

# Initialisation d'un objet StandardScaler
scaler = StandardScaler()

# Ajustement du scaler sur les données du DataFrame X avec la méthode fit()
scaler.fit(X)

# Affichage de la moyenne (mean_) des colonnes après la transformation
print(scaler.mean_)

# Affichage de la variance (var_) des colonnes après la transformation
print(scaler.var_)

print(X)


[ 2. 30.]
[  0.5 250. ]
   A   B
0  1  10
1  2  20
2  3  40
3  2  50


In [2]:
# Transformation des données avec la méthode transform() du scaler
X_scaled = scaler.transform(X)

# Affichage des données standardisées
print(X_scaled)

[[-1.41421356 -1.26491106]
 [ 0.         -0.63245553]
 [ 1.41421356  0.63245553]
 [ 0.          1.26491106]]


In [4]:
# Calcul de la moyenne de la première colonne standardisée dans X_scaled
print("Moyenne de la première colonne standardisée :", X_scaled[:, 0].mean())

# Calcul de la moyenne de la deuxième colonne standardisée dans X_scaled
print("Moyenne de la deuxième colonne standardisée :", X_scaled[:, 1].mean())

# Calcul de la variance de la première colonne standardisée dans X_scaled
print("Variance de la première colonne standardisée :", X_scaled[:, 0].var())

# Calcul de la variance de la deuxième colonne standardisée dans X_scaled
print("Variance de la deuxième colonne standardisée :", X_scaled[:, 1].var())

Moyenne de la première colonne standardisée : 0.0
Moyenne de la deuxième colonne standardisée : 5.551115123125783e-17
Variance de la première colonne standardisée : 0.9999999999999998
Variance de la deuxième colonne standardisée : 1.0


Data Preprocessing with Scikit Learn:
    Handling missing data,
    Encoding text and categorical data,
    Feature scaling

In [26]:
import pandas as pd
import numpy as np
df = pd.read_csv('Chap3Demo.csv')
df

Unnamed: 0,ModuleID,Instructor,TA,Enrolment,Rating,Validate,Weight
0,ML,Ahmed,Yasmine,35,8,yes,20 to 50 kg
1,ML,Leila,Karim,38,7,yes,10 to 50 kg
2,ML,Mohamed,Omar,30,6,yes,30 to 40kg
3,PA,Fatima,Abdelkader,40,7,no,15 to 30 kg
4,PA,Amine,Yasmine,36,8,no,20 to 50 kg
5,PA,Leila,Fatima,34,6,yes,60 to 50 kg
6,OC,Karim,Walid,42,7,no,80 to 90 kg
7,OC,Sarah,Yasmina,43,8,no,20 to 50 kg
8,OC,Nassim,Fatima,32,7,no,30 to 50 kg
9,ML,Abdelkader,Leila,33,9,yes,50 to 60 kg


Handling Missing Data

In [27]:
# Importation de la classe SimpleImputer depuis le module impute de scikit-learn
from sklearn.impute import SimpleImputer
# Instanciation d'un objet SimpleImputer pour remplacer les valeurs manquantes par la moyenne
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
# Appel de la méthode fit() pour calculer les moyennes
imp.fit(df[['Enrolment', 'Rating']])
# Transformation des données en remplaçant les valeurs manquantes par les moyennes calculées
df[['Enrolment', 'Rating']] = imp.transform(df[['Enrolment', 'Rating']])
# Affichage des moyennes calculées
print(imp.statistics_)
# Affichage du DataFrame après l'imputation des valeurs manquantes
print(df)

[35.81818182  7.36363636]
   ModuleID  Instructor          TA  Enrolment  Rating Validate        Weight
0        ML       Ahmed     Yasmine       35.0     8.0      yes   20 to 50 kg
1        ML       Leila       Karim       38.0     7.0      yes   10 to 50 kg
2        ML     Mohamed        Omar       30.0     6.0      yes    30 to 40kg
3        PA      Fatima  Abdelkader       40.0     7.0       no   15 to 30 kg
4        PA       Amine     Yasmine       36.0     8.0       no   20 to 50 kg
5        PA       Leila      Fatima       34.0     6.0      yes   60 to 50 kg
6        OC       Karim       Walid       42.0     7.0       no   80 to 90 kg
7        OC       Sarah     Yasmina       43.0     8.0       no   20 to 50 kg
8        OC      Nassim      Fatima       32.0     7.0       no   30 to 50 kg
9        ML  Abdelkader       Leila       33.0     9.0      yes   50 to 60 kg
10      NaN      Fatima     Mohamed       31.0     8.0      yes   70 to 90 kg


In [28]:
# Mise à jour du paramètre 'strategy' de l'objet SimpleImputer
imp.set_params(strategy='most_frequent')
# Appel de la méthode fit() pour obtenir le mode (valeur la plus fréquente)
imp.fit(df[['ModuleID']])
# Transformation de la colonne en remplaçant les valeurs manquantes par le mode calculé
df[['ModuleID']] = imp.transform(df[['ModuleID']])
# Affichage du DataFrame mis à jour
df


Unnamed: 0,ModuleID,Instructor,TA,Enrolment,Rating,Validate,Weight
0,ML,Ahmed,Yasmine,35.0,8.0,yes,20 to 50 kg
1,ML,Leila,Karim,38.0,7.0,yes,10 to 50 kg
2,ML,Mohamed,Omar,30.0,6.0,yes,30 to 40kg
3,PA,Fatima,Abdelkader,40.0,7.0,no,15 to 30 kg
4,PA,Amine,Yasmine,36.0,8.0,no,20 to 50 kg
5,PA,Leila,Fatima,34.0,6.0,yes,60 to 50 kg
6,OC,Karim,Walid,42.0,7.0,no,80 to 90 kg
7,OC,Sarah,Yasmina,43.0,8.0,no,20 to 50 kg
8,OC,Nassim,Fatima,32.0,7.0,no,30 to 50 kg
9,ML,Abdelkader,Leila,33.0,9.0,yes,50 to 60 kg


Encoding Categorical Data

1-Label Encoder

In [33]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['Validate'] = le.fit_transform(df['Validate'])
df

Unnamed: 0,ModuleID,Instructor,TA,Enrolment,Rating,Validate,Weight
0,ML,Ahmed,Yasmine,35.0,8.0,1,20 to 50 kg
1,ML,Leila,Karim,38.0,7.0,1,10 to 50 kg
2,ML,Mohamed,Omar,30.0,6.0,1,30 to 40kg
3,PA,Fatima,Abdelkader,40.0,7.0,0,15 to 30 kg
4,PA,Amine,Yasmine,36.0,8.0,0,20 to 50 kg
5,PA,Leila,Fatima,34.0,6.0,1,60 to 50 kg
6,OC,Karim,Walid,42.0,7.0,0,80 to 90 kg
7,OC,Sarah,Yasmina,43.0,8.0,0,20 to 50 kg
8,OC,Nassim,Fatima,32.0,7.0,0,30 to 50 kg
9,ML,Abdelkader,Leila,33.0,9.0,1,50 to 60 kg


2- Ordinal Encoder

In [35]:
from sklearn.preprocessing import OrdinalEncoder

# Création d'une instance de OrdinalEncoder avec dtype spécifié comme int
oe = OrdinalEncoder(dtype=int)

# Utilisation de fit_transform pour encoder les valeurs de la colonne 'Weight'
df[['Weight']] = oe.fit_transform(df[['Weight']])

# Affichage du DataFrame après l'encodage
df

3- One Hot Encoder

In [36]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Création d'une instance de OneHotEncoder avec des paramètres spécifiés
ohe = OneHotEncoder(dtype=int, sparse_output=False, drop='first')

# Utilisation de fit_transform pour encoder la colonne 'Color'
color_encoded = ohe.fit_transform(df[['ModuleID']])

# Création d'un DataFrame df2 à partir des données encodées avec les noms de colonnes appropriés
df2 = pd.DataFrame(color_encoded, columns=ohe.get_feature_names_out())

# Concaténation des DataFrames df et df2 sur l'axe des colonnes
df = pd.concat((df, df2), axis=1)

# Affichage du DataFrame mis à jour après l'encodage one-hot
df

Unnamed: 0,ModuleID,Instructor,TA,Enrolment,Rating,Validate,Weight,ModuleID_OC,ModuleID_PA
0,ML,Ahmed,Yasmine,35.0,8.0,1,20 to 50 kg,0,0
1,ML,Leila,Karim,38.0,7.0,1,10 to 50 kg,0,0
2,ML,Mohamed,Omar,30.0,6.0,1,30 to 40kg,0,0
3,PA,Fatima,Abdelkader,40.0,7.0,0,15 to 30 kg,0,1
4,PA,Amine,Yasmine,36.0,8.0,0,20 to 50 kg,0,1
5,PA,Leila,Fatima,34.0,6.0,1,60 to 50 kg,0,1
6,OC,Karim,Walid,42.0,7.0,0,80 to 90 kg,1,0
7,OC,Sarah,Yasmina,43.0,8.0,0,20 to 50 kg,1,0
8,OC,Nassim,Fatima,32.0,7.0,0,30 to 50 kg,1,0
9,ML,Abdelkader,Leila,33.0,9.0,1,50 to 60 kg,0,0


Features Scaling

1- Standarization

In [37]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Création d'un DataFrame X avec deux colonnes 'A' et 'B'
X = pd.DataFrame({'A': [1, 2, 3, 2], 'B': [11, 1, 8, 3]})

# Instanciation d'un objet StandardScaler
scaler = StandardScaler()

# Ajustement du scaler sur les données du DataFrame X avec la méthode fit()
scaler.fit(X)

# Affichage des moyennes des colonnes
print("Moyennes des colonnes :")
print(scaler.mean_)

# Affichage des variances des colonnes
print("\nVariances des colonnes :")
print(scaler.var_)

# Transformation des données avec la méthode transform()
X_scaled = scaler.transform(X)

# Calcul de la moyenne et de la variance des colonnes standardisées
print("\nMoyenne de la première colonne standardisée :", X_scaled[:, 0].mean())
print("Moyenne de la deuxième colonne standardisée :", X_scaled[:, 1].mean())
print("Variance de la première colonne standardisée :", X_scaled[:, 0].var())
print("Variance de la deuxième colonne standardisée :", X_scaled[:, 1].var())


[2.   5.75]
[ 0.5    15.6875]
0.0
0.0
0.9999999999999998
1.0


2- Normalisation

In [38]:
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()

df[['Enrolment', 'Rating']] = mms.fit_transform(df[['Enrolment', 'Rating']])
df

Unnamed: 0,ModuleID,Instructor,TA,Enrolment,Rating,Validate,Weight,ModuleID_OC,ModuleID_PA
0,ML,Ahmed,Yasmine,0.384615,0.666667,1,20 to 50 kg,0,0
1,ML,Leila,Karim,0.615385,0.333333,1,10 to 50 kg,0,0
2,ML,Mohamed,Omar,0.0,0.0,1,30 to 40kg,0,0
3,PA,Fatima,Abdelkader,0.769231,0.333333,0,15 to 30 kg,0,1
4,PA,Amine,Yasmine,0.461538,0.666667,0,20 to 50 kg,0,1
5,PA,Leila,Fatima,0.307692,0.0,1,60 to 50 kg,0,1
6,OC,Karim,Walid,0.923077,0.333333,0,80 to 90 kg,1,0
7,OC,Sarah,Yasmina,1.0,0.666667,0,20 to 50 kg,1,0
8,OC,Nassim,Fatima,0.153846,0.333333,0,30 to 50 kg,1,0
9,ML,Abdelkader,Leila,0.230769,1.0,1,50 to 60 kg,0,0
