<a href="https://colab.research.google.com/github/screen-T/BL-JEE/blob/main/data_science1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pré-traitement des données avec Pandas et Scikit-learn

Le prétraitement des données est une étape importante lors de l'apprentissage automatique. La qualité des données fait la différence entre un bon modèle et un mauvais modèle.

Dans ce tutoriel, nous allons apprendre à faire du prétraitement de données avec Scikit-learn et pandas en se servant du dataset du TITANIC

# Plan du TP
    1. Prétraitement des données
        1.1 Qu'est-ce que le prétraitement des données ?
        1.2 Pourquoi le prétraitement des données ?
        1.3 Exigences de l'API Scikit-learn
        1.4 Prétraitement des données dans Scikit-learn
    2 Charger les données
    3 Effectuer une analyse exploratoire des données
        3.1 Afficher les colonnes nulles
        3.2 Afficher les valeurs manquantes
        3.3 Gérer les données manquantes
        3.4 Suppression des données manquantes
    4 Imputation des données manquantes
        4.1 Imputation avec Pandas
        4.2 Imputation avec Scikit-learn
            4.2.1 Transformation simple
            4.2.2 utiliser le mot-clé missing_values
        4.3 Différents types de valeurs manquantes
    5 Encoder les caractéristiques catégorielles (qualitatives)
        6.1 Encodage des caractéristiques catégorielles avec Scikit-learn
        6.2 Encodage des caractéristiques catégorielles avec Pandas
    6 Normalisation des données
        6.1 Mise à l'échelle avec MinMaxScaler
        6.2 Mise à l'échelle avec standardScaler
    7 Conclusion

# 1. Prétraitement des données
1.1 Qu'est-ce que le prétraitement des données ?
Le prétraitement des données est le processus de transformation des données dans un format utile, gérable et compréhensible.

1.2 Pourquoi le prétraitement des données ?
Le prétraitement est important pour éliminer le bruit dans les données et s'assurer qu'elles sont dans un format utilisable pour votre bibliothèque d'apprentissage automatique.

Ce qui est géré dans le prétraitement des données :

    - Données manquantes : supprimer, corriger et imputer les données manquantes
    - Ingénierie des fonctionnalités : extraire des fonctionnalités supplémentaires à partir des données brutes
    - Formatage des données : les données peuvent ne pas être au format dont vous avez besoin. Par exemple, l'API Scikit-learn    exige que les données soient un tableau Numpy (nd-array) ou un DataFrame pandas.
    - Mise à l'échelle des données : Les données peuvent ne pas toutes être à la même échelle. Par exemple, les kilogrammes et les livres peuvent être mis sur la même échelle de 0 à 1.
    - Décomposition : c'est-à-dire ne conserver que l'heure de la journée à partir de la date et de l'heure
    - Agrégation : c'est-à-dire agrégée par connecté vs non connecté
1.3 Exigences de l'API Scikit-learn: L'API sklearn a certaines exigences sur le type de données qu'elle traitera.

    - données stockées sous forme de tableaux numpy ou de dataframes pandas
    - valeurs continues (pas de variables catégorielles)
    - aucune valeur manquante
    - chaque colonne doit être une variable prédictive unique (ou caractéristique)
    - chaque ligne doit être une observation de l'entité
    - il devrait y avoir autant d'étiquettes qu'il y a d'observations d'une caractéristique
1.4 Prétraitement des données dans Scikit-learn: Nous utiliserons le dataset du Titanic pour exécuter le prétraitement des données dans un projet intégré avec Scikit-learn. Ci-dessous les étapes de prétraitement :

    - Charger des données avec Scikit-learn
    - L'analyse exploratoire des données
    - Gérer les valeurs manquantes
    - Encoder les variables (features) catégorielles
    - Mettre à l'échelle les fonctionnalités numériques
    - Construire un pipeline

In [4]:
# Nous utiliserons le dataset des passagers du Titanic

# charger le dataset du Ttanic à l'aide de la fonction de read_csv de pandas.
import pandas as pd
#df = fetch_openml('titanic', version=1, as_frame=True)['data']
df = pd.read_csv('/content/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [None]:
df[200:210]

In [3]:
type(df)

pandas.core.frame.DataFrame

In [12]:
df.shape

(891, 12)

Effectuer une analyse exploratoire des données en commençant par comprendre notre dataset.

In [None]:
# Afficher les colonnes nulles et le type de chaque feature
df.info()

In [None]:
# Afficher des statistiques du dataframe
df.describe()

In [17]:
((df["Survived"]==1).sum())/len(df)

0.3838383838383838

In [18]:
# Afficher les valeurs manquantes
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [31]:
#Vous pourriez supprimer des lignes et des colonnes avec des valeurs manquantes, au risque de perdre trop d'informations.
df = pd.read_csv('/content/titanic.csv')
print(f'Size of the dataset: {df.shape}')
df.drop(['Cabin', 'Ticket', 'PassengerId', 'Name'], axis=1, inplace=True)
print(f'Size of the dataset: {df.shape}')

Size of the dataset: (891, 12)
Size of the dataset: (891, 8)


In [32]:
df.dropna(inplace=True)
print(f'Size of the dataset after dropping: {df.shape}')

Size of the dataset after dropping: (712, 8)


In [33]:
df[:20]

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S
6,0,1,male,54.0,0,0,51.8625,S
7,0,3,male,2.0,3,1,21.075,S
8,1,3,female,27.0,0,2,11.1333,S
9,1,2,female,14.0,1,0,30.0708,C
10,1,3,female,4.0,1,1,16.7,S


Imputation des données manquantes: Il est préférable d'imputer les données à partir de l'ensemble de données. Vous pouvez remplacer les valeurs manquantes en utilisant la valeur la plus courante, ou la moyenne par exemple. Les deux API pandas et sklearn peuvent être utilisés pour remplir les valeurs manquantes.

In [42]:
import pandas as pd
df = pd.read_csv('/content/titanic.csv')
print(f'Number of null values in the age column: {df.Age.isnull().sum()}')

Number of null values in the age column: 177


In [None]:
'''Imputation avec pandas: Remplissez les données manquantes en utilisant la méthode fillna() avec la moyenne de la colonne
comme paramètre'''
df.Age.fillna(df['Age'].mean(), inplace=True)
print(f'Number of null values: {df.Age.isnull().sum()}')
df[:20]

In [None]:
'''with pd.option_context('display.max_rows', None):
    print(df)'''

Imputation avec Scikit-learn: Les imputers Scikit-learn, également connus sous le nom de transformateurs, peuvent être utilisés pour remplir les valeurs manquantes. En utilisant SimpleImputer, nous reproduirons l'opération que nous avons effectuée avec pandas pour remplir les valeurs manquantes avec la moyenne de la colonne.

In [47]:
'''transformation simple: The SimpleImputer class works with the fit_transform method that executes both the fit() and the
transform() methods in a single line '''
import pandas as pd
from sklearn.impute import SimpleImputer
df = pd.read_csv('/content/titanic.csv')
print(f'Number of null values before: {df.Age.isnull().sum()}')
imp = SimpleImputer(strategy='constant',fill_value=25.25)
#stategy= 'mean' ,'median','most_frequent' ou 'constant'
df['Age']=imp.fit_transform(df[['Age']])
print(f'Number of null values after: {df.Age.isnull().sum()}')
df[10:20]
#df.shape

Number of null values before: 177
Number of null values after: 0


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,25.25,0,0,244373,13.0,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,25.25,0,0,2649,7.225,,C


In [None]:
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('/content/titanic.csv')
# Select numerical columns
num_cols = df.select_dtypes(include=['object']).columns
print(num_cols)

# Impute missing values
df.dropna(inplace=True)
# Apply MinMaxScaler
minmax = OneHotEncoder()
d=minmax.fit_transform(df[num_cols]).toarray()
d[:10]

In [None]:
# Les valeurs manquantes:  Parfois, les valeurs manquantes ne sont pas dans le format nan.
print('Data types of missing values')
from sklearn.datasets import fetch_openml
df = fetch_openml('titanic', version=1, as_frame=True)['data']
for col in df.columns[df.isnull().any()]:
    print(col, df[col][df[col].isnull()].values[0])
df['age'][:20]

In [None]:
# Vous pouvez traiter différents types de valeurs manquantes à l'aide du mot clé  missing_values.
from sklearn.impute import SimpleImputer
import numpy as np
df = pd.read_csv('C:/Users/dell/Desktop/titanic.csv')
# l=df[df['Cabin'].isnull()].index.tolist()
# print(l)
imp = SimpleImputer(missing_values=np.nan,strategy='most_frequent')
df['Age'] = imp.fit_transform(df[['Age']])
df.Age.isnull().sum()

Encoding: Encoding means converting information into another format.


In [49]:
'''Encodage de caractéristiques catégorielles avec Scikit-learn: Pour convertir des entités catégorielles avec Scikit-learn,
utilisez OneHotEncoder()avec la méthode fit_transform()'''
import pandas as pd
from sklearn.preprocessing import LabelEncoder
df = pd.read_csv('/content/titanic.csv')
df['Sex']= LabelEncoder().fit_transform(df[['Sex']])
df

  y = column_or_1d(y, warn=True)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",1,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",0,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",0,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",1,26.0,0,0,111369,30.0000,C148,C


In [51]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
df = pd.read_csv('/content/titanic.csv')
df.dropna(inplace=True)
#df.info()
numerical=['Sex','Embarked']
d=OneHotEncoder().fit_transform(df[numerical])
# #df[['Sex','female','male']]
d

<183x5 sparse matrix of type '<class 'numpy.float64'>'
	with 366 stored elements in Compressed Sparse Row format>

In [None]:
df.head()

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelBinarizer
data = ['cold', 'hot','warm','cold','warm','hot']
values = pd.DataFrame(data)
values=LabelBinarizer().fit_transform(values)
print(values)

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder,LabelBinarizer
df = pd.read_csv('C:/Users/dell/Desktop/titanic.csv')
#df['Sex'] = OneHotEncoder().fit_transform(df[['Sex']]).toarray()[:,1]
#df['Sex'] = LabelEncoder().fit_transform(df[['Sex']])
df['Sex'] = LabelBinarizer().fit_transform(df[['Sex']])
df

In [None]:
# Encoder des fonctionnalités catégorielles avec Pandas: L'alternative de pandas à OneHotEncoder est est la méthode get_dummies().
import pandas as pd

df = pd.read_csv('C:/Users/dell/Desktop/titanic.csv')

df['Sex'] = pd.get_dummies(df['Sex'],drop_first=True)

df.head()

Mettre à l'échelle les fonctionnalités numériques:
Dans différents datasets, les plages des difféents caractètistiques des données ne sont pas nécessairement les mêmes. Par exemple, une fonctionnalité peut contenir des données en pounds et l'autre en kilogrammes. Pour être interprétées correctement, ces caractéristiques doivent être à la même échelle

Nous devons donc normaliser les données. Pour normaliser les données, on peut utiliser MinMaxScalerou StandardScaler:

    - MinMaxScaler transforme chaque caractéristique dans une plage de données (par exemple de 0 à 1)
    - StandardScaler standardise les caractéristiques en supprimant la moyenne et en mettant à l'échelle la variance unitaire  afin que chaque entité ait μ = 0 et  σ = 1.
Nous allons suivre une série d'étapes pour appliquer les deux classes :

1. Charger les données
2. Sélectionnez des colonnes numériques à l'aide de la méthode select_dtypes(include=['int64', 'float64', 'int32'])
3. Créez une boucle pour imputer les valeurs manquantes sur chaque colonne numérique
4. Appliquer la classe scaler

In [None]:
# MinMaxScaler: MinMaxScaler() put all numeric values on a scale from 0 to 1.
from sklearn.preprocessing import MinMaxScaler

df = pd.read_csv('C:/Users/dell/Desktop/titanic.csv')
# Select numerical columns
num_cols = df.select_dtypes(include=['int64', 'float64', 'int32']).columns
print(num_cols)

# Impute missing values
for col in num_cols:
    fill_value = df[col].mean()
    df[col].fillna(fill_value, inplace=True)
# Apply MinMaxScaler
minmax = MinMaxScaler()
df[num_cols] = minmax.fit_transform(df[num_cols])
df[num_cols]

In [None]:
from seaborn import displot
from matplotlib import pyplot
# create histogram plot
displot(df['Age'])
# show plot
pyplot.show()

In [None]:
# StandardScaler: StandardScaler()put all numeric values on a scale where the mean equals 0 and the standard deviation equals 1.

from sklearn.preprocessing import StandardScaler

df = pd.read_csv('C:/Users/dell/Desktop/titanic.csv')

# Select numerical columns
num_cols = df.select_dtypes(include=['int64', 'float64', 'int32']).columns
print(num_cols)

# Impute missing values
for col in num_cols:
    fill_value = df[col].mean()
    df[col].fillna(fill_value, inplace=True)
# Apply StandardScaler
ss = StandardScaler()
df[num_cols] = ss.fit_transform(df[num_cols])
df[num_cols].describe()

In [None]:
from seaborn import displot
from matplotlib import pyplot
# create histogram plot
displot(df['Age'])
# show plot
pyplot.show()

# Pipeline avancée

In [None]:
df = pd.read_csv('C:/Users/dell/Desktop/titanic.csv')
y=df['Survived']
X=df.drop(['Survived','Cabin','PassengerId','Name','Ticket'], axis=1)
X

In [None]:
y

In [None]:
# model =make_pipeline(StandardScaler(),SGDClassifier())
# model.fit(X,y)

In [None]:
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import SGDClassifier

In [None]:
import numpy as np
numerical_features=make_column_selector(dtype_include=np.number)
categorical_features=make_column_selector(dtype_exclude=np.number)

In [None]:
# numerical_features=['Age','Fare','Pclass','SibSp','Parch']
# #numerical_features=make_column_selector(dtype_include=np.number)
# categorical_features=['Sex','Embarked']
# #categorical_features=make_column_selector(dtype_exclude=np.number)

In [None]:
from sklearn.preprocessing import StandardScaler,OneHotEncoder
from sklearn.impute import SimpleImputer
numerical_pipeline=make_pipeline(SimpleImputer(),StandardScaler())
categorical_pipeline=make_pipeline(SimpleImputer(strategy='most_frequent'),OneHotEncoder())

In [None]:
preprocessor=make_column_transformer((numerical_pipeline,numerical_features),(categorical_pipeline,categorical_features))

In [None]:
model=make_pipeline(preprocessor, SGDClassifier())

In [None]:
model.fit(X,y)

In [None]:
model.score(X,y)

In [None]:
import matplotlib.pyplot as plt
plt.plot(df['Age'])
plt.show()