<h2 align="center"> 1eme Exemple </h2>  
<h6 align="right" > réalisé par : Farah Ftouhi , Seif Barouni & Aziz Bel Hadj Yahia</h6>
</br>

Bienvenue dans ce notebook sur le module sklearn.preprocessing! Dans ce notebook, nous allons passer en revue différentes méthodes de prétraitement de données que vous pouvez utiliser pour nettoyer, normaliser et transformer vos données avant de les utiliser pour entraîner des modèles.

Pour commencer, nous allons importer les bibliothèques nécessaires pour ce notebook. Nous avons besoin de `numpy`, `pandas` et `sklearn.preprocessing` pour effectuer les opérations de prétraitement de données. 

In [1]:
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.impute import SimpleImputer

Le code suivant est utilisé pour charger un ensemble de données à partir d'un fichier CSV. Le fichier CSV est lu à l'aide de la fonction `read_csv()` de la bibliothèque `pandas`. Le chemin du fichier est spécifié en tant qu'argument de la fonction. Le contenu du fichier est stocké dans un objet `DataFrame` appelé `df`.

In [2]:
# 2. Charger le dataset
df = pd.read_csv('netflix_titles.csv')

Le code suivant traite les valeurs manquantes dans l'ensemble de données. Tout d'abord, il est important de noter que les valeurs manquantes peuvent affecter les résultats de nos analyses et de nos modèles. Il est donc important de les traiter avant d'aller plus loin.

Nous avons deux options pour gérer les valeurs manquantes: soit nous pouvons supprimer les lignes qui contiennent des valeurs manquantes, soit nous pouvons remplacer les valeurs manquantes par des valeurs imputées.

Dans ce cas, nous utilisons l'imputation pour remplacer les valeurs manquantes. Nous créons une instance de la classe `SimpleImputer` de la bibliothèque `sklearn.impute` en spécifiant la stratégie `most_frequent`. Cela signifie que les valeurs manquantes seront remplacées par la valeur la plus fréquente dans la colonne respective.

Ensuite, nous utilisons la méthode `fit_transform()` de l'objet imputer pour remplacer les valeurs manquantes dans l'ensemble de données `df`. Le résultat est un tableau NumPy qui est ensuite converti en un objet DataFrame df.

In [3]:
# 3. Gérer les valeurs manquantes
# Supprimer toutes les lignes contenant des valeurs manquantes
#df.dropna(inplace=True)
# Ou utiliser SimpleImputer avec la stratégie de most_frequent (la plus fréquente)
imputer = SimpleImputer(strategy='most_frequent')
df = imputer.fit_transform(df)

df = pd.DataFrame(df, columns=['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added', 'release_year', 'rating', 'duration', 'listed_in', 'description'])

Puis, nous vérifions s'il reste des valeurs manquantes dans l'ensemble de données en utilisant la méthode `isnull().sum()`. Cela nous donne le nombre total de valeurs manquantes pour chaque colonne.

In [4]:
# Vérifier s'il y a des valeurs manquantes
print(df.isnull().sum())

show_id         0
type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
description     0
dtype: int64


Le code ci-dessous est utilisé pour convertir les variables catégorielles de l'ensemble de données en variables numériques, ce qui est souvent nécessaire pour l'analyse et la modélisation. Nous utilisons une méthode appelée encodage de labels pour effectuer cette conversion.

Tout d'abord, nous créons une instance de la classe `LabelEncoder` de la bibliothèque `sklearn.preprocessing`.

In [5]:
le = preprocessing.LabelEncoder()

Nous convertissons ensuite la colonne `"release_year"` en un type numérique en utilisant la méthode `pd.to_numeric()` de la bibliothèque `pandas`.

In [6]:
df['release_year'] = pd.to_numeric(df['release_year'], errors='coerce')

Nous identifions ensuite les colonnes non numériques dans l'ensemble de données en utilisant la méthode `select_dtypes()` de la bibliothèque `pandas` et nous stockons ces colonnes dans une variable appelée `non_numeric_cols`.

In [7]:
non_numeric_cols = df.select_dtypes(exclude=np.number).columns

Nous utilisons ensuite une boucle for pour parcourir toutes les colonnes non numériques et appliquer l'encodage de labels. La méthode `fit_transform()` de l'objet `LabelEncoder` est utilisée pour effectuer l'encodage.

In [8]:
for col in non_numeric_cols:
    df[col] = le.fit_transform(df[col])

Enfin, nous affichons les colonnes qui vont être encodées en utilisant la méthode `print()`.

In [9]:
# Vérifier si les données sont encodées
print(df)

      show_id  type  title  director  cast  country  date_added  release_year  \
0           0     0   1975      2295  1699      603        1711          2020   
1        1111     1   1091      3392   409      426        1706          2021   
2        2222     1   2651      2105  6296      603        1706          2021   
3        3333     1   3506      3392  1699      603        1706          2021   
4        4444     1   3861      3392  4815      251        1706          2021   
...       ...   ...    ...       ...   ...      ...         ...           ...   
8802     8671     0   8770       979  4677      603        1419          2007   
8803     8672     1   8773      3392  1699      603         788          2018   
8804     8673     0   8774      3631  3231      603        1366          2009   
8805     8674     0   8777      3247  7061      603         665          2006   
8806     8675     0   8781      2926  7297      251        1127          2015   

      rating  duration  lis

Dans cet exemple, nous avons utilisé la fonction `train_test_split` de la bibliothèque `sklearn.model_selection` pour diviser l'ensemble de données en un ensemble de données d'entraînement et un ensemble de données de test.

La première étape consiste à définir les variables indépendantes (X) et la variable dépendante (y) que nous voulons prédire. Nous utilisons la méthode `iloc()` de la bibliothèque `pandas` pour extraire les colonnes nécessaires de l'ensemble de données. Dans cet exemple, nous avons extrait les deux premières colonnes de l'ensemble de données pour X et la troisième colonne pour y.

In [10]:
# 5. Diviser les données en ensembles d'entraînement et de test
from sklearn.model_selection import train_test_split

X = df.iloc[:, 0:2]
y = df.iloc[:, 2]

Nous avons ensuite utilisé la fonction `train_test_split()` pour diviser l'ensemble de données en ensembles d'entraînement et de test. Cette fonction prend en entrée les variables indépendantes (X) et la variable dépendante (y) ainsi que le pourcentage de données que nous voulons réserver pour l'ensemble de test (dans cet exemple, 20% de l'ensemble de données). Nous avons également utilisé le paramètre `random_state` pour garantir que les résultats sont reproductibles.

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Enfin, nous avons assigné les ensembles d'entraînement et de test aux variables `X_train`, `X_test`, `y_train` et `y_test`. Ces variables seront utilisées pour entraîner et tester nos modèles.

Il est important de diviser l'ensemble de données en ensembles d'entraînement et de test pour évaluer la performance de notre modèle. En utilisant l'ensemble d'entraînement pour entraîner notre modèle, nous pouvons évaluer sa performance sur l'ensemble de test, qui contient des données inconnues pour le modèle. Cela nous permet de mesurer la capacité du modèle à généraliser à de nouvelles données.

Le bloc de code suivant met à l'échelle les données en utilisant `StandardScaler` du module `sklearn.preprocessing`. `StandardScaler` met les données à l'échelle pour avoir une moyenne de zéro et un écart type de un. C'est important car cela permet aux caractéristiques avec des échelles plus grandes d'être traitées de manière égale que les caractéristiques avec des échelles plus petites. Dans ce cas, `X_train` et `X_test` sont modifiés pour être mises à l'échelle. fit_transform est utilisé sur `X_train` pour ajuster la mise à l'échelle des données d'apprentissage, tandis que transform est utilisé sur `X_test` pour appliquer la même mise à l'échelle à ces données.

In [12]:
# 6. Mise à l'échelle des données
# Mise à l'échelle des données en utilisant StandardScaler
from sklearn.preprocessing import StandardScaler

# Création de l'objet StandardScaler
scaler = StandardScaler()

# Mise à l'échelle des données d'apprentissage
X_train = scaler.fit_transform(X_train)

# Mise à l'échelle des données de test en utilisant la même transformation
X_test = scaler.transform(X_test)

print(X_train)
print(X_test)

[[ 0.22517855 -0.65786337]
 [ 0.1543522   1.52007247]
 [ 0.2786918  -0.65786337]
 ...
 [ 0.18976538  1.52007247]
 [ 1.596849   -0.65786337]
 [ 1.0117446  -0.65786337]]
[[ 0.00601033 -0.65786337]
 [-0.69674453 -0.65786337]
 [ 0.23501555  1.52007247]
 ...
 [ 1.31905229 -0.65786337]
 [ 0.95744439 -0.65786337]
 [-0.7148446  -0.65786337]]


Le bloc de code suivant utilise `SelectKBest` du module `sklearn.feature_selection` pour sélectionner les deux meilleures caractéristiques. La fonction `chi2` est utilisée comme méthode de score pour `SelectKBest`. `X_train` et `X_test` sont également corrigées pour ne pas avoir de valeurs négatives. Ensuite, `fit_transform` est utilisé pour adapter et transformer `X_train` avec la sélection des deux meilleures caractéristiques, tandis que `fit_transform` est également utilisé pour transformer `X_test` avec la même sélection de deux meilleures caractéristiques.

In [13]:
# 7. Sélection des caractéristiques
# Sélection des deux meilleures caractéristiques à l'aide de SelectKBest et chi2
from sklearn.feature_selection import SelectKBest, chi2

# Correction des valeurs négatives
X_train = X_train - X_train.min()
X_test = X_test - X_test.min()

# Sélection des deux meilleures caractéristiques pour les données d'apprentissage et de test
X_train = SelectKBest(chi2, k=2).fit_transform(X_train, y_train)
X_test = SelectKBest(chi2, k=2).fit_transform(X_test, y_test)