# üßº S√©ance 3 : Nettoyage et Pr√©traitement des Donn√©es
Dataset : Amazon Products Ratings & Reviews

Dans cette s√©ance, nous allons apprendre √† :
- Identifier et traiter les valeurs manquantes
- Convertir les types de donn√©es
- Supprimer les doublons
- Nettoyer le texte
- Encoder les variables cat√©gorielles
- Appliquer une normalisation ou standardisation

In [None]:
# üì¶ Chargement des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler

In [None]:
# T√©l√©charger le fichier CSV directement depuis GitHub
!wget https://raw.githubusercontent.com/bidoscar/AFRICITIZEN-ACDS-Coding/main/Seance_1_Manipulation_Pandas/Datasets/amazon.csv

| Colonne             | Description en fran√ßais                                                   |
|---------------------|---------------------------------------------------------------------------|
| `product_id`        | Identifiant unique du produit                                             |
| `product_name`      | Nom du produit                                                            |
| `category`          | Cat√©gorie ou arborescence du produit sur Amazon                          |
| `discounted_price`  | Prix remis√© du produit (apr√®s r√©duction)                                 |
| `actual_price`      | Prix initial (sans r√©duction)                                            |
| `discount_percentage` | Pourcentage de r√©duction appliqu√©                                     |
| `rating`            | Note moyenne donn√©e par les utilisateurs (sur 5)                         |
| `rating_count`      | Nombre d‚Äôutilisateurs ayant √©valu√© le produit                            |
| `about_product`     | Description ou caract√©ristiques principales du produit                   |
| `user_id`           | Identifiant(s) des utilisateur(s) ayant laiss√© un avis                   |
| `user_name`         | Nom(s) des utilisateur(s) ayant laiss√© un avis                           |
| `review_id`         | Identifiant unique de l‚Äôavis utilisateur                                 |
| `review_title`      | Titre court ou r√©sum√© de l‚Äôavis                                          |
| `review_content`    | Contenu d√©taill√© de l‚Äôavis                                                |
| `img_link`          | Lien vers l‚Äôimage du produit                                              |
| `product_link`      | Lien vers la fiche produit officielle sur Amazon                         |


In [None]:
# Chargement du fichier CSV
df = pd.read_csv('amazon.csv')
df.head()

## üîç 1. Inspection et valeurs manquantes

In [None]:
# Aper√ßu des infos g√©n√©rales
df.info()

In [None]:
# Valeurs manquantes
df.isnull().sum()

## üßπ 2. Nettoyage des types de donn√©es
On va retirer ‚Çπ et % pour convertir en float.

In [None]:
# Cr√©ons d'abord une copie de notre jeu de donn√©es
df1 = df.copy()

In [None]:
# On a remarqu√© la pr√©sence de | dans la colonne rating
# Essayons de le remplacer par une value manquant (on peut aussi d√©cider de le remplacer avec la m√©diane ou la moyenne)
df1['rating'] = df1['rating'].replace('|', np.nan)

In [None]:
# Enlevons le symbol de devise et le d√©limitateur de millier
df1['discounted_price'] = df1['discounted_price'].str.replace("‚Çπ", "").str.replace(",", "").astype(float)
df1['actual_price'] = df1['actual_price'].str.replace("‚Çπ", "").str.replace(",", "").astype(float)
df1['rating'] = df1['rating'].str.replace(",", "").astype(float)
df1['rating_count'] = df1['rating_count'].str.replace(",", "").astype(float)

In [None]:
# Changeons le type de donn√©e et ramenons le pourcentage en proportion (entre 0 et 1) dans discount_Percentage
df1['discount_percentage'] = df1['discount_percentage'].str.replace('%','').astype('float64')
df1['discount_percentage'] = df1['discount_percentage'] / 100

## üìë 3.1 Gestion des valeurs manquantes

In [None]:
# Une copy de nos donnees
df2 = df1.copy()

In [None]:
# Valeurs manquantes
df2.isnull().sum()

In [None]:
# Verifions si la variable est normalement distribuee
sns.histplot(df2['rating_count'], kde=True, color='green')
plt.title('Histogramme avec densit√© (seaborn)')
plt.xlabel("Nombre d'Evaluation")
plt.show()

In [None]:
df2['rating_count'].describe()

In [None]:
# Suppression ou imputation des valeurs manquantes
# df1['rating_count'].fillna(df1['rating_count'].median(), inplace=True)
df2.fillna({'rating_count': df2['rating_count'].median()}, inplace=True)

In [None]:
# Verifions si la variable est normalement distribuee
sns.histplot(df2['rating'], kde=True, color='green')
plt.title('Histogramme avec densit√© (seaborn)')
plt.xlabel('Evaluation')
plt.show()

In [None]:
# Comparons le moyenne a la mediane
df2['rating'].describe()

In [None]:
# Imputation des valeurs manquantes de rating par sa moyenne
# df2['rating'].fillna(df2['rating'].mean(), inplace=True)
# df2.fillna({'rating': df2['rating'].mean()}, inplace=True)

In [None]:
# verifions la ligne ayant la valeur manquante
df2[df2['rating'].isnull()]

In [None]:
index_du_nan = df2[df2['rating'].isnull()].index.tolist()
index_du_nan

In [None]:
df2.loc[index_du_nan[0], 'product_name']

In [None]:
df2.fillna({'rating': 3.9}, inplace=True)

In [None]:
# Valeurs manquantes
df2.isnull().sum()

## üìë 3.2 Gestion des doublons

In [None]:
# Find Duplicate
df2.duplicated().any()

In [None]:
df2.columns

In [None]:
#df2.duplicated(subset=['product_id', 'product_name', 'rating'])
df2.duplicated(subset=['product_id', 'product_name', 'rating', 'rating_count', 'about_product']).any()

In [None]:
df2[df2.duplicated(subset=['product_id', 'product_name', 'rating', 'rating_count', 'about_product'])]

In [None]:
df2[df2.duplicated(subset=['product_id', 'product_name', 'rating', 'rating_count', 'about_product'])]['product_id'].value_counts()

In [None]:
# Supprimer les doublons partiels (en gardant la premi√®re occurrence uniquement)
df3 = df2.drop_duplicates(subset=['product_id', 'product_name', 'rating', 'rating_count', 'about_product'], keep='first')

In [None]:
# Supprimer les colonnes indesirables
df3.drop(['product_name', 'about_product', 'user_id', 'user_name', 'review_id', 'review_title', 'review_content', 'img_link', 'product_link'], axis=1, inplace=True)

In [None]:
df3.head()

## ‚úèÔ∏è 4.1 Nettoyage des cha√Ænes de caract√®res

In [None]:
# Mise en minuscules et suppression espaces
df3['product_id'] = df3['product_id'].str.lower().str.strip()
df3['category'] = df3['category'].str.lower().str.strip()

## ‚úèÔ∏è 4.2 Nettoyage des cha√Ænes de caract√®res

In [None]:
df3['category'].value_counts()

In [None]:
df3['category'][0]

In [None]:
df3.sample(n=1)['category'].values

In [None]:
# S√©parer la cha√Æne 'category' selon le s√©parateur "|"
category_split = df3['category'].str.split('|', expand=True)
category_split

In [None]:
# Renommer les colonnes r√©sultantes
category_split.columns = [f'category_level_{i+1}' for i in range(category_split.shape[1])]
category_split.head()

In [None]:
category_split.isnull().sum()/len(category_split)*100

In [None]:
# remplissage en avant (forward fill) ligne par ligne.
category_split = category_split.ffill(axis=1)
category_split.head()

In [None]:
category_split['category_level_1'].value_counts()

In [None]:
category_split['category_level_2'].value_counts()

In [None]:
category_split['category_level_3'].value_counts()

In [None]:
category_split['category_level_7'].value_counts()

In [None]:
# Cr√©er une s√©rie des fr√©quences
value_counts = category_split['category_level_1'].value_counts()

# Identifier les cat√©gories rares (< 10 occurrences)
categories_rares = value_counts[value_counts < 10].index

# Remplacer ces modalit√©s par 'autres'
category_split['category_level_1'] = category_split['category_level_1'].replace(categories_rares, 'others')

In [None]:
category_split['category_level_1'].value_counts()

In [None]:
# Remplacer ces modalit√©s par 'autres'
category_split['category_level_1'] = category_split['category_level_1'].replace('others', 'officeproducts&other').replace('officeproducts', 'officeproducts&other')

In [None]:
category_split['category_level_1'].value_counts()

In [None]:
# Ajouter les nouvelles colonnes au DataFrame d'origine
df4 = pd.concat([df3, category_split['category_level_1']], axis=1)
df4.head()

In [None]:
# Profitons pour recreer la variable categorielle de rating qu'on avait creee pendant le seance derniere
# Create a new categorical variable from rating
def classify_rating(r):
    if r <= 3.9:
        return "Medium"
    else:
        return "High"

df4['rating_level'] = df4['rating'].apply(classify_rating)
df4['rating_level'].value_counts()

## üî† 5. Encodage des variables cat√©gorielles

In [None]:
df4['category_level_1'].value_counts()

In [None]:
le = LabelEncoder()
df4['category_level_1_encoded'] = le.fit_transform(df4['category_level_1'])
df4['category_level_1_encoded'].value_counts()

In [None]:
pd.crosstab(df4['category_level_1_encoded'], df4['category_level_1'])

In [None]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
encoded = ohe.fit_transform(df4[['category_level_1']])

In [None]:
# Get column names from the encoder
col_names = ohe.get_feature_names_out(['category_level_1'])

# Convert the sparse matrix to a DataFrame
encoded_df = pd.DataFrame(encoded.toarray(), columns=col_names)

# Display the first rows
encoded_df.head()

In [None]:
# Ajouter les nouvelles colonnes au DataFrame d'origine
df5 = pd.concat([df4, encoded_df], axis=1)
df5.head()

In [None]:
encoded = ohe.fit_transform(df4[['rating_level']])
# Get column names from the encoder
col_names = ohe.get_feature_names_out(['rating_level'])

# Convert the sparse matrix to a DataFrame
encoded_df = pd.DataFrame(encoded.toarray(), columns=col_names)

# Ajouter les nouvelles colonnes au DataFrame d'origine
df6 = pd.concat([df5, encoded_df], axis=1)
df6.head()

## üìè 6. Normalisation et standardisation

La mise √† l‚Äô√©chelle des donn√©es est essentielle pour de nombreux algorithmes de machine learning, en particulier ceux qui sont sensibles √† la magnitude des valeurs num√©riques.

üéØ **1. √âviter les biais dus aux unit√©s de mesure**
* Si une variable est exprim√©e en euros (ex. prix = 1000) et une autre en note (ex. rating = 4.5), un algorithme non normalis√© pourrait accorder trop d‚Äôimportance √† la variable qui a les plus grandes valeurs num√©riques (m√™me si elle est moins importante).

‚öñÔ∏è **2. √âquilibrer l‚Äôinfluence des variables**
* KNN, SVM, r√©gression logistique, r√©seaux de neurones, etc. utilisent des distances ou des produits scalaires.

* Si les variables sont sur des √©chelles diff√©rentes, cela fausse la distance ou l‚Äôoptimisation, car une variable "domine" les autres.

‚öôÔ∏è **3. Am√©liorer la convergence des mod√®les**
* Les algorithmes comme la descente de gradient (utilis√©e dans les r√©gressions ou r√©seaux de neurones) convergent plus vite et plus efficacement si les donn√©es sont centr√©es et r√©duites.

* Sinon, l‚Äôalgorithme oscille et apprend plus lentement.

In [None]:
# une autre copy des donnees
df7 = df6.copy()

In [None]:
# Appliquer Normalisation (Min-Max Scaling)
minmax_scaler = MinMaxScaler()
df7['discounted_price_minmax'] = minmax_scaler.fit_transform(df7[['discounted_price']])

# Appliquer Standardisation (Z-score Scaling)
standard_scaler = StandardScaler()
df7['discounted_price_zscore'] = standard_scaler.fit_transform(df7[['discounted_price']])

In [None]:
df7[['discounted_price', 'discounted_price_minmax', 'discounted_price_zscore']].describe()

In [None]:
# Standardisation des prix
scaler = StandardScaler()
df6[['discounted_price_scaled', 'actual_price_scaled', 'rating_count_scaled', 'discount_percentage_scaled', 'rating_scaled']] = scaler.fit_transform(df6[['discounted_price', 'actual_price', 'rating_count', 'discount_percentage', 'rating']])

## 7 Gerer les valeurs aberantes

In [None]:
sns.boxplot(x=df6['discounted_price_scaled'], color='lightcoral')
plt.title('Boxplot des prix remises (seaborn)')
plt.show()

In [None]:
mean_dis_price = df6['discounted_price_scaled'].mean()
std_dis_price = df6['discounted_price_scaled'].std()

lower_bound = mean_dis_price - 1 * std_dis_price
upper_bound = mean_dis_price + 1 * std_dis_price

# Supprimer les valeurs en dehors de ces bornes
df_clean = df6[(df6['discounted_price_scaled'] >= lower_bound) & (df6['discounted_price_scaled'] <= upper_bound)]

In [None]:
sns.boxplot(x=df_clean['discounted_price_scaled'], color='lightcoral')
plt.title('Boxplot des prix remises (seaborn)')
plt.show()

Suppression bas√©e sur l‚ÄôIQR (m√©thode boxplot)

In [None]:
Q1 = df6['discounted_price_scaled'].quantile(0.25)
Q3 = df6['discounted_price_scaled'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 0.5 * IQR
upper_bound = Q3 + 0.5 * IQR

# Supprimer les valeurs en dehors de ces bornes
df_clean = df6[(df6['discounted_price_scaled'] >= lower_bound) & (df6['discounted_price_scaled'] <= upper_bound)]

In [None]:
sns.boxplot(x=df_clean['discounted_price_scaled'], color='lightcoral')
plt.title('Boxplot des prix remises (seaborn)')
plt.show()

In [None]:
df_clean.columns

In [None]:
from scipy.stats.mstats import winsorize

df7['discounted_price_scaled_winsor'] = winsorize(df6['discounted_price_scaled'], limits=[0.01, 0.2])


Winsorization (remplacement par des bornes extr√™mes)

In [None]:
sns.boxplot(x=df7['discounted_price_scaled_winsor'], color='lightcoral')
plt.title('Boxplot des prix remises (seaborn)')
plt.show()

In [None]:
df7['discounted_price_log'] = np.log1p(df6['discounted_price'])  # log(1 + x)

In [None]:
sns.boxplot(x=df7['discounted_price_log'], color='lightcoral')
plt.title('Boxplot des prix remises (seaborn)')
plt.show()

## ‚úÖ Donn√©es pr√™tes √† l‚Äôusage !