<a href="https://colab.research.google.com/github/astridcvr/astridcvr/blob/main/day_03_cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
# ============================================================
#  Day 3: Data Cleaning / Jour 3 : Nettoyage des données
# Handle missing values using mean/mode imputation and remove
# columns with excessive nulls.
# Gérer les valeurs manquantes avec l’imputation (moyenne/modale)
# et supprimer les colonnes trop incomplètes.
# ============================================================

import pandas as pd

# Load the dataset / Charger le jeu de données
url = "https://raw.githubusercontent.com/astridcvr/daily-ml-practice/main/sales_data_sample.csv"
df = pd.read_csv(url, encoding="latin1")

# Display dataset shape / Afficher la taille du jeu de données
print("Dataset shape:", df.shape)

# Detect missing values / Détecter les valeurs manquantes
missing = df.isnull().sum()
print("\nColumns with missing values / Colonnes avec des valeurs manquantes :")
print(missing)

# Summarize columns with missing values / Résumer les colonnes avec des valeurs manquantes
missing_summary = pd.DataFrame({
    "Column": missing[missing > 0].index,
    "MissingValues": missing[missing > 0].values
})
print("\nSummary of missing values / Résumé des valeurs manquantes :")
print(missing_summary)

# Create a copy of the dataframe for cleaning / Créer une copie pour le nettoyage
df_cleaned = df.copy()

# Remove columns with excessive missing values (>50%) / Supprimer les colonnes avec trop de valeurs manquantes
threshold = len(df_cleaned) * 0.5
df_cleaned = df_cleaned.dropna(axis=1, thresh=threshold)

# Identify numeric and categorical columns / Identifier les colonnes numériques et catégorielles
num_cols = df_cleaned.select_dtypes(include=["float64", "int64"]).columns
cat_cols = df_cleaned.select_dtypes(include=["object"]).columns

# Fill numeric columns with mean / Remplir les colonnes numériques avec la moyenne
for col in num_cols:
    df_cleaned.loc[:, col] = df_cleaned[col].fillna(df_cleaned[col].mean())

# Fill categorical columns with mode / Remplir les colonnes catégorielles avec la valeur modale
for col in cat_cols:
    if df_cleaned[col].isnull().any():
        df_cleaned.loc[:, col] = df_cleaned[col].fillna(df_cleaned[col].mode()[0])

# Verify missing values after cleaning / Vérifier les valeurs manquantes après le nettoyage
print("\nMissing values after cleaning / Valeurs manquantes après nettoyage :")
print(df_cleaned.isnull().sum().sum())

print("\n✅ Data cleaning complete! / Nettoyage des données terminé !")


Dataset shape: (2823, 25)

Columns with missing values / Colonnes avec des valeurs manquantes :
ORDERNUMBER            0
QUANTITYORDERED        0
PRICEEACH              0
ORDERLINENUMBER        0
SALES                  0
ORDERDATE              0
STATUS                 0
QTR_ID                 0
MONTH_ID               0
YEAR_ID                0
PRODUCTLINE            0
MSRP                   0
PRODUCTCODE            0
CUSTOMERNAME           0
PHONE                  0
ADDRESSLINE1           0
ADDRESSLINE2        2521
CITY                   0
STATE               1486
POSTALCODE            76
COUNTRY                0
TERRITORY           1074
CONTACTLASTNAME        0
CONTACTFIRSTNAME       0
DEALSIZE               0
dtype: int64

Summary of missing values / Résumé des valeurs manquantes :
         Column  MissingValues
0  ADDRESSLINE2           2521
1         STATE           1486
2    POSTALCODE             76
3     TERRITORY           1074

Missing values after cleaning / Valeurs manquante