# Nettoyage des Donn√©es eBay - Laptops

Ce notebook a pour objectif de charger, nettoyer et transformer les donn√©es issues de fichiers CSV contenant des informations sur des laptops vendus sur eBay.
Les principales op√©rations effectu√©es sont :

- **Nettoyage de la colonne `Price`** : suppression des caract√®res inutiles et conversion en type num√©rique.
- **Uniformisation des unit√©s** pour les colonnes telles que `RAM` et `Storage` (conversion en GB).
- **Extraction et conversion** des valeurs de la colonne `Screen Size`.
- **Imputation des valeurs manquantes** selon des r√®gles d√©finies.
- **Nettoyage des titres** pour retirer les informations non essentielles.
- **Suppression des doublons** en ne conservant que l‚Äôenregistrement avec le prix minimum pour chaque produit unique.

Chaque fonction utilis√©e est expliqu√©e en d√©tail dans la suite du notebook.


In [None]:
# Importation des biblioth√®ques n√©cessaires
import os
import pandas as pd
import numpy as np
import re
from pathlib import Path

# D√©finir le r√©pertoire de base : ici nous utilisons le r√©pertoire de travail actuel
BASE_DIR = Path.cwd()  # ou adaptez ce chemin en fonction de votre arborescence

# D√©finir les r√©pertoires pour les donn√©es brutes et les donn√©es nettoy√©es
RAW_DATA_DIR = BASE_DIR / 'data' / 'raw' / 'ebay' / 'laptops'
CLEANED_DATA_DIR = BASE_DIR / 'data' / 'cleaned' / 'ebay' / 'laptops'

# Cr√©er le r√©pertoire de donn√©es nettoy√©es s'il n'existe pas
CLEANED_DATA_DIR.mkdir(parents=True, exist_ok=True)

# Afficher les chemins pour v√©rification
print(f"Base directory: {BASE_DIR}")
print(f"Raw data directory: {RAW_DATA_DIR}")
print(f"Cleaned data directory: {CLEANED_DATA_DIR}")

# V√©rifier que le r√©pertoire des donn√©es brutes existe
if not RAW_DATA_DIR.exists():
    raise FileNotFoundError(f"Le r√©pertoire des donn√©es brutes est introuvable : {RAW_DATA_DIR}")

# V√©rifier la pr√©sence de fichiers CSV dans le r√©pertoire raw
files = list(RAW_DATA_DIR.glob('*.csv'))
if not files:
    print(f"Aucun fichier CSV trouv√© dans {RAW_DATA_DIR}")
else:
    print(f"{len(files)} fichier(s) CSV trouv√©(s) dans {RAW_DATA_DIR}")


### Fonction : `clean_price`

Cette fonction prend une valeur de la colonne `Price` (souvent une cha√Æne de caract√®res contenant des symboles ou des s√©parateurs) et :

- Supprime les caract√®res non num√©riques (en gardant le point et la virgule).
- Remplace la virgule par un point et supprime les espaces.
- G√®re les cas o√π il y a plusieurs points en ne conservant qu‚Äôun seul point d√©cimal.
- Convertit finalement la cha√Æne nettoy√©e en nombre flottant (`float`) ou retourne `np.nan` si la cha√Æne est vide.


In [None]:
def clean_price(price):

    if isinstance(price, str):
        # Conserver uniquement les chiffres, le point et la virgule
        cleaned = ''.join(c for c in price if c.isdigit() or c in {'.', ','})
        # Remplacer la virgule par un point et supprimer les espaces √©ventuels
        cleaned = cleaned.replace(',', '.').replace(' ', '')
        # G√©rer le cas de plusieurs points en ne gardant qu‚Äôun seul point d√©cimal
        if '.' in cleaned:
            parts = cleaned.split('.')
            if len(parts) > 2:
                cleaned = parts[0] + '.' + ''.join(parts[1:])
        return float(cleaned) if cleaned else np.nan
    return price


### Fonction : `convert_to_gb`

Cette fonction convertit les valeurs de m√©moire (RAM ou Storage) en Gigaoctets (GB).
Elle accepte une cha√Æne de caract√®res contenant un nombre suivi d‚Äôune unit√© (par exemple, "8GB", "1.5 TB" ou "512 MB") et :

- Extrait la valeur num√©rique et l‚Äôunit√©.
- Convertit l‚Äôunit√© en GB (1 TB = 1000 GB, 1 MB = 1/1000 GB).
- Retourne `np.nan` si la valeur est manquante ou invalide.


In [None]:
def convert_to_gb(value):
    if pd.isna(value) or value in ['N/A', '', ' ']:
        return np.nan
    match = re.match(r'(\d+\.?\d*)\s*([GTM]B?|GB)', str(value), re.IGNORECASE)
    if match:
        num, unit = match.groups()
        num = float(num)
        unit = unit.upper()
        if 'T' in unit:
            return num * 1000
        elif 'M' in unit:
            return num / 1000
        return num
    return np.nan


### Fonction : `impute_missing_values`

Pour certaines colonnes critiques (comme `RAM`, `Storage`, `Screen Size`, `CPU` et `Price`), il est important de g√©rer les valeurs manquantes.
Cette fonction applique diff√©rentes strat√©gies d‚Äôimputation :

- **M√©diane** : pour `RAM`, `Storage`, `Screen Size` et `Price`.
- **Forward Fill (ffill)** : pour `CPU`.

Elle retourne le DataFrame avec les valeurs manquantes imput√©es.


In [None]:
def impute_missing_values(df):

    imputation_rules = {
        'RAM': 'median',
        'Storage': 'median',
        'Screen Size': 'median',
        'CPU': 'ffill',
        'Price': 'median'
    }

    for col, method in imputation_rules.items():
        if col in df.columns:
            if method == 'median':
                df[col] = df[col].fillna(df[col].median())
            elif method == 'ffill':
                df[col] = df[col].ffill()
    return df


### Fonction : `clean_title`

Les titres des annonces peuvent contenir de nombreux termes et symboles superflus (sp√©cifications techniques r√©p√©titives, mentions inutiles, etc.).
Cette fonction utilise une expression r√©guli√®re pour supprimer ces mots-cl√©s et nettoyer le titre afin de le rendre plus lisible.


In [None]:
def clean_title(title):

    return re.sub(
        r'(?i)\b(8GB|. |PC|Notebook|Ryzen|UHD|Graphics|DDR4|AMD|W11|Win11|Win|11|Cond|!!|LOADED|TouchBar|Mac OS|Black| i3StorageWin|Gaming|Laptop|Touchscreen|Pro|15.6|Windows|RTX|FHD|LaptopWin11|HDD| ,|French|13inch|'
        r' - | /|macOS|VENTURA|FREE|SHIPPIN|i9|13.3|inches|TURBO|"|- | , |13INCH|EXCELLENT|'
        r'REFURBISHED|NEW|MWTK2LL|Qwerty|Spanish|Keyboard|British|\d+GB|\d+TB|[\d\.]+ ?GHz| GB |'
        r'rouge|Gray|BIG SUR|WEBCAM|WIFI|BLUETOOTHGB|TB|space gray|silver|gold|touch bar|GHz|'
        r'Intel|Core|i7|th|Gen|GB|Very|RAM|i5| GB| TB|GB GB|.GHZ| CPU | GPU|-|SSD|256|512|Good|'
        r'Condition|magic keyboard|‚úÖ|üîã|grade [A-B]|warranty\.\.\.)',
        '',
        str(title)
    ).strip().replace('  ', ' ')


### Fonction : `remove_duplicates_keep_min_price`

Pour √©viter la redondance, cette fonction supprime les doublons en se basant sur certaines colonnes cl√©s (`Model`, `RAM`, `CPU`, `Brand`, `Storage`).
Avant la d√©duplication, la colonne `Price` est convertie en num√©rique.
Le DataFrame est tri√© par prix croissant et, pour chaque groupe de produits identiques, seule la ligne avec le prix minimum est conserv√©e.


In [None]:
def remove_duplicates_keep_min_price(df):

    # S'assurer que la colonne Price est num√©rique
    df['Price'] = pd.to_numeric(df['Price'], errors='coerce')
    # D√©finir les colonnes cl√©s pour l'unicit√© du produit
    key_columns = ['Model', 'RAM', 'CPU', 'Brand', 'Storage']
    # Trier par prix croissant
    df = df.sort_values(by='Price', ascending=True)
    # Supprimer les doublons en gardant la premi√®re occurrence (celle avec le prix minimum)
    df_cleaned = df.drop_duplicates(subset=key_columns, keep='first')
    return df_cleaned


### Traitement et Nettoyage des Fichiers CSV

Dans cette section, nous parcourons tous les fichiers CSV pr√©sents dans le r√©pertoire `RAW_DATA_DIR`.
Pour chaque fichier :

1. Le fichier est charg√© dans un DataFrame.
2. Les fonctions de nettoyage et de transformation sont appliqu√©es :
   - Nettoyage de la colonne `Price`
   - Conversion des colonnes `RAM` et `Storage` en GB
   - Extraction du nombre dans `Screen Size`
   - Imputation des valeurs manquantes
   - Remplacement de valeurs manquantes dans la colonne `GPU` par `"Unknown Graphics"`
   - Nettoyage de la colonne `Title`
   - Remplacement des valeurs vides dans `Model` par celles de `Title`
   - Arrondi de la colonne `Storage`
   - Filtrage des enregistrements avec un prix inf√©rieur √† 90
   - Suppression des doublons en gardant le prix minimum

3. Le DataFrame nettoy√© est sauvegard√© dans le r√©pertoire `CLEANED_DATA_DIR`.


In [None]:
try:
    # Parcourir tous les fichiers CSV dans le dossier des donn√©es brutes
    for file in RAW_DATA_DIR.glob('*.csv'):
        print(f"Traitement du fichier : {file.name}")

        # Charger le fichier CSV dans un DataFrame
        df = pd.read_csv(file)
        print(f"{len(df)} lignes charg√©es depuis {file.name}")
        print(f"Colonnes disponibles : {df.columns.tolist()}")  # Pour le d√©bogage

        # Nettoyer la colonne Price
        df['Price'] = df['Price'].apply(clean_price)

        # Convertir les colonnes RAM et Storage en GB
        for col in ['RAM', 'Storage']:
            if col in df.columns:
                df[col] = df[col].apply(convert_to_gb).astype(float)

        # Extraire le nombre de la colonne Screen Size (si pr√©sente)
        if 'Screen Size' in df.columns:
            df['Screen Size'] = df['Screen Size'].str.extract(r'(\d+\.?\d*)')[0].astype(float)

        # Imputer les valeurs manquantes
        df = impute_missing_values(df)

        # Remplacer les valeurs manquantes dans GPU par 'Unknown Graphics'
        if 'GPU' in df.columns:
            df['GPU'] = df['GPU'].fillna('Unknown Graphics')

        # Nettoyer la colonne Title
        if 'Title' in df.columns:
            df['Title'] = df['Title'].apply(clean_title)

        # Pour la colonne Model, remplacer les valeurs vides par NaN puis les combler avec Title
        if 'Model' in df.columns and 'Title' in df.columns:
            df['Model'] = df['Model'].replace('', np.nan)
            df['Model'] = df['Model'].fillna(df['Title'])

        # Arrondir Storage
        if 'Storage' in df.columns:
            df['Storage'] = df['Storage'].round(2)

        # Filtrer les lignes avec un prix inf√©rieur √† 90
        df = df[df['Price'] >= 90]

        # Supprimer les doublons en conservant le prix minimum
        df = remove_duplicates_keep_min_price(df)

        # Sauvegarder le DataFrame nettoy√© dans un nouveau fichier CSV
        output_filename = CLEANED_DATA_DIR / f"{file.stem}_cleaned.csv"
        df.to_csv(output_filename, index=False)
        print(f"Fichier nettoy√© sauvegard√© dans : {output_filename}")
        print(f"Forme finale du DataFrame : {df.shape}\n")
except Exception as e:
    print(f"Une erreur est survenue : {e}")


# Conclusion

Nous avons parcouru l‚Äôensemble des fichiers CSV pr√©sents dans le r√©pertoire des donn√©es brutes, appliqu√© plusieurs op√©rations de nettoyage et de transformation, puis sauvegard√© les fichiers nettoy√©s dans un nouveau r√©pertoire.
Les fonctions d√©finies ont permis de :

- Nettoyer et convertir les formats de donn√©es (prix, RAM, stockage, taille de l‚Äô√©cran).
- G√©rer les valeurs manquantes.
- Nettoyer les titres et uniformiser les informations.
- Supprimer les doublons en conservant les enregistrements pr√©sentant le meilleur rapport qualit√©/prix.

.
