# Fonctions d'extraction de dimension et couleur

In [3]:
import re
from typing import Optional

In [4]:
def extract_dimension(description: str) -> Optional[str]:
    """
    Extrait la dimension d'une description de produit.
    
    Args:
        description (str): Description du produit
        
    Returns:
        Optional[str]: Dimension extraite (ex: "140x190") ou None si non trouvée
        
    Examples:
        >>> extract_dimension("Matelas mousse 140x190 cm")
        "140x190"
        >>> extract_dimension("Table 80x120 cm")
        "80x120"
    """
    # Patterns pour détecter les dimensions
    patterns = [
        # Format: 140x190 cm, 80x120 cm, etc.
        r'(\d+(?:\.\d+)?)\s*[xX]\s*(\d+(?:\.\d+)?)\s*(?:cm|m|mm)?',
        # Format: 140 x 190, 80 x 120, etc.
        r'(\d+(?:\.\d+)?)\s*[xX]\s*(\d+(?:\.\d+)?)',
        # Format: 140cm x 190cm
        r'(\d+(?:\.\d+)?)(?:cm|m|mm)\s*[xX]\s*(\d+(?:\.\d+)?)(?:cm|m|mm)?',
    ]
    
    for pattern in patterns:
        match = re.search(pattern, description, re.IGNORECASE)
        if match:
            width = match.group(1)
            height = match.group(2)
            return f"{width}x{height}"
    
    return None

In [5]:
def extract_color(description: str) -> Optional[str]:
    """
    Extrait la couleur d'une description de produit.
    
    Args:
        description (str): Description du produit
        
    Returns:
        Optional[str]: Couleur extraite ou None si non trouvée
        
    Examples:
        >>> extract_color("Chaise en bois blanc")
        "blanc"
        >>> extract_color("Table marron 80x120")
        "marron"
    """
    # Liste des couleurs communes en français
    colors = [
        'blanc', 'blanche', 'noir', 'noire', 'rouge', 'bleu', 'bleue', 
        'vert', 'verte', 'jaune', 'orange', 'rose', 'violet', 'violette',
        'marron', 'gris', 'grise', 'beige', 'crème', 'bordeaux', 'bordeaux',
        'turquoise', 'mauve', 'doré', 'dorée', 'argenté', 'argentée',
        'chocolat', 'caramel', 'taupe', 'anthracite', 'écru', 'ivoire',
        'champagne', 'cognac', 'wengé', 'chêne', 'noyer', 'acajou',
        'pin', 'bouleau', 'merisier', 'érable', 'frêne', 'hêtre'
    ]
    
    # Convertir en minuscules pour la recherche
    desc_lower = description.lower()
    
    # Chercher les couleurs dans la description
    for color in colors:
        if color in desc_lower:
            return color
    
    # Patterns pour les couleurs avec variations
    color_patterns = [
        r'couleur\s+(\w+)',
        r'(\w+)\s+coloré',
        r'(\w+)\s+ton',
        r'finition\s+(\w+)'
    ]
    
    for pattern in color_patterns:
        match = re.search(pattern, desc_lower)
        if match:
            color = match.group(1)
            if color in colors:
                return color
    
    return None

# Détection des demensions et couleurs

In [9]:
# Chargement des données
import pandas as pd

df = pd.read_csv("../data/ecommerce_sales.csv")
df.head()

Unnamed: 0,Cod_cmd,Libellé produit,Vendeur,Univers,Nature,Date de commande,Montant cmd,Quantité,Prix transport,Délai transport annoncé
0,182210782,Table basse carrée detroit design industriel,Autre vendeur,Canapé Salon Séjour,Table basse,44216,244,4,6.67,10.0
1,182082437,Ours en peluche géant 150 cm brun,Autre vendeur,Enfant Bébé,Peluche,44213,28,1,9.92,10.0
2,182095765,Ours en peluche géant 100 cm blanc,Autre vendeur,Enfant Bébé,Peluche,44214,15,1,9.92,10.0
3,182615392,Lot de 4 chaises mia noires pour salle à manger,Autre vendeur,Canapé Salon Séjour,Chaise,44219,385,2,20.75,10.0
4,184222081,Meuble tv falko bois blanc et gris,Autre vendeur,Canapé Salon Séjour,Meuble tv,44238,61,1,19.08,10.0


In [11]:
# Ajout des colonnes pour les dimensions et couleurs
df['dimension'] = df['Libellé produit'].apply(extract_dimension)
df['color'] = df['Libellé produit'].apply(extract_color)

In [13]:
df.head(50)

Unnamed: 0,Cod_cmd,Libellé produit,Vendeur,Univers,Nature,Date de commande,Montant cmd,Quantité,Prix transport,Délai transport annoncé,dimension,color
0,182210782,Table basse carrée detroit design industriel,Autre vendeur,Canapé Salon Séjour,Table basse,44216,244,4,6.67,10.0,,
1,182082437,Ours en peluche géant 150 cm brun,Autre vendeur,Enfant Bébé,Peluche,44213,28,1,9.92,10.0,,
2,182095765,Ours en peluche géant 100 cm blanc,Autre vendeur,Enfant Bébé,Peluche,44214,15,1,9.92,10.0,,blanc
3,182615392,Lot de 4 chaises mia noires pour salle à manger,Autre vendeur,Canapé Salon Séjour,Chaise,44219,385,2,20.75,10.0,,noir
4,184222081,Meuble tv falko bois blanc et gris,Autre vendeur,Canapé Salon Séjour,Meuble tv,44238,61,1,19.08,10.0,,blanc
5,182603100,Meuble tv falko bois blanc et gris,Autre vendeur,Canapé Salon Séjour,Meuble tv,44219,31,1,1.67,10.0,,blanc
6,182086675,Meuble à chaussures imitation h tre 3 portes b...,Autre vendeur,Bureau Rangement,Meuble à chaussures,44213,86,1,16.58,10.0,,blanc
7,181717709,Meuble à chaussures imitation h tre 3 portes b...,Autre vendeur,Bureau Rangement,Meuble à chaussures,44207,86,1,16.58,10.0,,blanc
8,181941387,Meuble à chaussures gris 3 portes blanches ave...,Autre vendeur,Bureau Rangement,Meuble à chaussures,44213,60,1,1.67,10.0,,blanc
9,182374701,Meuble à chaussures gris 3 portes blanches ave...,Autre vendeur,Bureau Rangement,Meuble à chaussures,44217,206,2,18.25,10.0,,blanc


In [14]:
# Enregistrement du DataFrame modifié
df.to_csv("../data/ecommerce_sales.csv", index=False)