In [20]:
import pandas as pd
import re

In [21]:
df = pd.read_excel("20210614_Ecommerce_sales_bis.xlsx")

In [22]:
# Je crée une liste pour stocker les dimensions et les couleurs
dimensions = []
couleurs = []

In [23]:
# Regex
# J'utilise les expressions régulières pour rechercher les dimensions dans le format "nombre x nombre" ou "nombre x nombre x nombre"
# Il capture les dimensions qui sont constituées de 3 ou 2 parties numériques séparées par des caractères "x"
# \d+ : retourne une séquence de un ou plusieurs chiffres (0-9)
# \s* : retourne 0 ou +sieurs espaces blancs entre les chiffres et le x
# x : Caractère x 
# re.compile : permet de compiler une expression régulière en un objet de modèle regex que je
# pourrai utiliser pour effectuer des opérations de recherche dans des chaînes de texte.
# Le r au debut s'assure que la chaine est traitée comme une chaine brute
pattern_dimension = re.compile(r'(\d+\s*x\s*\d+\s*x\s*\d+|\d+\s*x\s*\d+)')

# J'utilise les expressions régulières pour rechercher les couleurs dans une liste prédéfinie
# (?: ...) : il permet de regrouper les différentes couleurs
# '|'.join(couleurs_possibles) : joint la liste de couleurs en une seule chaine | ou
# re.IGNORECASE: insensible à la casse bleu, Bleu
# \b : balise de limite de mot, mot et non-mot
couleurs_possibles = ['blanche', 'blanc', 'noire', 'noir', 'rouge', 'bleue', 'bleu', 'verte', 'vert']
pattern_couleur = re.compile(r'\b(?:' + '|'.join(couleurs_possibles) + r')\b', re.IGNORECASE)

In [24]:
# Je crée une fonction pour extraire les dimensions et les couleurs de la description
def extract_dimension_and_couleur(description):
    dimension = pattern_dimension.search(description)
    couleur = pattern_couleur.findall(description)
    return dimension.group() if dimension else None, couleur

In [25]:
# Je convertis la colonne Libelle produit de type object en string
df['Libellé produit'] = df['Libellé produit'].astype(str)

# Je parcours les descriptions et j'extrais les dimensions et les couleurs
for description in df["Libellé produit"]:
    dimension, couleur = extract_dimension_and_couleur(description)
    dimensions.append(dimension)
    couleurs.append(couleur)
    

In [30]:
# J'ajoute les dimensions et les couleurs extraites au DataFrame
df["Dimension"] = dimensions
df["Couleurs"] = couleurs

# J'affiche quelques colonnes du dataframe mis à jour
df.tail(50)

Unnamed: 0,Cod_cmd,Libellé produit,Vendeur,Univers,Nature,Date de commande,Montant cmd,Quantité,Prix transport,Délai transport annoncé,Dimension,Couleurs
524984,187033442,Table a manger rectangulaire en bois salle a m...,Autre vendeur,Canapé Salon Séjour,Table,2021-03-29,70,1,0.0,10.0,,[blanc]
524985,211064260,Lot de 4 chaises scandinave design tendance sa...,Autre vendeur,Canapé Salon Séjour,Chaise,2021-03-30,144,1,0.0,10.0,,[]
524986,211126847,Ensemble table ronde à manger de 2 à 4 personn...,Autre vendeur,Canapé Salon Séjour,Table,2021-03-31,247,1,0.0,10.0,,[blanc]
524987,187033442,Lot de 4 chaises scandinaves nora blanches ave...,Autre vendeur,Canapé Salon Séjour,Chaise,2021-03-29,136,1,0.0,10.0,,[]
524988,187008288,Pied de parasol plaque 20 kg anthracite hespéride,Autre vendeur,Jardin Loisirs Sport,Pied de parasol,2021-03-29,334,3,0.0,6.0,,[]
524989,186992394,Meuble bas 2 tiroirs en bambou collection mahe,Autre vendeur,Cuisine Salle de bain,Element bas SDB,2021-03-29,74,1,0.0,6.0,,[]
524990,186992517,Aspirateur balai rechargeable,Autre vendeur,Petit Electroménager,Aspirateur balai,2021-03-29,174,1,0.0,3.0,,[]
524991,187022592,Aspirateur robot,Autre vendeur,Petit Electroménager,Aspirateur robot,2021-03-29,305,1,0.0,3.0,,[]
524992,211131383,Aspirateur robot,Autre vendeur,Petit Electroménager,Aspirateur robot,2021-03-31,305,1,0.0,3.0,,[]
524993,211099572,Four multifonction chaleur tournante 60l 2200w...,Autre vendeur,Petit Electroménager,Mini four,2021-03-31,166,1,0.0,3.0,,[noir]
