In [16]:
# Cellule 1 : Imports
import pandas as pd
import numpy as np
from datetime import datetime

# Cellule 2 : Chargement des données
print("Chargement des données...")
# Chemin adapté pour un notebook dans le dossier notebooks
df = pd.read_csv('../data/text/products_asos.csv')

# Affichage de l'état initial
print("\nÉtat initial:")
print(f"Nombre de lignes: {len(df)}")
print(f"Colonnes: {df.columns.tolist()}")

# Cellule 3 : Nettoyage des types de données
# Conversion des prix en float
price_columns = ['price']  
for col in price_columns:
    if col in df.columns:
        # Suppression des symboles monétaires et espaces
        df[col] = df[col].astype(str).str.replace('£', '').str.replace('$', '').str.replace('€', '')
        df[col] = df[col].str.replace(',', '').str.strip()
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Cellule 4 : Nettoyage du texte
text_columns = ['name', 'description', 'category']
for col in text_columns:
    if col in df.columns:
        # Conversion en minuscules
        df[col] = df[col].str.lower()
        # Suppression des caractères spéciaux
        df[col] = df[col].str.replace(r'[^\w\s]', ' ', regex=True)
        # Suppression des espaces multiples
        df[col] = df[col].str.replace(r'\s+', ' ', regex=True)
        # Suppression des espaces début/fin
        df[col] = df[col].str.strip()

# Cellule 5 : Standardisation des catégories
if 'category' in df.columns:
    category_mapping = {
        'mens': 'men',
        'womens': 'women',
        't-shirt': 'tshirt',
        'tshirts': 'tshirt',
    }
    df['category'] = df['category'].map(category_mapping).fillna(df['category'])

# Cellule 6 : Gestion des outliers
# Pour les prix
if 'price' in df.columns:
    Q1 = df['price'].quantile(0.25)
    Q3 = df['price'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    print("Statistiques des prix avant filtrage des outliers:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")
    
    df = df[(df['price'] >= lower_bound) & (df['price'] <= upper_bound)]
    
    print("\nAprès filtrage:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")

# Cellule 7 : Gestion des valeurs manquantes
# Affichage des valeurs manquantes
print("Valeurs manquantes par colonne:")
print(df.isnull().sum())

# Pour les colonnes numériques
numeric_columns = df.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    median_value = df[col].median()
    df[col] = df[col].fillna(median_value)

# Pour les colonnes catégorielles
categorical_columns = df.select_dtypes(include=['object']).columns
for col in categorical_columns:
    mode_value = df[col].mode()[0]
    df[col] = df[col].fillna(mode_value)

# Cellule 8 : Suppression des doublons
print("Nombre de lignes avant suppression des doublons:", len(df))
df = df.drop_duplicates()
print("Nombre de lignes après suppression des doublons:", len(df))

# Cellule 9 : Vérification finale et sauvegarde
# Vérification finale
print("\nRésumé des données nettoyées:")
print(df.info())
print("\nAperçu des données:")
print(df.head())

# Sauvegarde
output_path = '../data/text/products_asos_cleaned_full.csv'
df.to_csv(output_path, index=False)
print(f"\nDonnées nettoyées sauvegardées dans: {output_path}")

Chargement des données...

État initial:
Nombre de lignes: 30845
Colonnes: ['url', 'name', 'size', 'category', 'price', 'color', 'sku', 'description', 'images']
Statistiques des prix avant filtrage des outliers:
Minimum: 4.5
Maximum: 550.0
Nombre de produits: 30845

Après filtrage:
Minimum: 4.5
Maximum: 100.0
Nombre de produits: 17169
Valeurs manquantes par colonne:
url            0
name           0
size           0
category       0
price          0
color          0
sku            0
description    0
images         0
dtype: int64
Nombre de lignes avant suppression des doublons: 17169
Nombre de lignes après suppression des doublons: 16953

Résumé des données nettoyées:
<class 'pandas.core.frame.DataFrame'>
Index: 16953 entries, 0 to 30844
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   url          16953 non-null  object 
 1   name         16953 non-null  object 
 2   size         16953 non-null  object 
 3   catego

In [17]:
# Cellule 1 : Imports
import pandas as pd
import numpy as np
from datetime import datetime

# Cellule 2 : Chargement des données
print("Chargement des données...")
# Chemin adapté pour un notebook dans le dossier notebooks
df = pd.read_csv('../data/text/mr-porter.csv')

# Affichage de l'état initial
print("\nÉtat initial:")
print(f"Nombre de lignes: {len(df)}")
print(f"Colonnes: {df.columns.tolist()}")

# Cellule 3 : Nettoyage des types de données
# Conversion des prix en float
price_columns = ['price']  
for col in price_columns:
    if col in df.columns:
        # Suppression des symboles monétaires et espaces
        df[col] = df[col].astype(str).str.replace('£', '').str.replace('$', '').str.replace('€', '')
        df[col] = df[col].str.replace(',', '').str.strip()
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Cellule 4 : Nettoyage du texte
text_columns = ['name', 'description', 'category']
for col in text_columns:
    if col in df.columns:
        # Conversion en minuscules
        df[col] = df[col].str.lower()
        # Suppression des caractères spéciaux
        df[col] = df[col].str.replace(r'[^\w\s]', ' ', regex=True)
        # Suppression des espaces multiples
        df[col] = df[col].str.replace(r'\s+', ' ', regex=True)
        # Suppression des espaces début/fin
        df[col] = df[col].str.strip()

# Cellule 5 : Standardisation des catégories
if 'category' in df.columns:
    category_mapping = {
        'mens': 'men',
        'womens': 'women',
        't-shirt': 'tshirt',
        'tshirts': 'tshirt',
    }
    df['category'] = df['category'].map(category_mapping).fillna(df['category'])

# Cellule 6 : Gestion des outliers
# Pour les prix
if 'price' in df.columns:
    Q1 = df['price'].quantile(0.25)
    Q3 = df['price'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    print("Statistiques des prix avant filtrage des outliers:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")
    
    df = df[(df['price'] >= lower_bound) & (df['price'] <= upper_bound)]
    
    print("\nAprès filtrage:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")

# Cellule 7 : Gestion des valeurs manquantes
# Affichage des valeurs manquantes
print("Valeurs manquantes par colonne:")
print(df.isnull().sum())

# Pour les colonnes numériques
numeric_columns = df.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    median_value = df[col].median()
    df[col] = df[col].fillna(median_value)

# Pour les colonnes catégorielles
categorical_columns = df.select_dtypes(include=['object']).columns
for col in categorical_columns:
    mode_value = df[col].mode()[0]
    df[col] = df[col].fillna(mode_value)

# Cellule 8 : Suppression des doublons
print("Nombre de lignes avant suppression des doublons:", len(df))
df = df.drop_duplicates()
print("Nombre de lignes après suppression des doublons:", len(df))

# Cellule 9 : Vérification finale et sauvegarde
# Vérification finale
print("\nRésumé des données nettoyées:")
print(df.info())
print("\nAperçu des données:")
print(df.head())

# Sauvegarde
output_path = '../data/text/mr-porter_cleaned_full.csv'
df.to_csv(output_path, index=False)
print(f"\nDonnées nettoyées sauvegardées dans: {output_path}")

Chargement des données...

État initial:
Nombre de lignes: 20347
Colonnes: ['brand', 'description', 'price_usd', 'type']
Valeurs manquantes par colonne:
brand          0
description    0
price_usd      0
type           0
dtype: int64
Nombre de lignes avant suppression des doublons: 20347
Nombre de lignes après suppression des doublons: 20296

Résumé des données nettoyées:
<class 'pandas.core.frame.DataFrame'>
Index: 20296 entries, 0 to 20346
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   brand        20296 non-null  object
 1   description  20296 non-null  object
 2   price_usd    20296 non-null  int64 
 3   type         20296 non-null  object
dtypes: int64(1), object(3)
memory usage: 792.8+ KB
None

Aperçu des données:
            brand                                        description  \
0       VALENTINO  m way rockstud beatle patent leather chelsea b...   
1         THE ROW                  owen suede trimmed 

In [18]:
# Cellule 1 : Imports
import pandas as pd
import numpy as np
from datetime import datetime

# Cellule 2 : Chargement des données
print("Chargement des données...")
# Chemin adapté pour un notebook dans le dossier notebooks
df = pd.read_csv('../data/text/net-a-porter.csv')

# Affichage de l'état initial
print("\nÉtat initial:")
print(f"Nombre de lignes: {len(df)}")
print(f"Colonnes: {df.columns.tolist()}")

# Cellule 3 : Nettoyage des types de données
# Conversion des prix en float
price_columns = ['price']  
for col in price_columns:
    if col in df.columns:
        # Suppression des symboles monétaires et espaces
        df[col] = df[col].astype(str).str.replace('£', '').str.replace('$', '').str.replace('€', '')
        df[col] = df[col].str.replace(',', '').str.strip()
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Cellule 4 : Nettoyage du texte
text_columns = ['name', 'description', 'category']
for col in text_columns:
    if col in df.columns:
        # Conversion en minuscules
        df[col] = df[col].str.lower()
        # Suppression des caractères spéciaux
        df[col] = df[col].str.replace(r'[^\w\s]', ' ', regex=True)
        # Suppression des espaces multiples
        df[col] = df[col].str.replace(r'\s+', ' ', regex=True)
        # Suppression des espaces début/fin
        df[col] = df[col].str.strip()

# Cellule 5 : Standardisation des catégories
if 'category' in df.columns:
    category_mapping = {
        'mens': 'men',
        'womens': 'women',
        't-shirt': 'tshirt',
        'tshirts': 'tshirt',
    }
    df['category'] = df['category'].map(category_mapping).fillna(df['category'])

# Cellule 6 : Gestion des outliers
# Pour les prix
if 'price' in df.columns:
    Q1 = df['price'].quantile(0.25)
    Q3 = df['price'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    print("Statistiques des prix avant filtrage des outliers:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")
    
    df = df[(df['price'] >= lower_bound) & (df['price'] <= upper_bound)]
    
    print("\nAprès filtrage:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")

# Cellule 7 : Gestion des valeurs manquantes
# Affichage des valeurs manquantes
print("Valeurs manquantes par colonne:")
print(df.isnull().sum())

# Pour les colonnes numériques
numeric_columns = df.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    median_value = df[col].median()
    df[col] = df[col].fillna(median_value)

# Pour les colonnes catégorielles
categorical_columns = df.select_dtypes(include=['object']).columns
for col in categorical_columns:
    mode_value = df[col].mode()[0]
    df[col] = df[col].fillna(mode_value)

# Cellule 8 : Suppression des doublons
print("Nombre de lignes avant suppression des doublons:", len(df))
df = df.drop_duplicates()
print("Nombre de lignes après suppression des doublons:", len(df))

# Cellule 9 : Vérification finale et sauvegarde
# Vérification finale
print("\nRésumé des données nettoyées:")
print(df.info())
print("\nAperçu des données:")
print(df.head())

# Sauvegarde
output_path = '../data/text/net-a-porter_cleaned_full.csv'
df.to_csv(output_path, index=False)
print(f"\nDonnées nettoyées sauvegardées dans: {output_path}")

Chargement des données...

État initial:
Nombre de lignes: 23161
Colonnes: ['brand', 'description', 'price_usd', 'type']
Valeurs manquantes par colonne:
brand          0
description    0
price_usd      0
type           0
dtype: int64
Nombre de lignes avant suppression des doublons: 23161
Nombre de lignes après suppression des doublons: 23131

Résumé des données nettoyées:
<class 'pandas.core.frame.DataFrame'>
Index: 23131 entries, 0 to 23160
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   brand        23131 non-null  object
 1   description  23131 non-null  object
 2   price_usd    23131 non-null  int64 
 3   type         23131 non-null  object
dtypes: int64(1), object(3)
memory usage: 903.6+ KB
None

Aperçu des données:
                brand                                        description  \
0             MONCLER                  vistule quilted shell down jacket   
1  GUEST IN RESIDENCE                         

In [19]:
# Cellule 1 : Imports
import pandas as pd
import numpy as np
from datetime import datetime

# Cellule 2 : Chargement des données
print("Chargement des données...")
# Chemin adapté pour un notebook dans le dossier notebooks
df = pd.read_csv('../data/text/ssense_dataset.csv')

# Affichage de l'état initial
print("\nÉtat initial:")
print(f"Nombre de lignes: {len(df)}")
print(f"Colonnes: {df.columns.tolist()}")

# Cellule 3 : Nettoyage des types de données
# Conversion des prix en float
price_columns = ['price']  
for col in price_columns:
    if col in df.columns:
        # Suppression des symboles monétaires et espaces
        df[col] = df[col].astype(str).str.replace('£', '').str.replace('$', '').str.replace('€', '')
        df[col] = df[col].str.replace(',', '').str.strip()
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Cellule 4 : Nettoyage du texte
text_columns = ['name', 'description', 'category']
for col in text_columns:
    if col in df.columns:
        # Conversion en minuscules
        df[col] = df[col].str.lower()
        # Suppression des caractères spéciaux
        df[col] = df[col].str.replace(r'[^\w\s]', ' ', regex=True)
        # Suppression des espaces multiples
        df[col] = df[col].str.replace(r'\s+', ' ', regex=True)
        # Suppression des espaces début/fin
        df[col] = df[col].str.strip()

# Cellule 5 : Standardisation des catégories
if 'category' in df.columns:
    category_mapping = {
        'mens': 'men',
        'womens': 'women',
        't-shirt': 'tshirt',
        'tshirts': 'tshirt',
    }
    df['category'] = df['category'].map(category_mapping).fillna(df['category'])

# Cellule 6 : Gestion des outliers
# Pour les prix
if 'price' in df.columns:
    Q1 = df['price'].quantile(0.25)
    Q3 = df['price'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    print("Statistiques des prix avant filtrage des outliers:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")
    
    df = df[(df['price'] >= lower_bound) & (df['price'] <= upper_bound)]
    
    print("\nAprès filtrage:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")

# Cellule 7 : Gestion des valeurs manquantes
# Affichage des valeurs manquantes
print("Valeurs manquantes par colonne:")
print(df.isnull().sum())

# Pour les colonnes numériques
numeric_columns = df.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    median_value = df[col].median()
    df[col] = df[col].fillna(median_value)

# Pour les colonnes catégorielles
categorical_columns = df.select_dtypes(include=['object']).columns
for col in categorical_columns:
    mode_value = df[col].mode()[0]
    df[col] = df[col].fillna(mode_value)

# Cellule 8 : Suppression des doublons
print("Nombre de lignes avant suppression des doublons:", len(df))
df = df.drop_duplicates()
print("Nombre de lignes après suppression des doublons:", len(df))

# Cellule 9 : Vérification finale et sauvegarde
# Vérification finale
print("\nRésumé des données nettoyées:")
print(df.info())
print("\nAperçu des données:")
print(df.head())

# Sauvegarde
output_path = '../data/text/ssense_cleaned_full.csv'
df.to_csv(output_path, index=False)
print(f"\nDonnées nettoyées sauvegardées dans: {output_path}")

Chargement des données...

État initial:
Nombre de lignes: 19919
Colonnes: ['brand', 'description', 'price_usd', 'type']
Valeurs manquantes par colonne:
brand          0
description    0
price_usd      0
type           0
dtype: int64
Nombre de lignes avant suppression des doublons: 19919
Nombre de lignes après suppression des doublons: 19918

Résumé des données nettoyées:
<class 'pandas.core.frame.DataFrame'>
Index: 19918 entries, 0 to 19918
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   brand        19918 non-null  object
 1   description  19918 non-null  object
 2   price_usd    19918 non-null  int64 
 3   type         19918 non-null  object
dtypes: int64(1), object(3)
memory usage: 778.0+ KB
None

Aperçu des données:
        brand                                       description  price_usd  \
0  Rick Owens                   black moncler edition down coat       2585   
1  Rick Owens          black moncler editi

In [20]:
# Cellule 1 : Imports
import pandas as pd
import numpy as np
from datetime import datetime

# Cellule 2 : Chargement des données
print("Chargement des données...")
# Chemin adapté pour un notebook dans le dossier notebooks
df = pd.read_csv('../data/text/vestiaire.csv')

# Affichage de l'état initial
print("\nÉtat initial:")
print(f"Nombre de lignes: {len(df)}")
print(f"Colonnes: {df.columns.tolist()}")

# Cellule 3 : Nettoyage des types de données
# Conversion des prix en float
price_columns = ['price']  
for col in price_columns:
    if col in df.columns:
        # Suppression des symboles monétaires et espaces
        df[col] = df[col].astype(str).str.replace('£', '').str.replace('$', '').str.replace('€', '')
        df[col] = df[col].str.replace(',', '').str.strip()
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Cellule 4 : Nettoyage du texte
text_columns = ['name', 'description', 'category']
for col in text_columns:
    if col in df.columns:
        # Conversion en minuscules
        df[col] = df[col].str.lower()
        # Suppression des caractères spéciaux
        df[col] = df[col].str.replace(r'[^\w\s]', ' ', regex=True)
        # Suppression des espaces multiples
        df[col] = df[col].str.replace(r'\s+', ' ', regex=True)
        # Suppression des espaces début/fin
        df[col] = df[col].str.strip()

# Cellule 5 : Standardisation des catégories
if 'category' in df.columns:
    category_mapping = {
        'mens': 'men',
        'womens': 'women',
        't-shirt': 'tshirt',
        'tshirts': 'tshirt',
    }
    df['category'] = df['category'].map(category_mapping).fillna(df['category'])

# Cellule 6 : Gestion des outliers
# Pour les prix
if 'price' in df.columns:
    Q1 = df['price'].quantile(0.25)
    Q3 = df['price'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    print("Statistiques des prix avant filtrage des outliers:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")
    
    df = df[(df['price'] >= lower_bound) & (df['price'] <= upper_bound)]
    
    print("\nAprès filtrage:")
    print(f"Minimum: {df['price'].min()}")
    print(f"Maximum: {df['price'].max()}")
    print(f"Nombre de produits: {len(df)}")

# Cellule 7 : Gestion des valeurs manquantes
# Affichage des valeurs manquantes
print("Valeurs manquantes par colonne:")
print(df.isnull().sum())

# Pour les colonnes numériques
numeric_columns = df.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    median_value = df[col].median()
    df[col] = df[col].fillna(median_value)

# Pour les colonnes catégorielles
categorical_columns = df.select_dtypes(include=['object']).columns
for col in categorical_columns:
    mode_value = df[col].mode()[0]
    df[col] = df[col].fillna(mode_value)

# Cellule 8 : Suppression des doublons
print("Nombre de lignes avant suppression des doublons:", len(df))
df = df.drop_duplicates()
print("Nombre de lignes après suppression des doublons:", len(df))

# Cellule 9 : Vérification finale et sauvegarde
# Vérification finale
print("\nRésumé des données nettoyées:")
print(df.info())
print("\nAperçu des données:")
print(df.head())

# Sauvegarde
output_path = '../data/text/vestiaire_cleaned_full.csv'
df.to_csv(output_path, index=False)
print(f"\nDonnées nettoyées sauvegardées dans: {output_path}")

Chargement des données...

État initial:
Nombre de lignes: 900514
Colonnes: ['product_id', 'product_type', 'product_name', 'product_description', 'product_keywords', 'product_gender_target', 'product_category', 'product_season', 'product_condition', 'product_like_count', 'sold', 'reserved', 'available', 'in_stock', 'should_be_gone', 'brand_id', 'brand_name', 'brand_url', 'product_material', 'product_color', 'price_usd', 'seller_price', 'seller_earning', 'seller_badge', 'has_cross_border_fees', 'buyers_fees', 'warehouse_name', 'seller_id', 'seller_username', 'usually_ships_within', 'seller_country', 'seller_products_sold', 'seller_num_products_listed', 'seller_community_rank', 'seller_num_followers', 'seller_pass_rate']
Valeurs manquantes par colonne:
product_id                         0
product_type                       0
product_name                       0
product_description                7
product_keywords                1183
product_gender_target              0
product_category 

  df[col] = df[col].fillna(mode_value)


Nombre de lignes avant suppression des doublons: 900514
Nombre de lignes après suppression des doublons: 900514

Résumé des données nettoyées:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 900514 entries, 0 to 900513
Data columns (total 36 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   product_id                  900514 non-null  int64  
 1   product_type                900514 non-null  object 
 2   product_name                900514 non-null  object 
 3   product_description         900514 non-null  object 
 4   product_keywords            900514 non-null  object 
 5   product_gender_target       900514 non-null  object 
 6   product_category            900514 non-null  object 
 7   product_season              900514 non-null  object 
 8   product_condition           900514 non-null  object 
 9   product_like_count          900514 non-null  float64
 10  sold                        900514 non-null  

Nettoyage dataset sales

In [21]:
# Dans une première cellule de notebook
import pandas as pd

# Chargement du fichier mock
df_mock = pd.read_csv('../data/stats/mock_fashion_data_uk_us.csv')

# Aperçu de la structure
print("Colonnes présentes :")
print(df_mock.columns.tolist())
print("\nPremières lignes :")
print(df_mock.head())
print("\nInformations sur les types de données :")
print(df_mock.info())

Colonnes présentes :
['Product Name', 'Price', 'Brand', 'Category', 'Description', 'Rating', 'Review Count', 'Style Attributes', 'Total Sizes', 'Available Sizes', 'Color', 'Purchase History', 'Age', 'Fashion Magazines', 'Fashion Influencers', 'Season', 'Time Period Highest Purchase', 'Customer Reviews', 'Social Media Comments', 'feedback']

Premières lignes :
  Product Name      Price              Brand   Category Description    Rating  \
0         T5D3  97.509966       Ralph Lauren   Footwear         Bad  1.421706   
1         Y0V7  52.341277          Ted Baker       Tops    Not Good  1.037677   
2         N9Q4  15.430975             Jigsaw   Footwear    Very Bad  3.967106   
3         V2T6  81.116542  Alexander McQueen  Outerwear    Not Good  2.844659   
4         S7Y1  31.633686     Tommy Hilfiger    Bottoms   Very Good  1.183242   

   Review Count Style Attributes Total Sizes Available Sizes  Color  \
0           492       Streetwear    M, L, XL              XL  Green   
1        

In [24]:
# Cellule 1 : Imports
import pandas as pd
import numpy as np

# Cellule 2 : Chargement des données
print("Chargement des données...")
df_mock = pd.read_csv('../data/stats/mock_fashion_data_uk_us.csv')

print("\nAperçu initial:")
print(f"Nombre de lignes: {len(df_mock)}")
print(f"Colonnes présentes:")
print(df_mock.columns.tolist())

# Cellule 3 : Nettoyage des colonnes numériques
numeric_columns = ['Price', 'Rating', 'Review Count', 'Age']
for col in numeric_columns:
    if col in df_mock.columns:
        df_mock[col] = pd.to_numeric(df_mock[col], errors='coerce')
        df_mock = df_mock[df_mock[col] >= 0]

print("\nStatistiques des colonnes numériques après nettoyage:")
print(df_mock[numeric_columns].describe())

# Cellule 4 : Nettoyage des colonnes textuelles
text_columns = ['Product Name', 'Brand', 'Category', 'Description', 'Style Attributes',
                'Fashion Magazines', 'Fashion Influencers']

for col in text_columns:
    if col in df_mock.columns:
        df_mock[col] = df_mock[col].str.strip()
        df_mock[col] = df_mock[col].str.title()

# Cellule 5 : Standardisation des catégories
category_mapping = {
    'Footwear': 'Shoes',
    'Tops': 'Top',
    'Outerwear': 'Outerwear',
    'Bottoms': 'Bottom'
}
df_mock['Category'] = df_mock['Category'].map(category_mapping).fillna(df_mock['Category'])

# Cellule 6 : Nettoyage des tailles
def clean_sizes(sizes_str):
    if pd.isna(sizes_str):
        return ''
    # Retourner une chaîne de caractères au lieu d'une liste
    sizes = [size.strip() for size in str(sizes_str).split(',')]
    return ', '.join(sorted(sizes))

# Appliquer le nettoyage et conserver comme chaîne de caractères
df_mock['Total Sizes'] = df_mock['Total Sizes'].apply(clean_sizes)
df_mock['Available Sizes'] = df_mock['Available Sizes'].str.strip()

# Cellule 7 : Standardisation des évaluations
rating_mapping = {
    'Very Bad': 1,
    'Bad': 2,
    'Not Good': 3,
    'Good': 4,
    'Very Good': 5
}
df_mock['Rating_Numeric'] = df_mock['Rating'].map(rating_mapping).fillna(df_mock['Rating'])

# Cellule 8 : Standardisation des saisons
season_mapping = {
    'Fall/Winter': 'FW',
    'Winter': 'W',
    'Summer': 'S',
    'Spring': 'SP'
}
df_mock['Season'] = df_mock['Season'].map(season_mapping).fillna(df_mock['Season'])

# Cellule 9 : Gestion des valeurs manquantes
# Pour les colonnes numériques
numeric_columns = df_mock.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    df_mock[col] = df_mock[col].fillna(df_mock[col].median())

# Pour les colonnes catégorielles
categorical_columns = df_mock.select_dtypes(include=['object']).columns
for col in categorical_columns:
    df_mock[col] = df_mock[col].fillna('Unknown')

# Cellule 10 : Suppression des doublons
print("\nNombre de lignes avant suppression des doublons:", len(df_mock))
df_mock = df_mock.drop_duplicates()
print("Nombre de lignes après suppression des doublons:", len(df_mock))

# Cellule 11 : Vérification finale et sauvegarde
print("\nAperçu final des données nettoyées:")
print(df_mock.head())
print("\nInformations sur les données:")
print(df_mock.info())

# Sauvegarde des données nettoyées
output_path = '../data/stats/mock_fashion_data_cleaned.csv'
df_mock.to_csv(output_path, index=False)
print(f"\nDonnées nettoyées sauvegardées dans: {output_path}")

Chargement des données...

Aperçu initial:
Nombre de lignes: 1000000
Colonnes présentes:
['Product Name', 'Price', 'Brand', 'Category', 'Description', 'Rating', 'Review Count', 'Style Attributes', 'Total Sizes', 'Available Sizes', 'Color', 'Purchase History', 'Age', 'Fashion Magazines', 'Fashion Influencers', 'Season', 'Time Period Highest Purchase', 'Customer Reviews', 'Social Media Comments', 'feedback']

Statistiques des colonnes numériques après nettoyage:
                Price          Rating    Review Count             Age
count  1000000.000000  1000000.000000  1000000.000000  1000000.000000
mean        55.001428        2.998454      249.602431       41.004191
std         25.979720        1.154696      144.362645       13.565907
min         10.000145        1.000000        0.000000       18.000000
25%         32.496717        1.998608      125.000000       29.000000
50%         55.007413        2.996328      249.000000       41.000000
75%         77.511242        3.998479      37

In [25]:
# Cellule 1 : Imports
import pandas as pd
import numpy as np

# Cellule 2 : Chargement des données
print("Chargement des données...")
input_path = '../data/trends/googletrends01_20.csv'  # Modifier avec le chemin correct si nécessaire
df_trends = pd.read_csv(input_path)

print("\nAperçu initial:")
print(f"Nombre de lignes: {len(df_trends)}")
print(f"Colonnes présentes:")
print(df_trends.columns.tolist())

# Cellule 3 : Nettoyage des colonnes numériques
numeric_columns = ['rank', 'year']
for col in numeric_columns:
    if col in df_trends.columns:
        df_trends[col] = pd.to_numeric(df_trends[col], errors='coerce')
        df_trends = df_trends[df_trends[col] >= 0]

print("\nStatistiques des colonnes numériques après nettoyage:")
print(df_trends[numeric_columns].describe())

# Cellule 4 : Nettoyage des colonnes textuelles
text_columns = ['location', 'category', 'query']
for col in text_columns:
    if col in df_trends.columns:
        df_trends[col] = df_trends[col].str.strip()  # Supprime les espaces inutiles
        df_trends[col] = df_trends[col].str.title()  # Uniformise la casse

# Cellule 5 : Gestion des valeurs manquantes
# Pour les colonnes numériques
numeric_columns = df_trends.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    df_trends[col] = df_trends[col].fillna(df_trends[col].median())

# Pour les colonnes catégorielles
categorical_columns = df_trends.select_dtypes(include=['object']).columns
for col in categorical_columns:
    df_trends[col] = df_trends[col].fillna('Unknown')

# Cellule 6 : Suppression des doublons
print("\nNombre de lignes avant suppression des doublons:", len(df_trends))
df_trends = df_trends.drop_duplicates()
print("Nombre de lignes après suppression des doublons:", len(df_trends))

# Cellule 7 : Vérification finale et sauvegarde
print("\nAperçu final des données nettoyées:")
print(df_trends.head())
print("\nInformations sur les données:")
print(df_trends.info())

# Sauvegarde des données nettoyées
output_path = '../data/trends/googletrends_cleaned.csv'
df_trends.to_csv(output_path, index=False)
print(f"\nDonnées nettoyées sauvegardées dans: {output_path}")


Chargement des données...

Aperçu initial:
Nombre de lignes: 26955
Colonnes présentes:
['location', 'year', 'category', 'rank', 'query']

Statistiques des colonnes numériques après nettoyage:
              rank          year
count  26955.00000  26955.000000
mean       3.00000   2015.243369
std        1.41424      3.564683
min        1.00000   2001.000000
25%        2.00000   2013.000000
50%        3.00000   2016.000000
75%        4.00000   2018.000000
max        5.00000   2020.000000

Nombre de lignes avant suppression des doublons: 26955
Nombre de lignes après suppression des doublons: 26945

Aperçu final des données nettoyées:
  location  year         category  rank  query
0   Global  2001  Consumer Brands     1  Nokia
1   Global  2001  Consumer Brands     2   Sony
2   Global  2001  Consumer Brands     3    Bmw
3   Global  2001  Consumer Brands     4   Palm
4   Global  2001  Consumer Brands     5  Adobe

Informations sur les données:
<class 'pandas.core.frame.DataFrame'>
Index: 26945