In [2]:
import os
import pandas as pd
import pyarrow.parquet as pq

In [5]:
# Dossier contenant les fichiers nettoyés
cleaned_dir = "../data/cleaned/"

# Liste des fichiers Parquet à analyser
parquet_files = [f for f in os.listdir(cleaned_dir) if f.endswith(".parquet")]

# Ensemble pour stocker les valeurs uniques (évite les doublons)
unique_categories = set()

# Exploration des fichiers
for file in parquet_files:
    parquet_path = os.path.join(cleaned_dir, file)
    print(f"🔍 Exploration de {file}...")

    # Lire le fichier par batch pour éviter les MemoryError
    parquet_file = pq.ParquetFile(parquet_path)
    batch_size = 500_000  

    for batch in parquet_file.iter_batches(batch_size=batch_size):
        chunk = batch.to_pandas()[["category_code"]]  # Charger uniquement la colonne utile
        unique_categories.update(chunk["category_code"].dropna().unique())  # Ajouter au set

# Conversion en DataFrame pour affichage et export éventuel
df_categories = pd.DataFrame(sorted(unique_categories), columns=["category_code"])

# Affichage des premières catégories uniques
print("\n✅ Catégories uniques trouvées :")
print(df_categories.head(20))  # Afficher les 20 premières pour éviter un affichage massif

🔍 Exploration de 2019-Dec.parquet...
🔍 Exploration de 2019-Nov.parquet...
🔍 Exploration de 2019-Oct.parquet...
🔍 Exploration de 2020-Apr.parquet...
🔍 Exploration de 2020-Feb.parquet...
🔍 Exploration de 2020-Jan.parquet...
🔍 Exploration de 2020-Mar.parquet...

✅ Catégories uniques trouvées :
                 category_code
0              accessories.bag
1         accessories.umbrella
2           accessories.wallet
3                 apparel.belt
4              apparel.costume
5                apparel.dress
6                apparel.glove
7                  apparel.hat
8               apparel.jacket
9                apparel.jeans
10              apparel.jumper
11             apparel.pajamas
12               apparel.scarf
13               apparel.shirt
14               apparel.shoes
15  apparel.shoes.ballet_shoes
16   apparel.shoes.espadrilles
17          apparel.shoes.keds
18     apparel.shoes.moccasins
19       apparel.shoes.sandals


In [6]:
# Sauvegarde en CSV ou Parquet
df_categories.to_csv("../data/output/unique_category_codes.csv", index=False)

print("🎯 Exploration terminée ! Résultats sauvegardés dans 'data/exploration/unique_category_codes.csv'.")

🎯 Exploration terminée ! Résultats sauvegardés dans 'data/exploration/unique_category_codes.csv'.
