In [1]:
import os
import pandas as pd
import pyarrow.parquet as pq

In [3]:
# Dossier contenant les fichiers nettoyés
cleaned_dir = "../data/cleaned/"

# Liste des fichiers Parquet à analyser
parquet_files = [f for f in os.listdir(cleaned_dir) if f.endswith(".parquet")]

# Ensemble pour stocker les valeurs uniques (évite les doublons)
unique_categories = set()

# Exploration des fichiers
for file in parquet_files:
    parquet_path = os.path.join(cleaned_dir, file)
    print(f"🔍 Exploration de {file}...")

    # Lire le fichier par batch pour éviter les MemoryError
    parquet_file = pq.ParquetFile(parquet_path)
    batch_size = 500_000  

    for batch in parquet_file.iter_batches(batch_size=batch_size):
        chunk = batch.to_pandas()[["brand"]]  # Charger uniquement la colonne utile
        unique_categories.update(chunk["brand"].dropna().unique())  # Ajouter au set

# Conversion en DataFrame pour affichage et export éventuel
df_categories = pd.DataFrame(sorted(unique_categories), columns=["brand"])

# Affichage des premières catégories uniques
print("\n✅ Marques différentes trouvées :")
print(df_categories.head(20))  # Afficher les 20 premières pour éviter un affichage massif

🔍 Exploration de 2019-Dec.parquet...
🔍 Exploration de 2019-Nov.parquet...
🔍 Exploration de 2019-Oct.parquet...
🔍 Exploration de 2020-Apr.parquet...
🔍 Exploration de 2020-Feb.parquet...
🔍 Exploration de 2020-Jan.parquet...
🔍 Exploration de 2020-Mar.parquet...

✅ Marques différentes trouvées :
               brand
0             a-case
1            a-derma
2            a-elita
3             a-mega
4          a-product
5             a-toys
6           aardwolf
7          abaybooks
8                abc
9             abhika
10               abk
11             abris
12  absolutechampion
13   absolutenewyork
14            abtoys
15         abugarcia
16                ac
17          academie
18             acana
19             acase


In [4]:
# Sauvegarde en CSV ou Parquet
df_categories.to_csv("../data/output/unique_brands.csv", index=False)

print("🎯 Exploration terminée ! Résultats sauvegardés dans 'data/exploration/brands.csv'.")

🎯 Exploration terminée ! Résultats sauvegardés dans 'data/exploration/brands.csv'.
