# ðŸ“Š Projet OpenFoodFacts - Pipeline ETL avec PySpark
Ce notebook illustre les Ã©tapes principales dâ€™un pipeline de traitement de donnÃ©es OpenFoodFacts avec **Apache Spark** dans Google Colab.

In [None]:
# âœ… Installer PySpark
!pip install pyspark

In [None]:
# âœ… Importer les librairies
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder \
    .appName('OpenFoodFactsETL') \
    .getOrCreate()

## ðŸ“¥ 1. Chargement des donnÃ©es (CSV.gz)
On charge un fichier OpenFoodFacts. Tu peux utiliser un sous-Ã©chantillon ou uploader un fichier `.csv.gz` via l'interface Colab.

In [None]:
# Exemple : tÃ©lÃ©chargement d'un petit fichier de test
!wget -O openfoodfacts_sample.csv.gz "https://static.openfoodfacts.org/data/en.openfoodfacts.org.products.csv.gz"

In [None]:
# Lecture du fichier CSV.gz avec infÃ©rence de schÃ©ma
df = spark.read.csv('openfoodfacts_sample.csv.gz', header=True, inferSchema=True, sep='\t')
df.printSchema()
df.show(5)

## ðŸ§¹ 2. Nettoyage et filtrage
On garde quelques colonnes utiles et filtre les lignes incomplÃ¨tes.

In [None]:
# Garder quelques colonnes pertinentes
columns = ['product_name', 'brands', 'nutriscore_score', 'countries', 'ingredients_text']
df_clean = df.select([col(c) for c in columns])
df_clean = df_clean.na.drop()
df_clean.show(5)

## ðŸ“Š 3. Analyse simple : Top 10 des marques les plus prÃ©sentes

In [None]:
df_clean.groupBy('brands') \
    .count() \
    .orderBy('count', ascending=False) \
    .show(10)

## ðŸ’¾ 4. Sauvegarde au format Parquet
On sauvegarde un Ã©chantillon localement (dans lâ€™environnement Colab).

In [None]:
df_clean.limit(1000).write.mode('overwrite').parquet('openfoodfacts_clean.parquet')

## âœ… Fin du pipeline
Ce notebook est une version lÃ©gÃ¨re et interactive du traitement effectuÃ© localement avec Spark Java/Maven.