# 📊 Projet OpenFoodFacts - Pipeline ETL avec PySpark
Ce notebook illustre les étapes principales d’un pipeline de traitement de données OpenFoodFacts avec **Apache Spark** dans Google Colab.

In [1]:
# ✅ Installer PySpark
%pip install pyspark

Defaulting to user installation because normal site-packages is not writeable
Collecting pyspark
  Downloading pyspark-4.0.0.tar.gz (434.1 MB)
     ---------------------------------------- 0.0/434.1 MB ? eta -:--:--
      -------------------------------------- 8.9/434.1 MB 50.3 MB/s eta 0:00:09
     - ------------------------------------ 16.0/434.1 MB 45.9 MB/s eta 0:00:10
     -- ----------------------------------- 29.9/434.1 MB 50.0 MB/s eta 0:00:09
     ---- --------------------------------- 50.9/434.1 MB 63.5 MB/s eta 0:00:07
     ----- -------------------------------- 68.4/434.1 MB 69.3 MB/s eta 0:00:06
     ------- ------------------------------ 86.0/434.1 MB 70.4 MB/s eta 0:00:05
     --------- --------------------------- 107.5/434.1 MB 75.4 MB/s eta 0:00:05
     ---------- -------------------------- 121.4/434.1 MB 73.8 MB/s eta 0:00:05
     ---------- -------------------------- 126.9/434.1 MB 72.4 MB/s eta 0:00:05
     ---------- -------------------------- 129.0/434.1 MB 62.9 M


[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: C:\Users\haute\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [2]:
# ✅ Importer les librairies
from pyspark.sql import SparkSession # type: ignore
from pyspark.sql.functions import col # type: ignore

spark = SparkSession.builder \
    .appName('OpenFoodFactsETL') \
    .getOrCreate()

## 📥 1. Chargement des données (CSV.gz)
On charge un fichier OpenFoodFacts. Tu peux utiliser un sous-échantillon ou uploader un fichier `.csv.gz` via l'interface Colab.

In [3]:
# Exemple : téléchargement d'un petit fichier de test
!wget -O openfoodfacts_sample.csv.gz "https://static.openfoodfacts.org/data/en.openfoodfacts.org.products.csv.gz"

'wget' n'est pas reconnu en tant que commande interne
ou externe, un programme ex�cutable ou un fichier de commandes.


In [4]:
# Lecture du fichier CSV.gz avec inférence de schéma
df = spark.read.csv('openfoodfacts_sample.csv.gz', header=True, inferSchema=True, sep='\t')
df.printSchema()
df.show(5)

AnalysisException: [PATH_NOT_FOUND] Path does not exist: file:/c:/Users/haute/Downloads/openfoodfacts_sample.csv.gz. SQLSTATE: 42K03

## 🧹 2. Nettoyage et filtrage
On garde quelques colonnes utiles et filtre les lignes incomplètes.

In [None]:
# Garder quelques colonnes pertinentes
columns = ['product_name', 'brands', 'nutriscore_score', 'countries', 'ingredients_text']
df_clean = df.select([col(c) for c in columns])
df_clean = df_clean.na.drop()
df_clean.show(5)

## 📊 3. Analyse simple : Top 10 des marques les plus présentes

In [None]:
df_clean.groupBy('brands') \
    .count() \
    .orderBy('count', ascending=False) \
    .show(10)

## 💾 4. Sauvegarde au format Parquet
On sauvegarde un échantillon localement (dans l’environnement Colab).

In [None]:
df_clean.limit(1000).write.mode('overwrite').parquet('openfoodfacts_clean.parquet')

## ✅ Fin du pipeline
Ce notebook est une version légère et interactive du traitement effectué localement avec Spark Java/Maven.