# 📊 Projet OpenFoodFacts - Pipeline ETL avec PySpark
Ce notebook illustre les étapes principales d’un pipeline de traitement de données OpenFoodFacts avec **Apache Spark** dans Google Colab.

In [1]:
# ✅ Importer les librairies
from pyspark.sql import SparkSession # type: ignore
from pyspark.sql.functions import col # type: ignore

spark = SparkSession.builder \
    .appName('OpenFoodFactsETL') \
    .getOrCreate()

## 📥 1. Chargement des données (CSV.gz)
On charge un fichier OpenFoodFacts. Tu peux utiliser un sous-échantillon ou uploader un fichier `.csv.gz` via l'interface Colab.

In [2]:
# Exemple : téléchargement d'un petit fichier de test
!wget -O openfoodfacts_sample.csv.gz "https://static.openfoodfacts.org/data/en.openfoodfacts.org.products.csv.gz"

'wget' n'est pas reconnu en tant que commande interne
ou externe, un programme ex�cutable ou un fichier de commandes.


In [4]:
# Lecture du fichier CSV.gz avec inférence de schéma
df = spark.read.csv('.\data\en.openfoodfacts.org.products.csv.gz', header=True, inferSchema=True, sep='\t')
df.printSchema()
df.show(5)

  df = spark.read.csv('.\data\en.openfoodfacts.org.products.csv.gz', header=True, inferSchema=True, sep='\t')


root
 |-- code: double (nullable = true)
 |-- url: string (nullable = true)
 |-- creator: string (nullable = true)
 |-- created_t: integer (nullable = true)
 |-- created_datetime: timestamp (nullable = true)
 |-- last_modified_t: integer (nullable = true)
 |-- last_modified_datetime: timestamp (nullable = true)
 |-- last_modified_by: string (nullable = true)
 |-- last_updated_t: integer (nullable = true)
 |-- last_updated_datetime: timestamp (nullable = true)
 |-- product_name: string (nullable = true)
 |-- abbreviated_product_name: string (nullable = true)
 |-- generic_name: string (nullable = true)
 |-- quantity: string (nullable = true)
 |-- packaging: string (nullable = true)
 |-- packaging_tags: string (nullable = true)
 |-- packaging_en: string (nullable = true)
 |-- packaging_text: string (nullable = true)
 |-- brands: string (nullable = true)
 |-- brands_tags: string (nullable = true)
 |-- brands_en: string (nullable = true)
 |-- categories: string (nullable = true)
 |-- catego

## 🧹 2. Nettoyage et filtrage
On garde quelques colonnes utiles et filtre les lignes incomplètes.

In [None]:
# Garder quelques colonnes pertinentes
columns = ['product_name', 'brands', 'nutriscore_score', 'countries', 'ingredients_text']
df_clean = df.select([col(c) for c in columns])
df_clean = df_clean.na.drop()
df_clean.show(5)

## 📊 3. Analyse simple : Top 10 des marques les plus présentes

In [None]:
df_clean.groupBy('brands') \
    .count() \
    .orderBy('count', ascending=False) \
    .show(10)

## 💾 4. Sauvegarde au format Parquet
On sauvegarde un échantillon localement (dans l’environnement Colab).

In [None]:
df_clean.limit(1000).write.mode('overwrite').parquet('openfoodfacts_clean.parquet')

## ✅ Fin du pipeline
Ce notebook est une version légère et interactive du traitement effectué localement avec Spark Java/Maven.