# ü•£ 01 - Ingestion des donn√©es OpenFoodFacts
Ce notebook a pour objectif de lire les donn√©es OpenFoodFacts brutes au format `.csv.gz`, de les analyser rapidement et de les convertir en format `Parquet` pour les √©tapes suivantes du pipeline.

### üì¶ Import des biblioth√®ques essentielles

**Biblioth√®ques utilis√©es :**
- `pyspark.sql.SparkSession` : Point d'entr√©e principal pour la programmation Spark avec l'API DataFrame
- `pyspark.sql.functions.col` : Fonction pour r√©f√©rencer les colonnes dans les transformations
- `os` : Module pour les op√©rations syst√®me (gestion des chemins, cr√©ation de dossiers)

Ces imports permettent de configurer l'environnement Spark n√©cessaire au traitement de donn√©es volumineuses.

In [2]:
# üì¶ Imports principaux
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
import os

### üöÄ Initialisation de la SparkSession

**Fonction :** Cr√©e une instance SparkSession qui est le point d'entr√©e pour toutes les fonctionnalit√©s Spark.

**Param√®tres :**
- `.appName("OpenFoodFacts Ingestion")` : D√©finit un nom d'application pour identifier les jobs Spark
- `.getOrCreate()` : R√©cup√®re une session existante ou en cr√©e une nouvelle si n√©cessaire

La SparkSession est essentielle pour :
- Lire des donn√©es depuis diverses sources
- Cr√©er des DataFrames
- Acc√©der aux fonctionnalit√©s SQL de Spark

In [3]:
# üöÄ Cr√©ation de la SparkSession
spark = SparkSession.builder \
    .appName("OpenFoodFacts Ingestion") \
    .getOrCreate()

### üì• Lecture du fichier OpenFoodFacts

**Fonction :** Charge le fichier CSV compress√© (gzip) contenant les donn√©es OpenFoodFacts.

**Options de lecture :**
- `.option("header", True)` : Indique que la premi√®re ligne contient les noms de colonnes
- `.option("sep", "\t")` : Sp√©cifie que le s√©parateur est une tabulation (format TSV)
- `.option("inferSchema", True)` : Demande √† Spark de d√©duire automatiquement les types de donn√©es
- `.csv(input_path)` : Lit le fichier au format CSV/TSV

**Optimisation :**
- `.cache()` : Met en cache le DataFrame en m√©moire pour acc√©l√©rer les op√©rations ult√©rieures
- `.printSchema()` : Affiche la structure d√©taill√©e du DataFrame (colonnes et types)

In [None]:
# üì• Lecture du fichier .csv.gz (format TSV)
input_path = "../data/en.openfoodfacts.org.products.csv.gz"

df_raw = spark.read.option("header", True) \
                   .option("sep", "\t") \
                   .option("inferSchema", True) \
                   .csv(input_path)

df_raw.cache()
df_raw.printSchema()


### üî¢ Analyse des dimensions du dataframe

**Fonction :** Calcule et affiche les dimensions du DataFrame charg√©.

**M√©triques calcul√©es :**
- `df_raw.count()` : Compte le nombre total de lignes (produits) dans le dataset
- `len(df_raw.columns)` : D√©termine le nombre de colonnes (attributs) par produit

Ces informations permettent de comprendre la volum√©trie des donn√©es :
- Volume total de donn√©es √† traiter
- Complexit√© de la structure (nombre d'attributs par produit)

In [None]:
# üî¢ Dimensions du DataFrame
n_rows = df_raw.count()
n_cols = len(df_raw.columns)
print(f"Nombre de lignes: {n_rows:,}")
print(f"Nombre de colonnes: {n_cols}")

### üìã Liste d√©taill√©e des colonnes

**Fonction :** Affiche la liste compl√®te des colonnes avec num√©rotation.

**Utilit√© :**
- Permet d'identifier rapidement les attributs disponibles
- Facilite la s√©lection future de colonnes pertinentes
- Aide √† comprendre la richesse des donn√©es OpenFoodFacts

La num√©rotation (format `01. nom_colonne`) am√©liore la lisibilit√© pour les datasets avec de nombreuses colonnes.

In [None]:
# üìã Affichage des noms de colonnes
print("\nüßæ Liste des colonnes :")
for i, col_name in enumerate(df_raw.columns, start=1):
    print(f"{i:02d}. {col_name}")


### üíæ √âcriture des donn√©es au format CSV

**Fonction :** Sauvegarde le DataFrame au format CSV pour √©tablir une base de comparaison.

**Processus :**
1. Cr√©ation du dossier de sortie avec `os.makedirs()`
2. Mesure du temps d'√©criture avec `time.time()`
3. √âcriture des donn√©es avec options :
   - `.option("header", "true")` : Inclut les en-t√™tes de colonnes
   - `.option("sep", ";")` : Utilise le point-virgule comme s√©parateur
   - `.mode("overwrite")` : √âcrase les fichiers existants

**Objectif :** √âtablir une r√©f√©rence de performance pour comparer avec Parquet par la suite.

In [None]:
# üíæ Sauvegarde des donn√©es ing√©r√©es au format CSV
import os
import time

# ‚è±Ô∏è Mesure des performances d'√©criture

print("\nüìù Phase 1: Mesure des performances d'√©criture")
print("-" * 50)

# ‚úçÔ∏è Mesure du temps d'√©criture au format CSV
print("‚è≥ Mesure du temps d'√©criture CSV pour comparaison...")
start_time = time.time()

# Chemin absolu vers le dossier de sortie CSV
output_dir = os.path.abspath(os.path.join(os.getcwd(), "../data/step1_raw_csv"))
os.makedirs(output_dir, exist_ok=True)

# √âcriture au format CSV (avec header)
df_raw.write \
.option("header", "true") \
.option("sep", ";")\
.mode("overwrite") \
.csv(output_dir)

csv_write_time = time.time() - start_time
print(f"‚úÖ √âcriture CSV termin√©e en {csv_write_time:.2f} secondes")
# Affichage du chemin de sortie
print(f"‚úÖ Ingestion CSV termin√©e dans : {output_dir}")


### üöÄ Configuration pour la comparaison CSV vs Parquet

**Fonction :** Pr√©pare l'environnement pour la comparaison des formats.

**Actions :**
- D√©finition des chemins de sortie pour Parquet
- Cr√©ation des dossiers n√©cessaires
- Utilisation de chemins absolus pour √©viter les probl√®mes de localisation.

In [None]:
# üíæ Sauvegarde au format Parquet
print("üöÄ D√©but de la comparaison CSV vs Parquet")
print("=" * 60)

# Cr√©ation du chemin Parquet

parquet_output_dir = os.path.abspath(os.path.join(os.getcwd(), "../data/step1_raw_parquet"))

# Cr√©ation du dossier Parquet (CSV d√©j√† cr√©√©)
os.makedirs(parquet_output_dir, exist_ok=True)

**Mesure :** Le temps d'√©criture est chronom√©tr√© pour comparaison avec CSV.

In [None]:
# üìä Comparatif des performances entre CSV et Parquet

# ‚úçÔ∏è √âcriture Parquet
print("‚è≥ √âcriture au format Parquet...")
start_time = time.time()

df_raw.write \
    .mode("overwrite") \
    .parquet(parquet_output_dir)

parquet_write_time = time.time() - start_time
print(f"‚úÖ √âcriture Parquet termin√©e en {parquet_write_time:.2f} secondes")

### üìñ Comparaison des performances de lecture

**Fonction :** Mesure et compare les temps de lecture entre CSV et Parquet.

**Process pour chaque format :**
1. Lecture du fichier avec les options appropri√©es
2. Ex√©cution d'une action (`.count()`) pour forcer la lecture effective
3. Mesure du temps total de l'op√©ration

**Importance : La vitesse de lecture est importante pour :**
- Les analyses it√©ratives
- Les transformations complexes

In [None]:
# üìñ Mesure des performances de lecture

print("\nüìñ Phase 2: Mesure des performances de lecture")
print("-" * 50)

# üìö Lecture CSV
print("‚è≥ Lecture du format CSV...")
start_time = time.time()

df_csv = spark.read \
    .option("header", "true") \
    .option("sep", ";") \
    .option("inferSchema", "true") \
    .csv(output_dir)

# Action pour d√©clencher la lecture
csv_count = df_csv.count()
csv_read_time = time.time() - start_time
print(f"‚úÖ Lecture CSV termin√©e en {csv_read_time:.2f} secondes ({csv_count:,} lignes)")

# üìö Lecture Parquet
print("‚è≥ Lecture du format Parquet...")
start_time = time.time()

df_parquet = spark.read.parquet(parquet_output_dir)

# Action pour d√©clencher la lecture
parquet_count = df_parquet.count()
parquet_read_time = time.time() - start_time
print(f"‚úÖ Lecture Parquet termin√©e en {parquet_read_time:.2f} secondes ({parquet_count:,} lignes)")

### üìè Comparaison de l'utilisation de l'espace disque

**Fonctions helper :**
- `get_directory_size()` : Calcule r√©cursivement la taille totale d'un dossier
- `format_size()` : Convertit les octets en unit√©s lisibles (KB, MB, GB)

**M√©triques calcul√©es :**
- Taille totale de chaque format
- Ratio de compression Parquet vs CSV
- √âconomie d'espace en pourcentage

**Cette analyse est importante pour :**
- Estimer les co√ªts de stockage
- Planifier l'infrastructure
- Optimiser les pipelines de donn√©es

In [None]:
# üìè Mesure de la taille des fichiers

print("\nüìè PHASE 3: Comparaison de la taille des fichiers")
print("-" * 50)

def get_directory_size(path):
    """Calcule la taille totale d'un dossier en octets"""
    total_size = 0
    for dirpath, dirnames, filenames in os.walk(path):
        for filename in filenames:
            filepath = os.path.join(dirpath, filename)
            if os.path.exists(filepath):
                total_size += os.path.getsize(filepath)
    return total_size

def format_size(size_bytes):
    """Formate la taille en unit√©s lisibles"""
    if size_bytes == 0:
        return "0 B"
    
    units = ['B', 'KB', 'MB', 'GB', 'TB']
    i = 0
    while size_bytes >= 1024 and i < len(units) - 1:
        size_bytes /= 1024
        i += 1
    
    return f"{size_bytes:.2f} {units[i]}"

# Calcul des tailles
csv_size = get_directory_size(output_dir)
parquet_size = get_directory_size(parquet_output_dir)

print(f"üìÅ Taille CSV: {format_size(csv_size)}")
print(f"üìÅ Taille Parquet: {format_size(parquet_size)}")

# Calcul du ratio de compression
if csv_size > 0:
    compression_ratio = (csv_size - parquet_size) / csv_size * 100
    print(f"üìä Compression: {compression_ratio:.1f}% (Parquet vs CSV)")
else:
    compression_ratio = 0
    print("‚ö†Ô∏è Impossible de calculer le ratio de compression car la taille du CSV est nulle.")


### üìä Tableau de bord des performances

**Fonction :** Synth√©tise toutes les m√©triques de performance dans un format structur√©.

**M√©triques pr√©sent√©es :**
- **√âcriture** : Temps et gain en pourcentage
- **Lecture** : Temps et gain en pourcentage
- **Taille** : Espace utilis√© et compression
- **Performance globale** : Temps total et gain cumul√©

Le format utilise des emojis et une mise en forme claire pour faciliter la lecture et l'interpr√©tation des r√©sultats.

In [None]:
# üìä R√©sum√© des performances

print("\n" + "=" * 60)
print("üìä R√©sum√© des performances des formats CSV vs Parquet")
print("=" * 60)

print(f"""
üî∏ √âCRITURE:
   ‚Ä¢ CSV:     {csv_write_time:.2f}s
   ‚Ä¢ Parquet: {parquet_write_time:.2f}s
   ‚Ä¢ Gain:    {((csv_write_time - parquet_write_time) / csv_write_time * 100):+.1f}%

üî∏ LECTURE:
   ‚Ä¢ CSV:     {csv_read_time:.2f}s
   ‚Ä¢ Parquet: {parquet_read_time:.2f}s
   ‚Ä¢ Gain:    {((csv_read_time - parquet_read_time) / csv_read_time * 100):+.1f}%

üî∏ TAILLE:
   ‚Ä¢ CSV:     {format_size(csv_size)}
   ‚Ä¢ Parquet: {format_size(parquet_size)}
   ‚Ä¢ Gain:    {compression_ratio:.1f}%

üî∏ PERFORMANCE GLOBALE:
   ‚Ä¢ Temps total CSV:     {csv_write_time + csv_read_time:.2f}s
   ‚Ä¢ Temps total Parquet: {parquet_write_time + parquet_read_time:.2f}s
   ‚Ä¢ Gain total:          {((csv_write_time + csv_read_time - parquet_write_time - parquet_read_time) / (csv_write_time + csv_read_time) * 100):+.1f}%
""")

### üìù G√©n√©ration de recommandations

**Fonction :** Analyse automatiquement les r√©sultats et g√©n√®re des recommandations.

**Crit√®res d'√©valuation :**
- Vitesse d'√©criture
- Vitesse de lecture
- Efficacit√© de compression
- Performance globale

**Logique :** 
- Compare chaque m√©trique entre CSV et Parquet
- G√©n√®re des recommandations avec indicateurs visuels (‚úÖ/‚ö†Ô∏è)
- Propose une conclusion bas√©e sur la majorit√© des crit√®res

Cette approche objective aide √† la prise de d√©cision pour le choix du format.

In [None]:
# üìù Recommandations et conclusion

print("\n" + "=" * 60)
print("üìù Recommandations")
print("=" * 60)

recommendations = []

if parquet_write_time < csv_write_time:
    recommendations.append("‚úÖ Parquet est plus rapide en √©criture")
else:
    recommendations.append("‚ö†Ô∏è CSV est plus rapide en √©criture")

if parquet_read_time < csv_read_time:
    recommendations.append("‚úÖ Parquet est plus rapide en lecture")
else:
    recommendations.append("‚ö†Ô∏è CSV est plus rapide en lecture")

if parquet_size < csv_size:
    recommendations.append("‚úÖ Parquet occupe moins d'espace disque")
else:
    recommendations.append("‚ö†Ô∏è CSV occupe moins d'espace disque")

# if parquet_query_time < csv_query_time:
    # recommendations.append("‚úÖ Parquet est plus performant pour les requ√™tes")
# else:
    #recommendations.append("‚ö†Ô∏è CSV est plus performant pour les requ√™tes")

for rec in recommendations:
    print(f"  {rec}")

print(f"\nüéØ Conclusion: {'Parquet' if len([r for r in recommendations if 'Parquet' in r and '‚úÖ' in r]) >= 2 else 'CSV'} semble √™tre le meilleur choix pour ce dataset.")

### üìä Dashboard visuel des performances

**Fonction :** Cr√©e un dashboard complet avec 6 visualisations diff√©rentes.

**Graphiques g√©n√©r√©s :**

1. **Temps d'op√©ration (barres group√©es)** :
   - Compare les temps d'√©criture et lecture
   - Affiche les valeurs exactes sur chaque barre

2. **R√©partition de l'espace disque (camembert)** :
   - Visualise la proportion d'espace utilis√©
   - Inclut les pourcentages et tailles absolues

3. **Gains de performance (barres)** :
   - Montre les gains de performance de Parquet par rapport √† CSV

4. **Temps total (barres simples)** :
   - Compare le temps cumul√© des op√©rations
   - Facilite la comparaison globale

5. **Score d'efficacit√© (barres)** :
   - Calcule un score composite bas√© sur tous les crit√®res
   - Permet une comparaison synth√©tique

6. **R√©sum√© ex√©cutif (texte)** :
   - Synth√®se textuelle des r√©sultats
   - Recommandation finale
   - Points cl√©s √† retenir

In [None]:
# üìä Visualisations des performances avec matplotlib
import matplotlib.pyplot as plt
import numpy as np

# Configuration matplotlib pour de beaux graphiques
plt.style.use('default')
plt.rcParams['figure.figsize'] = (15, 10)
plt.rcParams['font.size'] = 11

print("\n" + "=" * 60)
print("G√©n√©ration des visualisations")
print("=" * 60)

def format_size_mb(size_bytes):
    """Formate la taille en MB"""
    return f'{size_bytes / (1024*1024):.1f} MB'

def create_performance_dashboard():
    """Cr√©e un dashboard complet des performances"""

    # Cr√©ation de la figure avec 6 sous-graphiques
    fig, ((ax1, ax2, ax3), (ax4, ax5, ax6)) = plt.subplots(2, 3, figsize=(18, 12))

    # === 1. Temps d'op√©ration (barres) ===
    operations = ['√âcriture', 'Lecture']
    csv_times = [csv_write_time, csv_read_time]
    parquet_times = [parquet_write_time, parquet_read_time]

    x = np.arange(len(operations))
    width = 0.35

    bars1 = ax1.bar(x - width/2, csv_times, width, label='CSV', color='orange', alpha=0.7)
    bars2 = ax1.bar(x + width/2, parquet_times, width, label='Parquet', color='green', alpha=0.7)

    ax1.set_xlabel('Op√©rations')
    ax1.set_ylabel('Temps (secondes)')
    ax1.set_title('Temps d\'op√©ration')
    ax1.set_xticks(x)
    ax1.set_xticklabels(operations)
    ax1.legend()
    ax1.grid(True, alpha=0.3)

    for bar in bars1:
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height + 2,
                 f'{height:.1f}s', ha='center', va='bottom', fontweight='bold')

    for bar in bars2:
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height + 2,
                 f'{height:.1f}s', ha='center', va='bottom', fontweight='bold')

    # === 2. R√©partition de l'espace disque (secteurs) ===
    sizes = [csv_size, parquet_size]
    labels = ['CSV', 'Parquet']
    colors = ['orange', 'green']

    wedges, texts, autotexts = ax2.pie(sizes, labels=labels, colors=colors,
                                       autopct='%1.1f%%', startangle=90)
    ax2.set_title('Espace disque utilis√©')

    legend_labels = [f'{label}: {format_size_mb(size)}' for label, size in zip(labels, sizes)]
    ax2.legend(wedges, legend_labels, loc="center left", bbox_to_anchor=(1, 0, 0.5, 1))

    # === 3. Gains de performance ===
    write_gain = ((csv_write_time - parquet_write_time) / csv_write_time * 100)
    read_gain = ((csv_read_time - parquet_read_time) / csv_read_time * 100)
    size_gain = ((csv_size - parquet_size) / csv_size * 100)
    total_gain = (((csv_write_time + csv_read_time) - (parquet_write_time + parquet_read_time)) /
                  (csv_write_time + csv_read_time) * 100)

    metrics = ['√âcriture', 'Lecture', 'Taille', 'Total']
    gains = [write_gain, read_gain, size_gain, total_gain]
    colors_gain = ['green' if g > 0 else 'red' for g in gains]

    bars = ax3.bar(metrics, gains, color=colors_gain, alpha=0.7)
    ax3.set_ylabel('Gain (%)')
    ax3.set_title('Gains Parquet vs CSV')
    ax3.axhline(y=0, color='black', linestyle='-', linewidth=0.8)
    ax3.grid(True, alpha=0.3)

    for bar, gain in zip(bars, gains):
        height = bar.get_height()
        ax3.text(bar.get_x() + bar.get_width()/2.,
                 height + (1 if height > 0 else -2),
                 f'{gain:+.1f}%', ha='center',
                 va='bottom' if height > 0 else 'top',
                 fontweight='bold')

    # === 4. Comparaison temps total ===
    total_times = [csv_write_time + csv_read_time, parquet_write_time + parquet_read_time]
    formats = ['CSV', 'Parquet']
    colors_total = ['orange', 'green']

    bars = ax4.bar(formats, total_times, color=colors_total, alpha=0.7)
    ax4.set_ylabel('Temps total (secondes)')
    ax4.set_title('Temps total (√âcriture + Lecture)')
    ax4.grid(True, alpha=0.3)

    for bar, time in zip(bars, total_times):
        height = bar.get_height()
        ax4.text(bar.get_x() + bar.get_width()/2., height + 5,
                 f'{height:.1f}s', ha='center', va='bottom', fontweight='bold')

    # === 5. Efficacit√© relative ===
    csv_score = 1000 / (csv_write_time + csv_read_time + csv_size/(1024**2))
    parquet_score = 1000 / (parquet_write_time + parquet_read_time + parquet_size/(1024**2))

    scores = [csv_score, parquet_score]

    bars = ax5.bar(formats, scores, color=colors_total, alpha=0.7)
    ax5.set_ylabel('Score d\'efficacit√©')
    ax5.set_title('Score d\'efficacit√© global')
    ax5.grid(True, alpha=0.3)

    for bar, score in zip(bars, scores):
        height = bar.get_height()
        ax5.text(bar.get_x() + bar.get_width()/2., height + 0.1,
                 f'{score:.1f}', ha='center', va='bottom', fontweight='bold')

    # === 6. R√©sum√© textuel ===
    ax6.axis('off')

    summary = f"""R√âSUM√â EX√âCUTIF
    
TEMPS (secondes)
√âcriture: CSV {csv_write_time:.1f}s vs Parquet {parquet_write_time:.1f}s
Lecture:  CSV {csv_read_time:.1f}s vs Parquet {parquet_read_time:.1f}s

ESPACE DISQUE
CSV:     {format_size_mb(csv_size)}
Parquet: {format_size_mb(parquet_size)}

GAINS PARQUET
Temps total: {total_gain:+.1f}%
Espace:      {size_gain:+.1f}%

VERDICT
Recommandation: {'PARQUET' if total_gain > 0 and size_gain > 0 else 'CSV'}

Parquet excelle en:
‚Ä¢ Compression des donn√©es
‚Ä¢ Vitesse de lecture
‚Ä¢ Performance analytique"""

    ax6.text(0.05, 0.95, summary, transform=ax6.transAxes, fontsize=10,
             verticalalignment='top', fontfamily='monospace',
             bbox=dict(boxstyle="round,pad=0.5", facecolor="lightblue", alpha=0.8))

    plt.suptitle('Dashboard Performance: CSV vs Parquet\nDataset OpenFoodFacts (3.9M lignes)',
                 fontsize=14, fontweight='bold', y=0.98)

    plt.tight_layout()
    plt.subplots_adjust(top=0.93)
    plt.show()

# G√©n√©ration du dashboard
create_performance_dashboard()

print("Visualisations g√©n√©r√©es avec succ√®s!")