# üìà Analyse Long-terme des Recettes

## Objectif
Analyser l'√©volution des ratings des ingr√©dients sur le long terme (2000-2018) pour identifier :
- Les tendances temporelles dans l'appr√©ciation des ingr√©dients
- Les changements de pr√©f√©rences alimentaires au fil des ann√©es
- Les ingr√©dients √©mergents vs d√©clinants


In [9]:
# Import des biblioth√®ques n√©cessaires
import sys
sys.path.append('..')

# üéØ Chargement des fonctions utilitaires depuis le fichier Python (plus robuste)
from _data_utils import *

# üì¶ Imports et chargement des donn√©es
import sys
from pathlib import Path
import pandas as pd
import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')


# üé® Configuration des graphiques
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Imports r√©ussis!")

‚úÖ Imports r√©ussis!


## üìä Chargement et nettoyage des donn√©es

Utilisation de `load_clean_recipes()` qui :
- Charge la table RAW_recipes depuis DuckDB
- Nettoie les donn√©es (supprime nulls, doublons)
- Parse la colonne nutrition en 7 colonnes s√©par√©es
- Ajoute les features temporelles (year, month, weekday, season, is_weekend)
- Calcule le score de complexit√©

In [10]:
# üì• Chargement des recettes avec nettoyage automatique
df = load_clean_recipes()

print(f"‚úÖ Recettes charg√©es : {df.shape[0]:,} lignes, {df.shape[1]} colonnes")
print(f"üìÖ P√©riode couverte : {df['year'].min()} - {df['year'].max()}")
print(f"\nüìã Colonnes disponibles :")
print(df.columns)

‚úÖ RAW_recipes charg√©e (231637 lignes, 12 colonnes)


SchemaError: invalid series dtype: expected `String`, got `date` for series with name `submitted`

## üîç Analyse de la qualit√© des donn√©es

V√©rification rapide de la qualit√© des donn√©es charg√©es.

In [None]:
# üî¨ Rapport de qualit√© automatique
quality_report = analyze_recipe_quality(df)

# Afficher un aper√ßu des donn√©es
print(f"\nüìä Aper√ßu des donn√©es :")
df.head(3)

## üìà Analyse 1 : Volume de recettes dans le temps

Analyser l'√©volution du nombre de recettes soumises par ann√©e, mois, weekend/weekday, et saison.

In [None]:
# üìä Agr√©gation des donn√©es par dimensions temporelles
by_year = df.group_by("year").len().sort("year").to_pandas()
by_month = df.group_by("month").len().sort("month").to_pandas()
by_weekend = df.group_by("is_weekend").len().sort("is_weekend").to_pandas()
by_season = df.group_by("season").len().sort("season").to_pandas()

# üé® Visualisation 4 graphiques
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Volume par ann√©e
sns.barplot(data=by_year, x="year", y="len", color="green", ax=axes[0,0])
axes[0,0].set_title("üìÖ Nombre de recettes par ann√©e", fontsize=12, fontweight='bold')
axes[0,0].set_xlabel("Ann√©e")
axes[0,0].set_ylabel("Nombre de recettes")
axes[0,0].tick_params(axis='x', rotation=45, labelsize=8)

# 2. Volume par mois
sns.barplot(data=by_month, x="month", y="len", ax=axes[0,1])
axes[0,1].set_title("üìÜ Nombre de recettes par mois", fontsize=12, fontweight='bold')
axes[0,1].set_xlabel("Mois")
axes[0,1].set_ylabel("Nombre de recettes")

# 3. Weekend vs Weekday
by_weekend['label'] = by_weekend['is_weekend'].map({0: 'Weekday', 1: 'Weekend'})
sns.barplot(data=by_weekend, x="label", y="len", palette=["skyblue", "orange"], ax=axes[1,0])
axes[1,0].set_title("üìå Weekday vs Weekend", fontsize=12, fontweight='bold')
axes[1,0].set_xlabel("")
axes[1,0].set_ylabel("Nombre de recettes")

# 4. Volume par saison
sns.barplot(data=by_season, x="season", y="len", palette="Set2", ax=axes[1,1])
axes[1,1].set_title("üå∏ Nombre de recettes par saison", fontsize=12, fontweight='bold')
axes[1,1].set_xlabel("Saison")
axes[1,1].set_ylabel("Nombre de recettes")

plt.tight_layout()
plt.show()

print(f"üìä R√©sum√© : {df.shape[0]:,} recettes entre {df['year'].min()} et {df['year'].max()}")

## ‚è±Ô∏è Analyse 2 : Temps de pr√©paration moyen (minutes)

Analyser comment le temps moyen de pr√©paration des recettes √©volue dans le temps.

**Note** : La fonction `load_clean_recipes()` filtre automatiquement :
- Les recettes avec `minutes <= 0`
- Les recettes avec `minutes > 180` (plus de 3 heures)

In [None]:
# üìä Calcul des temps moyens par dimension temporelle
avg_year = df.group_by("year").agg(pl.col("minutes").mean().alias("avg_minutes")).sort("year").to_pandas()
avg_month = df.group_by("month").agg(pl.col("minutes").mean().alias("avg_minutes")).sort("month").to_pandas()
avg_weekend = df.group_by("is_weekend").agg(pl.col("minutes").mean().alias("avg_minutes")).sort("is_weekend").to_pandas()
avg_season = df.group_by("season").agg(pl.col("minutes").mean().alias("avg_minutes")).sort("season").to_pandas()

# üé® Visualisation 4 graphiques
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Temps moyen par ann√©e
sns.barplot(data=avg_year, x="year", y="avg_minutes", color="skyblue", ax=axes[0,0])
axes[0,0].set_title("‚è±Ô∏è Temps moyen par ann√©e", fontsize=12, fontweight='bold')
axes[0,0].set_xlabel("Ann√©e")
axes[0,0].set_ylabel("Temps moyen (minutes)")
axes[0,0].tick_params(axis='x', rotation=45, labelsize=8)

# 2. Temps moyen par mois
sns.barplot(data=avg_month, x="month", y="avg_minutes", color="orange", ax=axes[0,1])
axes[0,1].set_title("‚è±Ô∏è Temps moyen par mois", fontsize=12, fontweight='bold')
axes[0,1].set_xlabel("Mois")
axes[0,1].set_ylabel("Temps moyen (minutes)")

# 3. Weekday vs Weekend
avg_weekend['label'] = avg_weekend['is_weekend'].map({0: 'Weekday', 1: 'Weekend'})
sns.barplot(data=avg_weekend, x="label", y="avg_minutes", palette=["lightgreen", "coral"], ax=axes[1,0])
axes[1,0].set_title("‚è±Ô∏è Temps moyen Weekday vs Weekend", fontsize=12, fontweight='bold')
axes[1,0].set_xlabel("")
axes[1,0].set_ylabel("Temps moyen (minutes)")

# 4. Temps moyen par saison
sns.barplot(data=avg_season, x="season", y="avg_minutes", palette="viridis", ax=axes[1,1])
axes[1,1].set_title("‚è±Ô∏è Temps moyen par saison", fontsize=12, fontweight='bold')
axes[1,1].set_xlabel("Saison")
axes[1,1].set_ylabel("Temps moyen (minutes)")

plt.tight_layout()
plt.show()

print(f"‚è±Ô∏è Temps moyen global : {df['minutes'].mean():.1f} minutes")
print(f"üìä M√©diane : {df['minutes'].median():.1f} minutes")

## üî• Analyse 3 : √âvolution des calories moyennes

Analyser l'√©volution nutritionnelle des recettes dans le temps.

**Note** : Les colonnes nutritionnelles ont √©t√© automatiquement pars√©es par `load_clean_recipes()` :
- `calories`, `total_fat_pct`, `sugar_pct`, `sodium_pct`, `protein_pct`, `sat_fat_pct`, `carb_pct`

In [None]:
# üìä Calories moyennes par ann√©e
calories_year = df.group_by("year").agg(pl.col("calories").mean().alias("avg_calories")).sort("year").to_pandas()

# üé® Visualisation avec ligne de tendance
fig, ax = plt.subplots(figsize=(14, 6))

# Barres
sns.barplot(data=calories_year, x="year", y="avg_calories", color="tomato", ax=ax)

# Ligne de tendance
ax.plot(calories_year.index, calories_year['avg_calories'], color='darkred', linewidth=2, marker='o', label='Tendance')

ax.set_title("üî• √âvolution des calories moyennes par ann√©e", fontsize=14, fontweight='bold')
ax.set_xlabel("Ann√©e", fontsize=12)
ax.set_ylabel("Calories moyennes", fontsize=12)
ax.tick_params(axis='x', rotation=45, labelsize=9)
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# üìä Statistiques
print(f"üî• Calories en {calories_year.iloc[0]['year']:.0f} : {calories_year.iloc[0]['avg_calories']:.1f} kcal")
print(f"üî• Calories en {calories_year.iloc[-1]['year']:.0f} : {calories_year.iloc[-1]['avg_calories']:.1f} kcal")
variation = ((calories_year.iloc[-1]['avg_calories'] - calories_year.iloc[0]['avg_calories']) / calories_year.iloc[0]['avg_calories'] * 100)
print(f"üìà Variation : {variation:+.1f}%")

## üéØ Analyse 4 : Score de complexit√© des recettes

Le score de complexit√© est calcul√© automatiquement par `compute_recipe_complexity()` :

$$\text{complexity\_score} = \frac{\text{minutes}}{10} + \text{n\_steps} + \text{n\_ingredients} \times 0.5$$

Plus le score est √©lev√©, plus la recette est complexe.

In [None]:
# üìä Complexit√© moyenne par ann√©e
complexity_year = df.group_by("year").agg(
    pl.col("complexity_score").mean().alias("avg_complexity")
).sort("year").to_pandas()

# üé® Visualisation
fig, ax = plt.subplots(figsize=(14, 6))

ax.plot(complexity_year['year'], complexity_year['avg_complexity'], 
        marker='o', linewidth=2.5, color='purple', markersize=8)
ax.fill_between(complexity_year['year'], complexity_year['avg_complexity'], alpha=0.3, color='purple')

ax.set_title("üéØ √âvolution du score de complexit√© moyen", fontsize=14, fontweight='bold')
ax.set_xlabel("Ann√©e", fontsize=12)
ax.set_ylabel("Score de complexit√© moyen", fontsize=12)
ax.grid(True, alpha=0.4)
ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

# üìä Statistiques descriptives
print(f"üìä Score de complexit√© :")
print(f"   Minimum : {df['complexity_score'].min():.2f}")
print(f"   Maximum : {df['complexity_score'].max():.2f}")
print(f"   Moyenne : {df['complexity_score'].mean():.2f}")
print(f"   M√©diane : {df['complexity_score'].median():.2f}")

## üìä Analyse 5 : Distribution du nombre d'ingr√©dients

Explorer la distribution du nombre d'ingr√©dients par recette.

In [None]:
# üìä Distribution + √©volution temporelle
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# 1. Histogramme de distribution
df['n_ingredients'].to_pandas().hist(bins=30, edgecolor='black', color='steelblue', ax=ax1)
ax1.axvline(df['n_ingredients'].median(), color='red', linestyle='--', linewidth=2, label=f"M√©diane: {df['n_ingredients'].median()}")
ax1.axvline(df['n_ingredients'].mean(), color='orange', linestyle='--', linewidth=2, label=f"Moyenne: {df['n_ingredients'].mean():.1f}")
ax1.set_title("üìä Distribution du nombre d'ingr√©dients", fontsize=12, fontweight='bold')
ax1.set_xlabel("Nombre d'ingr√©dients")
ax1.set_ylabel("Fr√©quence")
ax1.legend()
ax1.grid(True, alpha=0.3)

# 2. √âvolution du nombre moyen d'ingr√©dients par ann√©e
ingredients_year = df.group_by("year").agg(
    pl.col("n_ingredients").mean().alias("avg_ingredients")
).sort("year").to_pandas()

ax2.plot(ingredients_year['year'], ingredients_year['avg_ingredients'], 
         marker='s', linewidth=2, color='forestgreen', markersize=7)
ax2.set_title("üìà √âvolution du nombre moyen d'ingr√©dients par ann√©e", fontsize=12, fontweight='bold')
ax2.set_xlabel("Ann√©e")
ax2.set_ylabel("Nombre moyen d'ingr√©dients")
ax2.grid(True, alpha=0.3)
ax2.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

print(f"ü•ï Nombre d'ingr√©dients :")
print(f"   M√©diane : {df['n_ingredients'].median()}")
print(f"   Moyenne : {df['n_ingredients'].mean():.1f}")
print(f"   Min : {df['n_ingredients'].min()}")
print(f"   Max : {df['n_ingredients'].max()}")

## üéÅ R√©sum√© des insights

### üìå Principales observations

Synth√®se des tendances observ√©es dans l'analyse long-terme des recettes.

In [None]:
# üìù G√©n√©ration automatique du r√©sum√©
print("=" * 70)
print("üìä RAPPORT D'ANALYSE - RECETTES (2000-2018)")
print("=" * 70)
print(f"\nüì¶ Volume de donn√©es :")
print(f"   ‚Ä¢ Total recettes analys√©es : {df.shape[0]:,}")
print(f"   ‚Ä¢ P√©riode : {df['year'].min()} - {df['year'].max()}")
print(f"   ‚Ä¢ Colonnes disponibles : {df.shape[1]}")

print(f"\n‚è±Ô∏è  Temps de pr√©paration :")
print(f"   ‚Ä¢ Moyenne : {df['minutes'].mean():.1f} minutes")
print(f"   ‚Ä¢ M√©diane : {df['minutes'].median():.1f} minutes")

print(f"\nüî• Nutrition :")
print(f"   ‚Ä¢ Calories moyennes : {df['calories'].mean():.1f} kcal")
print(f"   ‚Ä¢ Variation 2000‚Üí2018 : {((calories_year.iloc[-1]['avg_calories'] - calories_year.iloc[0]['avg_calories']) / calories_year.iloc[0]['avg_calories'] * 100):+.1f}%")

print(f"\nüéØ Complexit√© :")
print(f"   ‚Ä¢ Score moyen : {df['complexity_score'].mean():.2f}")
print(f"   ‚Ä¢ M√©diane : {df['complexity_score'].median():.2f}")

print(f"\nü•ï Ingr√©dients :")
print(f"   ‚Ä¢ Nombre moyen : {df['n_ingredients'].mean():.1f}")
print(f"   ‚Ä¢ M√©diane : {df['n_ingredients'].median()}")

print(f"\nüìÖ Saisonnalit√© :")
season_counts = df.group_by("season").len().sort("len", descending=True).to_pandas()
for idx, row in season_counts.iterrows():
    pct = (row['len'] / df.shape[0] * 100)
    print(f"   ‚Ä¢ {row['season']}: {row['len']:,} recettes ({pct:.1f}%)")

print(f"\nüîÑ Weekend vs Weekday :")
weekend_counts = df.group_by("is_weekend").len().to_pandas()
for idx, row in weekend_counts.iterrows():
    label = "Weekend" if row['is_weekend'] == 1 else "Weekday"
    pct = (row['len'] / df.shape[0] * 100)
    print(f"   ‚Ä¢ {label}: {row['len']:,} recettes ({pct:.1f}%)")

print("\n" + "=" * 70)
print("‚úÖ Analyse termin√©e avec succ√®s !")
print("=" * 70)