# TP n°2 - Qualité des Données OpenFoodFacts

**Auteur :** Lucas Steichen  
**Date :** Janvier 2026  
**Cours :** Qualité des données - EPSI

## Contexte

Application mobile d'aide au choix alimentaire basée sur les données OpenFoodFacts.  
L'objectif est d'auditer et d'améliorer la qualité des données avant leur mise en production.

## Imports et configuration

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import great_expectations as gx
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuration de l'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
sns.set_style('whitegrid')

print("✓ Imports réussis")

## 1. Profiling et exploration

### 1.1 Chargement des données

In [None]:
# Charger le dataset
data_path = Path('../data/food_sample.parquet')

if not data_path.exists():
    print(f"⚠️  Fichier non trouvé : {data_path}")
    print("Veuillez placer le fichier 'food_sample.parquet' dans le dossier 'data/'")
else:
    df = pd.read_parquet(data_path)
    print(f"✓ Dataset chargé : {len(df)} lignes, {len(df.columns)} colonnes")
    print(f"  Mémoire utilisée : {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

### 1.2 Exploration du schéma

In [None]:
# Aperçu des premières lignes
df.head()

In [None]:
# Informations sur les colonnes
df.info()

In [None]:
# Statistiques descriptives
df.describe(include='all')

### 1.3 Identification des variables utiles

Variables nécessaires pour l'application :
- **Identification** : code, product_name
- **Classification** : brands, categories
- **Nutrition** : informations nutritionnelles (energy, fat, carbohydrates, proteins, salt, etc.)
- **Score** : nutriscore_grade, nutriscore_score

In [None]:
# Liste des colonnes disponibles
print("Colonnes disponibles :")
for i, col in enumerate(df.columns, 1):
    print(f"{i:3d}. {col}")

### 1.4 Problèmes de qualité identifiés

À compléter après exploration :
- Valeurs manquantes
- Types de données inappropriés
- Données imbriquées (listes, dictionnaires)
- Doublons potentiels
- Valeurs aberrantes
- Formats incohérents

In [None]:
# Analyse des valeurs manquantes
missing = df.isnull().sum()
missing_pct = (missing / len(df) * 100).round(2)
missing_df = pd.DataFrame({
    'Colonne': missing.index,
    'Manquants': missing.values,
    'Pourcentage': missing_pct.values
})
missing_df = missing_df[missing_df['Manquants'] > 0].sort_values('Manquants', ascending=False)
print(f"Colonnes avec valeurs manquantes : {len(missing_df)} / {len(df.columns)}")
missing_df.head(20)

### 1.5 Dictionnaire des données

À compléter sous forme de tableau : nom, type, définition, exemple, règles métier

In [None]:
# TODO: Créer le dictionnaire des données
data_dict = pd.DataFrame({
    'Variable': ['code', 'product_name', 'brands', 'categories'],
    'Type': ['str', 'str', 'str', 'str'],
    'Définition': ['', '', '', ''],
    'Exemple': ['', '', '', ''],
    'Règles métier': ['', '', '', '']
})

data_dict

## 2. Audit de la qualité avec Great Expectations

### 2.1 Initialisation de Great Expectations

In [None]:
# Créer un Data Context éphémère (sans dossier great_expectations/)
context = gx.get_context()
print("✓ Great Expectations initialisé (contexte éphémère)")

### 2.2 Création de la suite d'expectations

Minimum 8 expectations réparties :
- **Complétude** (2+) : colonnes non nulles
- **Unicité** (1+) : valeurs uniques
- **Validité** (2+) : valeurs dans des plages valides
- **Conformité** (2+) : formats et ensembles de valeurs
- **Cohérence** (1+) : relations entre colonnes

In [None]:
# TODO: Créer la suite d'expectations
# Exemple :
# suite = context.add_expectation_suite("openfoodfacts_suite")
# validator = context.sources.add_pandas("pandas_data").read_dataframe(df)
# validator.expectation_suite_name = "openfoodfacts_suite"

# Expectations de complétude
# validator.expect_column_values_to_not_be_null("product_name")
# validator.expect_column_values_to_not_be_null("brands")

# Expectations d'unicité
# validator.expect_column_values_to_be_unique("code")

# Expectations de validité
# validator.expect_column_values_to_be_between("sugars_100g", min_value=0, max_value=100)

# Expectations de conformité
# validator.expect_column_values_to_be_in_set("nutriscore_grade", ["a", "b", "c", "d", "e"])

# Expectations de cohérence
# Exemple : sugars_100g <= carbohydrates_100g

pass

### 2.3 Validation des données brutes

In [None]:
# TODO: Exécuter la validation
# results = validator.validate()
# print(results)

### 2.4 Calcul des taux de conformité

In [None]:
# TODO: Calculer et afficher les taux de conformité
# - Taux global
# - Taux par expectation
# - Taux par dimension

pass

### 2.5 Synthèse des résultats

Tableau récapitulatif : dimension, règle, description, résultat, %

In [None]:
# TODO: Créer le tableau de synthèse
pass

## 3. Traitement des données

### 3.1 Objectifs

- Types basiques (str, int, float)
- Une ligne = un produit unique
- Une variable = une information

### 3.2 Transformations

In [None]:
# Créer une copie pour le nettoyage
df_clean = df.copy()

# TODO: Implémenter les transformations
# - Conversion de types
# - Éclatement des colonnes complexes
# - Gestion des valeurs manquantes
# - Normalisation

print(f"Dataset nettoyé : {len(df_clean)} lignes, {len(df_clean.columns)} colonnes")

### 3.3 Re-validation avec Great Expectations

In [None]:
# TODO: Relancer la validation sur df_clean
pass

### 3.4 Comparaison des résultats

Comparer les taux de conformité avant/après nettoyage

In [None]:
# TODO: Tableau comparatif
pass

## 4. Valeurs aberrantes et logique métier

### 4.1 Analyse des produits spécifiques

In [None]:
# Produits à analyser
product_codes = ['00457521', '00000131', '3760225200056']

for code in product_codes:
    print(f"\n{'='*60}")
    print(f"Produit : {code}")
    print('='*60)
    
    product = df_clean[df_clean['code'] == code]
    if len(product) > 0:
        display(product)
        # TODO: Analyser les informations nutritionnelles
        # - Identifier les problèmes
        # - Proposer des hypothèses
        # - Formaliser des règles de détection
        # - Proposer une décision métier
    else:
        print("Produit non trouvé")

### 4.2 Généralisation des règles de détection

In [None]:
# TODO: Implémenter les règles de détection d'anomalies
# Exemple :
# - Somme des nutriments > 100g
# - Valeurs nutritionnelles incohérentes
# - Nutri-score incohérent avec les valeurs

pass

### 4.3 Quantification des anomalies

In [None]:
# TODO: Tableau de synthèse des anomalies
# Règle | Description | Nombre de produits | %

pass

### 4.4 Stratégies de traitement

In [None]:
# TODO: Proposer et implémenter les stratégies de traitement
# - Correction automatique
# - Correction manuelle
# - Exclusion
# - Enrichissement
# - Acceptation justifiée

pass

## 5. Monitoring

### 5.1 Indicateurs de qualité sélectionnés

In [None]:
# TODO: Définir 2-3 indicateurs clés à surveiller
# Exemple :
# - Taux de complétude des informations nutritionnelles
# - Taux de validité des nutriments (dans [0, 100])
# - Taux de règles Great Expectations en échec

monitoring_indicators = {
    'Indicateur 1': {
        'description': '',
        'valeur': 0.0,
        'seuil': 0.0,
        'risque': ''
    },
    'Indicateur 2': {
        'description': '',
        'valeur': 0.0,
        'seuil': 0.0,
        'risque': ''
    }
}

# TODO: Calculer les indicateurs
pass

### 5.2 Définition des seuils d'alerte

In [None]:
# TODO: Justifier les seuils choisis
pass

### 5.3 Limites et évolutions futures

**Ces indicateurs sont-ils suffisants ?**

TODO: Répondre

**Quelles évolutions des données pourraient remettre en cause leur pertinence ?**

TODO: Répondre

## 6. Conclusion

### Synthèse du travail réalisé

TODO: Résumer les principales conclusions

### Limites identifiées

TODO: Lister les limites du dataset et des traitements

### Recommandations

TODO: Proposer des améliorations pour la mise en production

## Export des données nettoyées

In [None]:
# Sauvegarder le dataset nettoyé
output_path = Path('../data/food_sample_clean.parquet')
df_clean.to_parquet(output_path, index=False)
print(f"✓ Dataset nettoyé sauvegardé : {output_path}")