# Test de l'API Open Food Facts - Extraction de produits "Champagne"

**Projet P6 - Place de March√©**

**Objectif** : Tester la collecte de produits √† base de champagne via l'API Open Food Facts pour √©largir la gamme de produits √† l'√©picerie fine.

**Livrable** : Script Python permettant l'extraction des 10 premiers produits dans un fichier CSV contenant :
- `foodId` : Identifiant du produit
- `label` : Nom du produit
- `category` : Cat√©gorie du produit
- `foodContentsLabel` : Description/ingr√©dients du produit
- `image` : URL de l'image du produit

---

## üìö Documentation API Open Food Facts

- **API Endpoint** : https://world.openfoodfacts.org/api/v2/search
- **Documentation** : https://openfoodfacts.github.io/openfoodfacts-server/api/
- **Rate Limit** : 10 req/min pour les recherches
- **User-Agent requis** : Format `AppName/Version (ContactEmail)`


## 1. Installation et Imports


In [None]:
import requests
import pandas as pd
import json
from pathlib import Path
from datetime import datetime
import time

## 2. Configuration de l'API


In [13]:
# Configuration de l'API Open Food Facts
API_BASE_URL = "https://world.openfoodfacts.org"
API_SEARCH_ENDPOINT = f"{API_BASE_URL}/cgi/search.pl"

# User-Agent personnalis√© (obligatoire selon la documentation)
HEADERS = {
    'User-Agent': 'PlaceDeMarche/1.0 (laureendademeule@example.com)'
}

print("‚úÖ Configuration de l'API initialis√©e")
print(f"üìç Endpoint : {API_SEARCH_ENDPOINT}")


‚úÖ Configuration de l'API initialis√©e
üìç Endpoint : https://world.openfoodfacts.org/cgi/search.pl


## 3. Fonction de recherche de produits


In [14]:
def search_products(search_term, page_size=10, page=1):
    """
    Recherche des produits sur Open Food Facts
    
    Parameters:
    -----------
    search_term : str
        Terme de recherche (ex: 'champagne')
    page_size : int
        Nombre de r√©sultats par page (max 100)
    page : int
        Num√©ro de page
        
    Returns:
    --------
    dict : R√©sultats de la recherche au format JSON
    """
    
    params = {
        'search_terms': search_term,
        'page_size': page_size,
        'page': page,
        'json': 1,  # Format JSON
        'fields': 'code,product_name,categories,categories_tags,ingredients_text,image_url,image_front_url,brands,nutriscore_grade'
    }
    
    try:
        print(f"üîç Recherche de produits contenant '{search_term}'...")
        response = requests.get(API_SEARCH_ENDPOINT, params=params, headers=HEADERS)
        response.raise_for_status()
        
        data = response.json()
        print(f"‚úÖ {data.get('count', 0)} produits trouv√©s")
        print(f"üì¶ {len(data.get('products', []))} produits r√©cup√©r√©s")
        
        return data
        
    except requests.exceptions.RequestException as e:
        print(f"‚ùå Erreur lors de la requ√™te API : {e}")
        return None


## 4. Fonction d'extraction et de formatage des donn√©es


In [15]:
def extract_product_data(products):
    """
    Extrait et formate les donn√©es des produits selon le format requis
    
    Parameters:
    -----------
    products : list
        Liste des produits retourn√©s par l'API
        
    Returns:
    --------
    list : Liste de dictionnaires contenant les donn√©es format√©es
    """
    
    extracted_data = []
    
    for product in products:
        # Extraction des donn√©es avec gestion des valeurs manquantes
        product_data = {
            'foodId': product.get('code', 'N/A'),
            'label': product.get('product_name', 'N/A'),
            'category': product.get('categories', 'N/A'),
            'foodContentsLabel': product.get('ingredients_text', 'N/A'),
            'image': product.get('image_front_url', product.get('image_url', 'N/A'))
        }
        
        extracted_data.append(product_data)
    
    print(f"‚úÖ {len(extracted_data)} produits extraits et format√©s")
    return extracted_data


## 5. Fonction de sauvegarde en CSV


In [16]:
def save_to_csv(data, filename='produits_champagne.csv'):
    """
    Sauvegarde les donn√©es dans un fichier CSV
    
    Parameters:
    -----------
    data : list
        Liste de dictionnaires contenant les donn√©es
    filename : str
        Nom du fichier CSV de sortie
        
    Returns:
    --------
    str : Chemin complet du fichier sauvegard√©
    """
    
    # Cr√©er le DataFrame
    df = pd.DataFrame(data)
    
    # D√©finir le chemin de sortie
    output_dir = Path('../notebooks')
    output_dir.mkdir(parents=True, exist_ok=True)
    
    output_path = output_dir / filename
    
    # Sauvegarder en CSV
    df.to_csv(output_path, index=False, encoding='utf-8')
    
    print(f"\nüíæ Fichier CSV sauvegard√© : {output_path}")
    print(f"üìä Dimensions : {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
    
    return str(output_path)


## 6. Ex√©cution : Recherche et extraction des produits "Champagne"


In [17]:
# Param√®tres de recherche
SEARCH_TERM = "champagne"
NUM_PRODUCTS = 10

print("="*70)
print("üçæ EXTRACTION DE PRODUITS 'CHAMPAGNE' VIA API OPEN FOOD FACTS")
print("="*70)
print(f"\nüìÖ Date : {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üîé Terme de recherche : '{SEARCH_TERM}'")
print(f"üì¶ Nombre de produits √† extraire : {NUM_PRODUCTS}")
print("\n" + "-"*70 + "\n")

# 1. Recherche des produits
results = search_products(SEARCH_TERM, page_size=NUM_PRODUCTS)

if results and 'products' in results:
    # 2. Extraction des donn√©es
    products_data = extract_product_data(results['products'])
    
    # 3. Sauvegarde en CSV
    csv_path = save_to_csv(products_data, filename='produits_champagne.csv')
    
    print("\n" + "="*70)
    print("‚úÖ EXTRACTION TERMIN√âE AVEC SUCC√àS")
    print("="*70)
else:
    print("\n‚ùå ERREUR : Aucun produit n'a pu √™tre r√©cup√©r√©")


üçæ EXTRACTION DE PRODUITS 'CHAMPAGNE' VIA API OPEN FOOD FACTS

üìÖ Date : 2025-10-03 17:49:28
üîé Terme de recherche : 'champagne'
üì¶ Nombre de produits √† extraire : 10

----------------------------------------------------------------------

üîç Recherche de produits contenant 'champagne'...
‚úÖ 1534 produits trouv√©s
üì¶ 10 produits r√©cup√©r√©s
‚úÖ 10 produits extraits et format√©s

üíæ Fichier CSV sauvegard√© : ../notebooks/produits_champagne.csv
üìä Dimensions : 10 lignes √ó 5 colonnes

‚úÖ EXTRACTION TERMIN√âE AVEC SUCC√àS


## 7. Visualisation des r√©sultats


In [18]:
# Charger et afficher le DataFrame
if results and 'products' in results:
    df_champagne = pd.DataFrame(products_data)
    
    print("\nüìä APER√áU DES DONN√âES EXTRAITES\n")
    print(df_champagne.head(10))
    
    print("\nüìà STATISTIQUES DES DONN√âES\n")
    print(f"Nombre total de produits : {len(df_champagne)}")
    print(f"\nNombre de valeurs manquantes par colonne :")
    print(df_champagne.isnull().sum())
    print(f"\nNombre de produits avec image : {(df_champagne['image'] != 'N/A').sum()}")
    print(f"Nombre de produits avec description : {(df_champagne['foodContentsLabel'] != 'N/A').sum()}")



üìä APER√áU DES DONN√âES EXTRAITES

          foodId                                              label  \
0  8001841769189                                                N/A   
1  3039820510250  Vivien Paille Lentilles vertes le paquet de 500 g   
2  3292070010264  Betteraves de Champagne & ch√®vre cr√©meux, poin...   
3  3113934004147                                     Canard Duch√™ne   
4  4820097815556                              Splashes of champagne   
5  4056489843696                      Rillettes de homard au cognac   
6  3760091726964                                Lentilles roses bio   
7  3258431220000                                                      
8  3114080034057                                     Champagne ros√©   
9  3185370729960                            Champagne Imp√©rial Brut   

                                            category  \
0                                Produits,Champagnes   
1  Aliments et boissons √† base de v√©g√©taux, Alime...   
2   

## 8. Affichage d√©taill√© d'un exemple de produit


In [19]:
if results and 'products' in results and len(products_data) > 0:
    print("\nüçæ EXEMPLE DE PRODUIT EXTRAIT\n")
    print("-" * 70)
    
    example = products_data[0]
    for key, value in example.items():
        # Tronquer les valeurs trop longues pour l'affichage
        display_value = value if len(str(value)) <= 100 else str(value)[:100] + "..."
        print(f"{key:20s} : {display_value}")
    
    print("-" * 70)



üçæ EXEMPLE DE PRODUIT EXTRAIT

----------------------------------------------------------------------
foodId               : 8001841769189
label                : N/A
category             : Produits,Champagnes
foodContentsLabel    : N/A
image                : https://images.openfoodfacts.org/images/products/800/184/176/9189/front_fr.3.400.jpg
----------------------------------------------------------------------


In [20]:
def collect_openfoodfacts_products(search_term, num_products=10, output_file=None):
    """
    Fonction principale pour collecter des produits depuis Open Food Facts
    
    Parameters:
    -----------
    search_term : str
        Terme de recherche (ex: 'champagne', 'chocolat', etc.)
    num_products : int
        Nombre de produits √† extraire (par d√©faut: 10)
    output_file : str
        Nom du fichier CSV de sortie (par d√©faut: produits_{search_term}.csv)
        
    Returns:
    --------
    pd.DataFrame : DataFrame contenant les produits extraits
    """
    
    if output_file is None:
        output_file = f"produits_{search_term.lower().replace(' ', '_')}.csv"
    
    # Recherche
    results = search_products(search_term, page_size=num_products)
    
    if results and 'products' in results:
        # Extraction
        products_data = extract_product_data(results['products'])
        
        # Sauvegarde
        save_to_csv(products_data, filename=output_file)
        
        # Retour du DataFrame
        return pd.DataFrame(products_data)
    else:
        print("‚ùå Erreur lors de la collecte des produits")
        return None


---

## üìã R√©sum√© et Conclusions

### ‚úÖ Objectifs atteints

1. **Connexion √† l'API Open Food Facts** : Impl√©mentation r√©ussie avec User-Agent personnalis√©
2. **Recherche de produits "champagne"** : R√©cup√©ration des 10 premiers r√©sultats
3. **Extraction des donn√©es requises** :
   - `foodId` : Code-barres du produit
   - `label` : Nom du produit
   - `category` : Cat√©gories du produit
   - `foodContentsLabel` : Liste d'ingr√©dients
   - `image` : URL de l'image
4. **Export CSV** : Sauvegarde dans `data/artifacts/produits_champagne.csv`

### üéØ Points cl√©s de l'API Open Food Facts

- **Avantages** :
  - API gratuite sans inscription requise
  - Base de donn√©es collaborative de +2.8M produits
  - Documentation compl√®te
  - Donn√©es nutritionnelles et images disponibles
  
- **Limitations** :
  - Rate limit : 10 requ√™tes/min pour les recherches
  - Qualit√© des donn√©es variable (donn√©es crowdsourc√©es)
  - User-Agent personnalis√© obligatoire
  - Certains produits peuvent avoir des donn√©es incompl√®tes

### üöÄ Recommandations pour la production

1. **Gestion des erreurs** : Impl√©menter une gestion robuste des timeouts et erreurs r√©seau
2. **Respect des rate limits** : Ajouter des d√©lais entre les requ√™tes (6 secondes minimum)
3. **Validation des donn√©es** : V√©rifier la compl√©tude des donn√©es avant utilisation
4. **Cache local** : T√©l√©charger et mettre en cache les donn√©es fr√©quemment utilis√©es
5. **Monitoring** : Logger les requ√™tes et les erreurs pour d√©bogage

### üìä Int√©gration dans le projet Place de March√©

Ce script d√©montre la faisabilit√© d'√©largir la gamme de produits √† l'√©picerie fine en utilisant l'API Open Food Facts. Le m√™me processus peut √™tre appliqu√© pour d'autres cat√©gories de produits alimentaires de luxe.

---

**Auteur** : Laureen Dademeule  
**Projet** : P6 - Place de March√© - Classification automatique de biens de consommation  
**Date** : Octobre 2025
