<a href="https://github.com/data-for-good-grenoble/atelier-OFF" target="_blank"><img src="image_meetup_off.png" width=500px/></a>

# üç´ Atelier d'exploration des donn√©es d'Open Food Facts - Meetup Python Grenoble üêç

*Jeudi 27 juin 2024 - 19h - <a href="https://turbine.coop/" target="_blank">La Turbine</a> - Grenoble*

**Notations :**

‚ñ∂Ô∏è : le code peut √™tre ex√©cut√© sans modification

üíª : le code doit √™tre cr√©√© ou modifi√©

___

‚ñ∂Ô∏è Importer les **biblioth√®ques n√©cessaires** √† l'activit√©

In [None]:
import requests
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics.pairwise import cosine_similarity

## üé£ PARTIE N¬∞1 : R√©cup√©rer un produit de la base de donn√©es d'Open Food Facts et classer les produits par similitudes

Le mod√®le de recommandation que l'on construit se base sur des **similitudes des caract√©ristiques des produits** puis en s√©lectionnant les produits avec le **meilleur nutriscore**. D'autres **approches par cat√©gories de produits** sont possibles. 

‚ñ∂Ô∏è R√©cup√©rer **500 produits** de la **cat√©gorie "snacks"**

In [None]:
def get_open_food_facts_data(category, page_size=100, num_pages=5):
    base_url = "https://world.openfoodfacts.org/cgi/search.pl"
    products = []
    for page in range(1, num_pages + 1):
        params = {
            'action': 'process',
            'tagtype_0': 'categories',
            'tag_contains_0': 'contains',
            'tag_0': category,
            'page_size': page_size,
            'page': page,
            'json': 1
        }
        response = requests.get(base_url, params=params)
        data = response.json()
        products.extend(data.get('products', []))
    return products

category = 'snacks'
data = get_open_food_facts_data(category)
df = pd.json_normalize(data)
df

‚ñ∂Ô∏è Analyser les **valeurs manquantes**

In [None]:
sns.heatmap(df.isna(), cbar=False)
plt.show()

‚ñ∂Ô∏è S√©lectionner les **colonnes les plus int√©ressantes** (5 √† 10 colonnes)

In [None]:
# S√©lectionner les colonnes d'int√©r√™t
columns = ['product_name', 'nutriments.energy_100g', 'nutriments.fat_100g',
           'nutriments.carbohydrates_100g', 'nutriments.proteins_100g', 'nutriments.sugars_100g',
           'nutriments.salt_100g']
df = df[columns]
# Renommer les colonnes pour simplifier
df.columns = ['product_name', 'energy', 'fat', 'carbohydrates', 'proteins', 'sugars', 'salt']

‚ñ∂Ô∏è Traiter les **valeurs manquantes**

In [None]:
df = df.dropna()

In [None]:
sns.heatmap(df.isna(), cbar=False)
plt.show()

‚ñ∂Ô∏è **Normaliser** les donn√©es

In [None]:
# Normaliser les donn√©es
nutritional_data = df[['energy', 'fat', 'carbohydrates', 'proteins', 'sugars', 'salt']]
normalized_data = (nutritional_data - nutritional_data.mean()) / nutritional_data.std()

‚ñ∂Ô∏è Calculer la **matrice de similarit√© cosinus**

In [None]:
# Calculer la similarit√© cosinus
similarity_matrix = cosine_similarity(normalized_data)

‚ñ∂Ô∏è Cr√©er le **moteur de recommandation** de produits similaires

In [None]:
def recommend_products(product_name, df, similarity_matrix, top_n=5):
    matching_products = df[df['product_name'].str.contains(product_name, case=False, na=False)]
    if matching_products.empty:
        print(f"Produit '{product_name}' non trouv√©.")
        return pd.DataFrame()
    product_index = matching_products.index[0]
    similarity_scores = list(enumerate(similarity_matrix[product_index]))
    similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
    similar_products_indices = [i[0] for i in similarity_scores[1:top_n + 1]]
    return df.iloc[similar_products_indices][['product_name', 'energy', 'fat', 'carbohydrates', 'proteins', 'sugars', 'salt']]

‚ñ∂Ô∏è Tester le moteur de recommandation sur un **exemple de produit**

In [None]:
# Exemple de recommandation
product_name = "Crackers"
recommended_products = recommend_products(product_name, df, similarity_matrix, top_n=5)
print(recommended_products)

## üåç PARTIE N¬∞2 : trouver des produits avec un meilleur impact environnmental

Les donn√©es de la base de donn√©es d'Open Food Facts ont √©t√© **s√©lectionn√©es** suivant les crit√®res suivants :

- Produits pr√©sents en **France**
- Avec un **nutriscore valide**
- Avec un **√©coscore valide**
- Avec des colonnes avec **moins de 20% de donn√©es manquantes**
- Avec une s√©lection de **colonnes int√©ressantes**
- Avec une s√©lection al√©atoire de **10% des donn√©es** (probl√®mes de temps de calculs)

___

‚ñ∂Ô∏è **R√©cup√©rer les donn√©es** pr√©-trait√©es de la base de donn√©es d'Open Food Facts

In [None]:
data = pd.read_csv("OFF_dataset.csv")
data

‚ñ∂Ô∏è **Remplacer les valeurs manquantes** de la colonne "brands" par "-". V√©rifier le **remplissage**

In [None]:
data['brands'] = data['brands'].fillna("-")

In [None]:
sns.heatmap(data.isna(), cbar=False)
plt.show()

‚ñ∂Ô∏è **Supprimer les valeurs manquantes restantes** et v√©rifier qu'il ne reste plus de valeurs manquantes

In [None]:
data = data.dropna()

In [None]:
sns.heatmap(data.isna(), cbar=False)
plt.show()

üíª **S√©lectionner les donn√©es** √† prendre en compte et **normaliser ces donn√©es**

In [None]:
# A COMPLETER

‚ñ∂Ô∏è Calculer la **matrice de similarit√© cosinus**

In [None]:
# Calculer la similarit√© cosinus
similarity_matrix = cosine_similarity(normalized_data)

üíª **Modifier le moteur de recommandation** de produits similaires et **tester le fonctionnement** sur diff√©rents produits

In [None]:
# A COMPLETER