## Explication de notre projet d'int√©gration des donn√©es
### ü•ò - Diff√©rents type de r√©gimes : 
<b>‚Ä¢ Foodmap :</b> Favorise certains aliments contenant des glucides capable de fermenter dans l'intestin. <br>

<b>‚Ä¢ M√©diterran√©en :</b> Favorise l'√©quilibre alimentaire, pour privil√©gier la vari√©t√© des aliments. <br>

<b>‚Ä¢ Dash (Dietary Approaches to Stopping Hypertension) :</b> Permet de combattre l'hypertension art√©rielle en modifiant les habitudes alimentaires.<br>

<b>‚Ä¢ √Ä indice glyc√©mique bas :</b> R√©gule le taux de sucre dans le sang en fonction des aliments et deux leur indice glyc√©mique (IG).<br>

<b>‚Ä¢ V√©g√©tarien/V√©g√©talisme :</b> Exclut toutes chaires animales / Exclut la consommation de tous produits d'origine animale.<br>

<b>‚Ä¢ Pal√©olithique :</b> Favorise la m√™me alimentation que nos anc√™tres, avant l'√®re industrielle. <br>

<b>‚Ä¢ C√©tog√®ne :</b> Suppresion quasi compl√®te des sucres et amidons(glucides).<br>

### üëî - √âtapes d'avancements 
<b>‚Ä¢ √âtape 1 :</b> Importation des libraries et des donn√©es<br>

<b>‚Ä¢ √âtape 2 :</b> Nettoyage des donn√©es import√©es<br>

<b>‚Ä¢ √âtape 3 :</b> G√©n√©ration des menus, en fonction des r√©gimes alimentaires des utilisateurs<br>

<b>‚Ä¢ √âtape 4 :</b> Extraction des donn√©es vers la base de donn√©es<br>

### <b>√âtape 1</b> : Importation des libraries et des donn√©es
<hr/>

### üìö - Importation de les libraries n√©cessaires pour le code 

Les imports de PySpark, notamment SparkSession pour la gestion de la session et les fonctions col et expr pour la manipulation des DataFrames, ont √©t√© r√©alis√©s pour permettre des op√©rations efficaces sur les donn√©es.

In [16]:
# Import n√©cessaires des packages 
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.functions import col, expr
import sqlite3

### üíΩ - Importation de l'ensemble des donn√©es 

L'ensemble des donn√©es a √©t√© import√© et stock√© dans des DataFrames distincts, facilitant ainsi la manipulation et l'analyse ult√©rieure des informations relatives aux produits alimentaires et aux pays.

In [17]:
# Cr√©ation d'une session Spark, entr√©e principale pour int√©ragir avec pyspark
spark = SparkSession.builder.appName("data_integration_openfoodfacts").getOrCreate()

# Importation des donn√©es openfoodfacts dans le dataframe, d√©limitation sur la tabulation et r√©cup√©ration de l'en-t√™te 
df_openfoodfacts = spark.read.option("delimiter", "\t").csv("../data/en.openfoodfacts.org.products.csv", header=True, inferSchema=True)

# S√©lectionne seulement les colonnes qui nous int√©ressent pour la suite 
df_openfoodfacts = df_openfoodfacts.select(["product_name", "brands", "categories", "countries", "energy-kcal_100g", "proteins_100g", "fat_100g", "carbohydrates_100g"])

# Importation des donn√©es de r√©gimes 
df_diets = spark.read.csv("../data/diets.csv", header=True, inferSchema=True)

# Importation des donn√©es des utilisateurs 
df_users = spark.read.csv("../data/users.csv", header=True, inferSchema=True)

# Importation des donn√©es de tous les pays du mondes, pour pouvoir avoir un r√©f√©rentiel propre 
df_pays = spark.read.csv("../data/country.csv", header=True, inferSchema=True)

# Importation des donn√©es de jour, afin de d√©crire une semaine 
df_jours_semaine = spark.read.csv("../data/days.csv", header=True, inferSchema=True)

# Conserve seulement les colonnes qui nous int√®resse pour la suite des traitements 
df_pays = df_pays.select(["id", "country"])

### üìä - Affichage du sch√©ma du DataFrame avec colonnes et types de donn√©es

Le sch√©ma du DataFrame, affichant les colonnes ainsi que leurs types de donn√©es, a √©t√© affich√© pour offrir une vue d'ensemble des informations structur√©es.

In [18]:
# Affiche le sch√©ma du dataframe, indiquant les colonnes et leurs types de donn√©es 
df_openfoodfacts.printSchema()

root
 |-- product_name: string (nullable = true)
 |-- brands: string (nullable = true)
 |-- categories: string (nullable = true)
 |-- countries: string (nullable = true)
 |-- energy-kcal_100g: double (nullable = true)
 |-- proteins_100g: double (nullable = true)
 |-- fat_100g: double (nullable = true)
 |-- carbohydrates_100g: double (nullable = true)



### <b>√âtape 2</b> : Nettoyage des donn√©es import√©es 
<hr/>

### üóëÔ∏è - Suppression des valeurs nulles

Dans cette section, nous avons supprim√© les lignes avec des valeurs nulles puis filtr√© les produits en veillant √† ce que des colonnes cl√©s ne contiennent pas de valeurs nulles, pr√©servant ainsi l'int√©grit√© des donn√©es. 

In [19]:
# Supprimer les lignes ayant des valeurs nulles 
df_openfoodfacts.dropna()

# Filtrer les produits ayant des valeurs nulles 
df_openfoodfacts = df_openfoodfacts.filter(
    col("product_name").isNotNull() &
    col("categories").isNotNull() &
    col("countries").isNotNull() &
    col("energy-kcal_100g").isNotNull() &
    col("proteins_100g").isNotNull() &
    col("fat_100g").isNotNull() &
    col("carbohydrates_100g").isNotNull()
)

### üóëÔ∏è - Suppresion des valeurs aberrantes

Dans ce code, nous avons √©tabli des plages de valeurs minimales et maximales pour certaines donn√©es d'int√©r√™t. 

<b>√ânergie (kcal/100g)</b> : Les valeurs caloriques par portion devraient se situer entre 0 kcal/100g (minimum) et 800 kcal/100g (maximum) pour √™tre consid√©r√©es comme non aberrantes.

<b>Prot√©ines (g/100g)</b> : La teneur en prot√©ines par portion serait consid√©r√©e comme non aberrante si elle se situe dans la plage de 1 g/100g (minimum) √† 100 g/100g (maximum).

<b>Graisses (g/100g)</b> : Les quantit√©s de graisses par portion devraient √™tre comprises entre un minimum de 0 g/100g et un maximum de 100 g/100g pour √™tre consid√©r√©es comme non aberrantes.

<b>Glucides (g/100g)</b> : La teneur en glucides par portion serait jug√©e non aberrante si elle se situe entre 1 g/100g (minimum) et 80 g/100g (maximum).

In [20]:
# D√©finir des valeurs sp√©cifiques pour chaque colonne
valeurs_specifiques = {
    'energy-kcal_100g': (0, 800),
    'proteins_100g': (1, 100),
    'fat_100g': (0, 100),
    'carbohydrates_100g': (1, 80)
}

# Filtrer les produits qui contiennent des valeurs aberrantes pour les informations nutritionnelles
df_openfoodfacts = df_openfoodfacts.filter(
    (col("energy-kcal_100g") > valeurs_specifiques['energy-kcal_100g'][0]) &
    (col("energy-kcal_100g") <= valeurs_specifiques['energy-kcal_100g'][1]) &
    (col("proteins_100g") > valeurs_specifiques['proteins_100g'][0]) &
    (col("proteins_100g") <= valeurs_specifiques['proteins_100g'][1]) &
    (col("fat_100g") > valeurs_specifiques['fat_100g'][0]) &
    (col("fat_100g") <= valeurs_specifiques['fat_100g'][1]) &
    (col("carbohydrates_100g") > valeurs_specifiques['carbohydrates_100g'][0]) &
    (col("carbohydrates_100g") <= valeurs_specifiques['carbohydrates_100g'][1])
)

 ### üß∂ - Consolidation des donn√©es 

Dans ce bout de code, on fusionne les informations des produits alimentaires avec les donn√©es sp√©cifiques des pays via une jointure <b>"left outer join"</b>. 

Ensuite on s√©lectionne les colonnes pertinentes, filtre les produits sans correspondance dans les pays, et √©limine les doublons.</p>

In [21]:
# Effectuer une jointure left outer join
joined_df = df_openfoodfacts.join(df_pays, df_openfoodfacts["countries"] == df_pays["country"], "left_outer")

# S√©lectionner les colonnes qui nous int√©ressent et filtrer les lignes o√π il n'y a pas de correspondance dans df_pays
df_openfoodfacts = joined_df.select(["product_name", "brands", "categories", "countries", "energy-kcal_100g", "proteins_100g", "fat_100g", "carbohydrates_100g"]).filter(col("countries").isNotNull())

# Supprimer les doublons
df_openfoodfacts = df_openfoodfacts.dropDuplicates(["product_name", "countries"])

# Afficher le dataframe 
df_openfoodfacts.show()

+--------------------+--------------------+--------------------+--------------------+----------------+-------------+--------+------------------+
|        product_name|              brands|          categories|           countries|energy-kcal_100g|proteins_100g|fat_100g|carbohydrates_100g|
+--------------------+--------------------+--------------------+--------------------+----------------+-------------+--------+------------------+
| Filet de merlu c...|    Tr√®s bien merci!|Plats pr√©par√©s, P...|              France|            68.0|          7.9|     2.1|               4.3|
|&quot;CRISPY&quot...|              Melvit|N√∂v√©nyi alap√∫ √©le...|        Magyarorsz√°g|           457.0|         20.0|    29.0|              20.0|
|&quot;La Traditio...|  Cr√™perie Le Masson|Cr√™pes et galette...|              France|           320.0|          7.0|     4.2|              64.0|
|&quot;Les Mijot√©s...|                NULL|Viandes et d√©riv√©...|              France|           150.0|         21.0| 

### <b>√âtape 3</b> : G√©n√©ration des menus, en fonction des r√©gimes alimentaires des utilisateurs
<hr/>

 ### üç≤ - Cr√©ation des menus

Dans ce bout de code, on g√©n√®re un petit-d√©jeuner, un d√©jeuner et un d√Æner pour chaque jour de la semaine par utilisateurs. En fonction de son r√©gime alimentaire.

In [22]:
# Liste pour stocker les r√©sultats
weekly_menu = []

# Boucle pour chaque utilisateur
for utilisateur in df_users.collect():
    # R√©cup√©rer les valeurs sp√©cifiques au r√©gime dans le DataFrame des r√©gimes
    regime_utilisateur = df_diets.filter(col("Diet_type") == utilisateur["diet"]).first()
    
    # Boucle pour chaque jour de la semaine
    for jour in df_jours_semaine.collect():
        # Filtrer les produits disponibles qui respectent les valeurs du r√©gime alimentaire
        filtered_products = df_openfoodfacts.filter(
            (col("carbohydrates_100g") <= regime_utilisateur["carbohydrates_100g"]) &
            (col("proteins_100g") >= regime_utilisateur["proteins_100g"]) &
            (col("fat_100g") <= regime_utilisateur["fat_100g"]) &
            (col("energy-kcal_100g") <= regime_utilisateur["energy-kcal_100g"])
        )

        # R√©cup√©ration des produits pour chaques repas de la journ√©e 
        breakfast = filtered_products.sample(withReplacement=False, fraction=0.1).first()
        lunch = filtered_products.sample(withReplacement=False, fraction=0.1).first()
        dinner = filtered_products.sample(withReplacement=False, fraction=0.1).first()

            # Cr√©ation de l'objet r√©cup√©r√© par la suite contenant l'ensemble des informations 
        daily_menu = {
            "id_user": utilisateur["id"],
            "day": jour["day"],
            "breakfast": breakfast.product_name,
            "lunch": lunch.product_name,
            "dinner": dinner.product_name
        }

        # Ajoute le menu dans la liste des menus globales 
        weekly_menu.append(daily_menu)

### <b>√âtape 4</b> : Insertion des menus dans la base de donn√©es, √©tape d'extraction
<hr/>

 ### üìâ - Extraction des donn√©es 

Ici, on extrait les donn√©es dans la base de donn√©es, on se connecte on ins√®re puis d√©connexion.

In [23]:
# Connexion √† la base de donn√©es sqlite3
conn = sqlite3.connect('../weekly_menu.db')

# Cr√©ation d'un curseur
cursor = conn.cursor()

# D√©finir la commande SQL d'insertion
insert_command = '''
INSERT INTO daily_menu (id_user, day, breakfast, lunch, dinner)
VALUES (?, ?, ?, ?, ?);
'''

# Utiliser une transaction pour regrouper les insertions
try:
    for menu in weekly_menu:
        # Ex√©cuter la commande SQL avec les donn√©es √† ins√©rer 
        cursor.execute(insert_command, (menu['id_user'], menu['day'], menu['breakfast'], menu['lunch'], menu['dinner']))

    # Commiter les changements √† la fin de la transaction
    conn.commit()

except Exception as e:
    # En cas d'erreur, annuler la transaction
    conn.rollback()
    print(f"Une erreur s'est produite : {e}")

finally:
    # Fermeture du curseur et de la connexion √† la base de donn√©es 
    cursor.close()
    conn.close()

 ### üîö - Fin des traitements

Ensuite, on clos la session spark.

In [6]:
# Arr√™te la session Spark 
spark.stop()