# 0 - Introduction

---
L'agence "Santé publique France" a lancé un appel à projets pour trouver des idées innovantes d’applications en lien avec l'alimentation.   
Nous avons décidé de nous attaquer à l'obésité.   
Nous voulons étudier la possibilité qu'une application informe, pour n'importe quel produit, le consommateur du caractére Nutriscore.   
La prédiction du Nutriscore doit être réalisée à partir de la liste des nutriments du produit.   
Le Nutriscore est une classification des produits alimentaires, les classes sont nommées par ordre de qualité nutritionnelle de « A » à « E ».

**Methode de calcul déterminant**
![image](https://www.researchgate.net/publication/304187235/figure/fig4/AS:380849884286980@1467813096349/FSA-score-computation-and-5-CNL-allocation-Footnotes-Exceptions-were-made-for-cheese.png)

**Hypothèse principale**   
Est-il possible de prédire le Nutriscore à partir de la déclaration nutritionnelle obligatoire du produit ?
[La déclaration nutritionnelle suivant le règlement INCO](https://www.economie.gouv.fr/dgccrf/Publications/Vie-pratique/Fiches-pratiques/declaration-nutritionnelle-sur-denrees-alimentaires)

**Hypothèses secondaires**   
Pouvons nous classer nos produits en 3 catégories: {divers, matieres grasses ajoutees, boissons} à partir de la déclaration nutritionnelle obligatoire du produit ? à minima à partir d'une liste étendue de nutriments ?

**Démarche de résolution**   
Nous allons devoir résoudre un problème de *Classification*. 
Et donc pour répondre à ces questions, nous devons analyser notre jeu de données pour determiner si les nutriments agissent sur la classe du Nutriscore.

Pour cela nous allons devoir nous concentrer sur les caractéristiques essentiels :

<table style="margin:0px;">
    <thead>
    <tr>
        <td><b>nom des colonnes</b></td>
        <td><b>nom des colonnes (OPF)</b></td>
        <td><b>type des données</b></td>
        <td><b>type variables</b></td>
        <td><b>contraintes</b></td>
    </tr>
    </thead>
    <tr>
        <td>code_barres</td>
        <td>code	</td>
        <td>object</td>
        <td>qualitative nominale</td>
        <td>clé unique</td>
    </tr>
    <tr>
        <td>nutriscore_grade</td>
        <td>nutriscore_grade	</td>
        <td>object</td>
        <td>qualitative ordinale</td>
        <td>['a','b','c','d,'e']</td>
    </tr>
    <tr>
        <td>energie_100g</td>
        <td>energy_100g</td>
        <td>float64</td>
        <td>quantitative continue</td>
        <td>0&lt;x&lt;3800</td>
    </tr>
    <tr>
        <td>matieres_grasses_100g</td>
        <td>fat_100g</td>
        <td>float64</td>
        <td>quantitative continue</td>
        <td>0&lt;x&lt;100</td>
    </tr>
    <tr>
        <td>matieres_grasses_saturees_100g</td>
        <td>fat_100g</td>
        <td>float64</td>
        <td>quantitative continue</td>
        <td>0&lt;x&lt;100</td>
    </tr>
    <tr>
        <td>glucides_100g</td>
        <td>carbohydrates_100g</td>
        <td>float64</td>
        <td>quantitative continue</td>
        <td>0&lt;x&lt;100</td>
    </tr>
    <tr>
        <td>glucides_sucres_100g</td>
        <td>sugars_100g</td>
        <td>float64</td>
        <td>quantitative continue</td>
        <td>0&lt;x&lt;100</td>
    </tr>
    <tr>
        <td>proteines_100g</td>
        <td>proteins_100g</td>
        <td>float64</td>
        <td>quantitative continue</td>
        <td>0&lt;x&lt;100</td>
    </tr>
    <tr>
        <td>sel_100g</td>
        <td>salt_100g</td>
        <td>float64</td>
        <td>quantitative continue</td>
        <td>0&lt;x&lt;100</td>
    </tr>
</table>

**Jeu de données**   
[Open Food Facts](https://fr.openfoodfacts.org/).   
Les champs sont séparés en quatre sections :

- les informations générales sur la fiche du produit : nom, date de modification, etc
- un ensemble de tags : catégorie du produit, localisation, origine, etc
- les ingrédients composant les produits et leurs additifs éventuels
- des informations nutritionnelles: quantité en grammes d’un nutriment pour 100 grammes du produit
   
**Librairies**
- numpy permet de manipuler des tableaux de nombres uniquement ainsi que des fonctions mathématiques opérant sur ces tableaux   
- pandas étend les possibilités de numpy en permettant de manipuler facilement des tableaux de données mixtes
- seaborn permet de réaliser des graphiques et des statistiques sur des dataframes de pandas

**Fonctions Helper**   
Nous allons utiliser ces fonctions d'aides afin de réduire le temps de nettoyage et d'analyse :

- percentage_nan_by_columns()
- get_colors_from_listedcolormap()
- get_set_of_labels()
- plot_sghisto()
- plot_wordcloud()
- do_kruskal_test()

# 1 - Collecte des données
---

**Quelle source de données existe-t-il ?**   
Il est demandé expressément d'utiliser les données provenant d'[Open Food Facts](https://fr.openfoodfacts.org/).   
Les champs sont séparés en quatre sections :

- **les informations générales sur la fiche du produit** : nom, date de modification, etc
- **un ensemble de tags** : catégorie du produit, localisation, origine, etc
- **les ingrédients** composant les produits et leurs additifs éventuels
- **des informations nutritionnelles** : quantité en grammes d’un nutriment pour 100 grammes du produit?

**Quelle est la réglementation sur la protection de ces données ?**   
Aucune, la source de données est publique

**Ou sont stockées les données?**   
Elles sont sur les serveurs distants publiques et sur notre ordinateur en sdd local

**Quel est le type des données**   
Structurée