Ce notebook vise √† pr√©senter pas √† pas comment cr√©er une application interactive
avec `Streamlit` reproduisant celle propos√©e sur [myyuka.lab.sspcloud.fr](https://myyuka.lab.sspcloud.fr/).

Cet exercice est propos√© dans le cadre du `Funathon` (hackathon non comp√©titif)
organis√© en 2023 par l'Insee et le Minist√®re de l'Agriculture sur le th√®me _"Du champ √† l'assiette"_. 
Les autres sujets sont disponibles
sur le [`Github InseeFrLab`](https://github.com/InseeFrLab/funathon2023). 

::: {.content-visible when-format="html"}

Pour les personnes b√©n√©ficiant d'un compte sur
l'infrastructure [`SSP Cloud`](https://www.onyxia.sh/)
vous pouvez cliquer sur le lien ci-dessous pour lancer un 
environnement `Jupyter` pr√™t-√†-l'emploi [![Onyxia](https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&color=yellow?logo=Python)](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&kubernetes.role=%C2%ABadmin%C2%BB&networking.user.enabled=true&git.cache=%C2%AB36000%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2FInseeFrLab%2Ffunathon2023_sujet4%2Fmain%2Finit.sh%C2%BB)

Si vous ne disposez pas d'un tel environnement, il est possible de consulter
cette page √† travers un _notebook_
depuis `Google Colab` [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/InseeFrLab/funathon2023_sujet4/blob/main/index.ipynb). N√©anmoins, tous les exemples ne seront pas reproductibles
puisque, par exemple, certains n√©cessitent d'√™tre en mesure de lancer une application _web_
depuis `Python`,
ce qui n'est pas possible sur `Google Colab`.

:::

En amont de l'ex√©cution de ce notebook, il est recommand√© d'installer 
l'ensemble des packages utilis√©s dans ce projet avec la commande
suivante:


In [None]:
#| eval: false
pip install -r requirements.txt

# Objectif et approche p√©dagogique

L'objectif de ce projet est d'apprendre √† utiliser `Python` pour cr√©er des 
applications r√©actives avec `Streamlit` mais aussi de se familiariser √†
la manipulation de donn√©es avec `Python` et, au passage, √† quelques bonnes
pratiques utiles pour obtenir des projets plus lisibles et reproductibles. 


Pour parvenir √† cet objectif, il est possible d'emprunter plusieurs voies,
plus ou moins guid√©es. Celles-ci sont l√† pour permettre que ce sujet 
soit r√©alisable. Elles sont balis√©es de la mani√®re suivante:

| Balisage | Approche | Pr√©requis de niveau | Objectif p√©dagogique |
|--------|---------|----------------|-------------------|
| üü° | Ex√©cuter les cellules permet d'obtenir le r√©sultat attendu | Capacit√© √† installer des _packages_ | D√©couvrir de nouveaux _packages_ en suivant le fil conducteur du projet, d√©couvrir les scripts `Python`, se familiariser avec `Git`  |
| üü¢ | Des instructions d√©taill√©es sur la mani√®re de proc√©der sont propos√©es | Conna√Ætre quelques manipulations avec `Pandas` | Apprendre √† utiliser certains _packages_ avec un projet guid√©, se familiariser avec les projets `Python` plus cons√©quents que les _notebooks_ `Jupyter` |
| üîµ | Instructions moins d√©taill√©es | Capacit√© √† manipuler des donn√©es avec `Pandas` | Apprendre √† modulariser du code pour faciliter sa r√©utilisation dans une application, d√©couvrir la r√©cupation de donn√©es via des API |
| üî¥ | Peu d'instructions | Exp√©rience en d√©veloppement de code `Python` | D√©couvrir la cr√©ation d'application ou se familiariser avec l'√©cosyst√®me `DuckDB` |
| ‚ö´ | Autonomie | Bonne ma√Ætrise de `Python` et de la ligne de commande ÃÄ`Linux` | S'initier au d√©ploiement d'une application ou √† l'ing√©nieurie de donn√©es¬†|

Le parcours vers la mise en oeuvre d'une application fonctionnelle se fait par √©tapes, en s√©quen√ßant le projet
pour permettre d'avoir un projet lisible, reproductible et modulaire. 

Les √©tapes ne sont
pas forc√©ment de difficult√© graduelle, il s'agit plut√¥t de s√©quencer de mani√®re logique le projet
pour vous faciliter la prise en main.

Il est donc tout √† fait possible de passer, selon les parties, d'une voie üü¢ √† une voie üîµ ou bien de tester les codes propos√©s dans la voie üü° d'abord puis, une fois que la logique a √©t√© comprise, essayer de les faire soit-m√™me via la voie üü¢ ou encore essayer via la voie üîµ, ne pas y parvenir du fait du caract√®re plus succinct des instructions et regarder les instructions de la voie üü¢ ou la solution de la voie üü°.

Il est m√™me tout √† fait possible de sauter une √©tape et reprendre √† partir de la suivante gr√¢ce aux _checkpoints_ propos√©s. 

Les consignes sont encapsul√©es dans des boites d√©di√©es, afin d'√™tre s√©par√©es des explications g√©n√©rales. 

Par exemple, la boite verte prendra l'aspect suivant:

::: {.cell .markdown}
<!----- boite üü¢ ----->


```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üü¢", title = "Exemple (üü¢)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Utiliser la fonction `print` pour afficher le texte _"Toto"_

```{=html}
</details>
</div>
```

<!----- end üü¢ ----->
:::



alors que sur le m√™me exercice, si plusieurs voies peuvent emprunter le m√™me chemin, on 
utilisera une d√©limitation grise :

::: {.cell .markdown}
<!----- boite üîµ ----->


```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Exemple (üîµ,üî¥,‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Afficher le texte _"Toto"_

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::


La solution associ√©e, visible pour les personnes sur la voie üü°, sera:


In [None]:
#¬†Solution pour voie üü°
print("toto")

## Etapes du projet

Le projet est s√©quenc√© de la mani√®re suivante: 

| Etape | Objectif |
|--------|---------|
| R√©cup√©ration et nettoyage de la base `OpenFoodFacts` | Lire des donn√©es avec `Pandas` depuis un site web (üü°,üü¢,üîµ,üî¥,‚ö´), appliquer des nettoyages de champs textuels (üü°,üü¢,üîµ,üî¥,‚ö´), cat√©goriser ces donn√©es avec un classifieur automatique (üü°,üü¢,üîµ,üî¥,‚ö´) voire entrainer un classifieur _ad hoc_ (üî¥,‚ö´), √©crire ces donn√©es sur un syst√®me de stockage distant (üü°,üü¢,üîµ,üî¥,‚ö´) |
| Faire des statistiques agr√©g√©es par cat√©gories | Utiliser `Pandas` (üü°,üü¢,üîµ) ou ÃÄ`DuckDB` (üî¥,‚ö´) pour faire des statistiques par groupe |
| Trouver un produit dans `OpenFoodFacts` √† partir d'un code barre | D√©tection visuelle d'un code barre (üü°,üü¢,üîµ, üî¥,‚ö´), rechercher des donn√©es avec des crit√®res d'appariement exact comme le code barre via `Pandas` (üü°,üü¢,üîµ) ou ÃÄ`DuckDB` (üî¥,‚ö´)  ou via des distances textuelles (üî¥,‚ö´)|
| Encapsuler ces √©tapes dans une application `Streamlit` | Tester une application `Streamlit` minimale (üü°,üü¢,üîµ, üî¥,‚ö´), personnaliser celle-ci (üî¥,‚ö´ ou üü°,üü¢,üîµ d√©sirant se focaliser sur `Streamlit`) |
| Mettre en production cette application | D√©ployer gr√¢ce √† des serveurs standardis√©s une application `Streamlit` (üî¥,‚ö´) ou proposer une version sans serveur (‚ö´ voulant se familiariser √† `Observable`) |


Le d√©veloppement √† proprement parler de l'application est donc assez tardif car un certain nombre d'√©tapes pr√©alables sont n√©cessaires pour ne pas avoir une application monolithique (ce qui est une bonne pratique). Si vous n'√™tes int√©ress√©s que par d√©velopper une application `Streamlit`, vous pouvez directement passer aux √©tapes concern√©es (√† partir de la partie 3Ô∏è). 

La premi√®re √©tape (1Ô∏è‚É£ _R√©cup√©ration et nettoyage de la base `OpenFoodFacts`_) peut √™tre assez chronophage. Cela est assez repr√©sentatif des projets de _data science_ o√π la majorit√© du temps est consacr√©e
√† la structuration et la manipulation de donn√©es. La deuxi√®me √©tape (2Ô∏è _"Faire des statistiques agr√©g√©es par cat√©gories"_) est la moins centrale de ce sujet: si vous manquez de temps vous pouvez la passer
et utiliser directement les morceaux de code mis √† disposition. 


## Remarques

Cette page peut √™tre consult√©e par diff√©rents canaux:

- Sur un site web, les codes
faisant office de solution sont, par d√©fauts, cach√©s. Cela peut √™tre pratique
de consulter cette page si vous √™tes sur un parcours de couleur diff√©rente que le 
jaune et ne voulez pas voir la solution sans le vouloir ;
- Sur un notebook `Jupyter`, les solutions de la voie üü° sont affich√©es par d√©faut.
Elles peuvent √™tre cach√©es en faisant `View` > `Collapse All Code`

## Sources et packages utilis√©s

Notre source de r√©f√©rence sera [`OpenFoodFacts`](https://fr.openfoodfacts.org/), une 
base contributive sur les produits alimentaires. 


::: {.cell .markdown}

```{=html}
<div class="alert alert-warning" role="alert" style="color: rgba(0,0,0,.8); background-color: white; margin-top: 1em; margin-bottom: 1em; margin:1.5625emauto; padding:0 .6rem .8rem!important;overflow:hidden; page-break-inside:avoid; border-radius:.25rem; box-shadow:0 .2rem .5rem rgba(0,0,0,.05),0 0 .05rem rgba(0,0,0,.1); transition:color .25s,background-color .25s,border-color .25s ; border-right: 1px solid #dee2e6 ; border-top: 1px solid #dee2e6 ; border-bottom: 1px solid #dee2e6 ; border-left:.2rem solid #ffc10780;">
<h3 class="alert-heading"><i class="fa fa-lightbulb-o"></i> Hint</h3>
```

Nous utiliserons √©galement un classifieur automatique issu du projet [`predicat`](https://github.com/InseeFrLab/predicat).
Il s'agit d'un mod√®le qui utilise des noms de produits pour leur associer des cat√©gories de la
nomenclature [COICOP (Classification des fonctions de consommation des m√©nages)](https://www.insee.fr/fr/information/2408172).

Ce mod√®le est l√† √† des fins de d√©monstration du principe de la classification automatique et de la mani√®re dont celle-ci
peut √™tre int√©gr√©e √† un processus de production de donn√©es. Il ne s'agit pas d'un mod√®le
officiel de l'Insee. 


```{=html}
</div>
```


:::



# 1Ô∏è‚É£ R√©cup√©ration des donn√©es `OpenFoodFacts`

## 1.1. Pr√©liminaire (üü°,üü¢,üîµ,üî¥,‚ö´)

Comme nous allons utiliser fr√©quemment certains param√®tres,
une bonne pratique consiste √† les stocker dans un fichier
d√©di√©, au format `YAML` et d'importer celui-ci via
`Python`. Ceci est expliqu√© dans [ce cours de l'ENSAE](https://ensae-reproductibilite.github.io/website/chapters/application.html#etape-3-gestion-des-param%C3%A8tres)

Nous proposons de cr√©er le fichier suivant au nom `config.yaml`:

```yaml
URL_OPENFOOD: "https://static.openfoodfacts.org/data/en.openfoodfacts.org.products.csv.gz"
ENDPOINT_S3: "https://minio.lab.sspcloud.fr"
BUCKET: "projet-funathon"
DESTINATION_DATA_S3: "/2023/sujet4/diffusion"
URL_FASTTEXT_MINIO: "https://minio.lab.sspcloud.fr/projet-funathon/2023/sujet4/diffusion/model_coicop10.bin"
URL_COICOP_LABEL: "https://www.insee.fr/fr/statistiques/fichier/2402696/coicop2016_liste_n5.xls"
```

‚ö†Ô∏è Si vous d√©sirez pouvoir reproduire tous les exemples de ce fichier, vous devez
changer la variable `BUCKET` pour mettre votre nom d'utilisateur sur le `SSPCloud`.

Nous allons lire ce fichier avec le package adapt√© pour transformer ces
instructions en variables `Python` (stock√©es dans un dictionnaire)!,



::: {.cell .markdown}
<!----- boite üü¢ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üü¢", title = "Utiliser un fichier YAML (üü¢)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

A partir des exemples pr√©sents dans [cette page](https://stackoverflow.com/questions/1773805/how-can-i-parse-a-yaml-file-in-python),
importer les variables dans un objet `Python` nomm√© `config`

```{=html}
</details>
</div>
```

<!----- end üü¢ ----->
:::

::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "Utiliser un fichier YAML (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Utiliser le package `PyYAML` pour importer les √©l√©ments pr√©sents dans `config.yaml` dans un objet `Python` nomm√© `config`

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::

::: {.cell .markdown}
<!----- boite üî¥,‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üî¥", title = "Utiliser un fichier YAML (üî¥,‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Importer les √©l√©ments pr√©sents dans `config.yaml` dans un objet `Python` nomm√© `config`

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::


In [None]:
#| classes: yellow-code

#¬†Solution pour voie üü°
import yaml

def import_yaml(filename: str) -> dict:
    """
    Importer un fichier YAML

    Args:
        filename (str): Emplacement du fichier

    Returns:
        dict: Le fichier YAML sous forme de dictionnaire Python
    """
    with open(filename, "r", encoding="utf-8") as stream:
        config = yaml.safe_load(stream)
        return config

import_yaml("config.yaml")

Il est recommand√© pour la suite de
copier-coller la fonction cr√©√©e (ne pas oublier les imports associ√©s) 
dans un fichier √† l'emplacement `utils/import_yaml.py`. Cette approche modulaire est
une bonne
pratique, recommand√©e
dans [ce cours de l'ENSAE](https://ensae-reproductibilite.github.io/website/).

Pour la voie üü°, ce fichier a d√©j√† √©t√© cr√©√© pour vous. 
Le tester de la mani√®re suivante:

In [None]:
#| classes: yellow-code

#¬†Solution pour voie üü°
from utils.import_yaml import import_yaml
config = import_yaml("config.yaml")

## 1.2. T√©l√©charger et nettoyer la base `OpenFoodFacts` (üü°,üü¢,üîµ,üî¥,‚ö´)

Un export quotidien de la
base de donn√©es `OpenFoodFacts` est fourni au format `CSV`. L'URL est le suivant:

In [None]:
config["URL_OPENFOOD"]

Il est possible d'importer de plusieurs mani√®res ce type de fichier avec `Python`. 
Ce qu'on propose ici, 
c'est de le faire en deux temps, afin d'avoir un contr√¥le des 
options mises en oeuvre lors de l'import (notamment le format de certaines variables) :

- Utiliser `requests` pour t√©l√©charger le fichier et l'√©crire, de mani√®re interm√©diaire, 
sur le disque local ;
- Utiliser `pandas` avec quelques options pour importer le fichier puis le manipuler. 


::: {.cell .markdown}
<!----- boite üü¢ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üü¢", title = "T√©l√©charger et importer OpenFoodFacts (üü¢)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. Utiliser la fonction `requests.get` pour t√©l√©charger le fichier.
Vous pouvez vous inspirer de r√©ponses [ici](https://stackoverflow.com/questions/16694907/download-large-file-in-python-with-requests)


2. Utiliser `pd.read_csv` avec les options suivantes:
        + Le fichier utilise `\t` comme tabulation
        + Utiliser l'argument `parse_dates=["created_datetime", "last_modified_datetime", "last_image_datetime"]`
        + Il est n√©cessaire de figer quelques types avec l'argument `dtype`. Voici le dictionnaire √† passer
        
```python
{
    "code ": "str",
    "emb_codes": "str",
    "emb_codes_tags": "str",
    "energy_100g": "float",
    "alcohol_100g": "float",
}
```

3. Forcer la colonne `code` √† √™tre de type _string_ avec la m√©thode `.astype(str)`

```{=html}
</details>
</div>
```

<!----- end üü¢ ----->
:::

::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "T√©l√©charger et importer OpenFoodFacts (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. Utiliser le _package_ `requests` pour t√©l√©charger le fichier. Si vous voulez afficher une barre de progression,
vous pouvez vous inspirer de la fonction `download_pb` du package [`cartiflette`](https://github.com/InseeFrLab/cartiflette)

2. Lire les donn√©es avec `pandas` avec les options suivantes:
        + Le fichier utilise `\t` comme tabulation
        + Utiliser l'argument `parse_dates = ["created_datetime", "last_modified_datetime", "last_image_datetime"]`
        + Il est n√©cessaire de figer, voici le dictionnaire √† passer
        
```python
{
    "code ": "str",
    "emb_codes": "str",
    "emb_codes_tags": "str",
    "energy_100g": "float",
    "alcohol_100g": "float",
}
```

3. Forcer la colonne `code` √† √™tre de type _string_

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::

::: {.cell .markdown}
<!----- boite üî¥,‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "T√©l√©charger et importer OpenFoodFacts (üî¥,‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. T√©l√©charger le fichier avec `Python`. Pour s'assurer de la progression du t√©l√©chargement, 
utiliser √©galement la librairie `tqdm`.

2. Lire les donn√©es avec `pandas` avec les options suivantes:
        + Le fichier utilise `\t` comme tabulation
        + Utiliser l'argument `parse_dates = ["created_datetime", "last_modified_datetime", "last_image_datetime"]`
        + Il est n√©cessaire de figer, voici le dictionnaire √† passer
        
```python
{
    "code ": "str",
    "emb_codes": "str",
    "emb_codes_tags": "str",
    "energy_100g": "float",
    "alcohol_100g": "float",
}
```

3. Forcer la colonne `code` √† √™tre de type _string_

```{=html}
</details>
</div>
```

<!----- end üî¥,‚ö´ ----->
:::

In [None]:
#| classes: yellow-code
#| label: import-openfood-solution
#| eval: false

# Solution pour voie üü°
from utils.preprocess_openfood import download_openfood, import_openfood
download_openfood(destination = "openfood.csv.gz")
openfood = import_openfood("openfood.csv.gz")
openfood.loc[:, ['code', 'product_name', 'energy-kcal_100g', 'nutriscore_grade']].sample(5, random_state = 12345)

In [None]:
#| label: import-openfood
#| echo: false
#| output: false
import os
import pandas as pd

from utils.preprocess_openfood import download_openfood, import_openfood
download_openfood(destination = "openfood.csv.gz")
if os.path.exists("openfood.parquet"):
    openfood = pd.read_parquet("openfood.parquet")
else:
    openfood = import_openfood("openfood.csv.gz")
    openfood.to_parquet("openfood.parquet")

L'objectif de l'application est de proposer pour un produit donn√© quelques
statistiques descriptives. On propose de se focaliser sur trois 
scores :

- Le [__nutriscore__](https://www.santepubliquefrance.fr/determinants-de-sante/nutrition-et-activite-physique/articles/nutri-score) ;
- Le [__score Nova__](https://fr.openfoodfacts.org/nova) indiquant le degr√© de transformation d'un produit ;
- L'[__√©coscore__](https://docs.score-environnemental.com/), une mesure de l'empreinte carbone d'un produit ;

Ces scores ne sont pas syst√©matiquement disponibles sur `OpenFoodFacts`
mais une part croissante des donn√©es pr√©sente ces informations (directement
renseign√©es ou imput√©es). 

In [None]:
indices_synthetiques = ['nutriscore_grade', 'nova_group', 'ecoscore_grade']

Le bloc de code ci-dessous propose d'harmoniser le format de ces scores
pour faciliter la repr√©sentation graphique ult√©rieure.

Comme il ne s'agit
pas du coeur du sujet, il est donn√© directement √† tous les parcours. 
Le code source de cette fonction est disponible dans
le module `utils.pipeline`:

In [None]:
import pandas as pd
from utils.pipeline import clean_note

indices_synthetiques = ['nutriscore_grade', 'nova_group', 'ecoscore_grade']

openfood.loc[:, indices_synthetiques] = pd.concat(
        [clean_note(openfood, s, "wide") for s in indices_synthetiques],
        axis = 1
    )

## 1.3. Classification automatique dans une nomenclature de produits  (üü°,üü¢,üîµ,üî¥,‚ö´)

Pour proposer sur notre application quelques statistiques pertinentes sur
le produit, nous allons associer chaque ligne d'`OpenFoodFacts` 
√† un type de produit dans la `COICOP` pour pouvoir comparer un produit
√† des produits similaires. 

Nous allons ainsi utiliser le nom du produit pour inf√©rer le type de bien
dont il s'agit.

Pour cela, dans les parcours üü°,üü¢ et üîµ, 
nous allons d'utiliser un classifieur exp√©rimental
propos√© sur [`Github InseeFrLab/predicat`](https://github.com/InseeFrLab/predicat)
qui a √©t√© entrain√© sur cette t√¢che sur un grand volume de
donn√©es (non sp√©cifiquement alimentaires). 

Pour les parcours üî¥ et ‚ö´, nous proposons √©galement d'utiliser ce classifieur. 
N√©anmoins, une voie bis est possible pour
entra√Æner soi-m√™me un classifieur en utilisant la cat√©gorisation des donn√©es
disponible directement dans `OpenFoodFacts`. Il est propos√© d'utiliser `Fasttext`
(une librairie sp√©cialis√©e open-source, d√©velopp√©e par `Meta` il y a quelques ann√©es) dans
le cadre de la voie üî¥. Les personnes suivant la voie ‚ö´ sont libres d'utiliser
n'importe quel _framework_ de classification, par exemple un mod√®le disponible
sur [HuggingFace](https://huggingface.co/). 


::: {.cell .markdown}
<!----- boite üü¢ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üü¢", title = "Nettoyer les donn√©es textuelles (üü¢)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. R√©cup√©rer le dictionnaire de r√®gles dans [ce fichier](https://raw.githubusercontent.com/InseeFrLab/predicat/master/app/utils_ddc.py)
2. Cr√©er une colonne `preprocessed_labels` en appliquant la m√©thode `str.upper` √† la colonne `product_name` afin de la mettre en majuscule
3. Modifier le `DataFrame` avec la syntaxe prenant la forme `data.replace({variable: dict_rules_replacement}, regex=True)`
4. Observer les cas o√π il y a eu des changements, par exemple de la mani√®re suivante

```python
(openfood
    .dropna(subset = ["product_name", "preprocessed_labels"])
    .loc[
        openfood["product_name"].str.upper() != openfood["preprocessed_labels"],
        ["product_name", "preprocessed_labels"]
    ]
)
```

```{=html}
</details>
</div>
```

<!----- end üü¢ ----->
:::


::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "Nettoyer les donn√©es textuelles (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. R√©cup√©rer le dictionnaire de r√®gles dans [ce fichier](https://raw.githubusercontent.com/InseeFrLab/predicat/master/app/utils_ddc.py)
2. Cr√©er une colonne `preprocessed_labels` mettant en majuscule la colonne `product_name`
3. Modifier le `DataFrame` avec la syntaxe utilisant la m√©thode `replace` (celle qui s'applique aux `DataFrame`, pas celle s'appliquant √† une `Serie`) et le dictionnaire adapt√©
4. Observer les cas o√π il y a eu des changements,

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::

::: {.cell .markdown}
<!----- boite üî¥ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üî¥", title = "Nettoyer les donn√©es textuelles (üî¥)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. R√©cup√©rer le dictionnaire de r√®gles dans [ce fichier](https://raw.githubusercontent.com/InseeFrLab/predicat/master/app/utils_ddc.py)
2. Cr√©er une colonne `preprocessed_labels` appliquant les remplacements √† `product_name` gr√¢ce √† la m√©thode `replace` (celle qui s'applique aux `DataFrame`, pas celle s'appliquant √† une `Serie`)
3. Observer les cas o√π il y a eu des changements

```{=html}
</details>
</div>
```

<!----- end üî¥ ----->
:::

::: {.cell .markdown}
<!----- boite ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "‚ö´", title = "Nettoyer les donn√©es textuelles (‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. R√©cup√©rer le dictionnaire de r√®gles dans [ce fichier](https://raw.githubusercontent.com/InseeFrLab/predicat/master/app/utils_ddc.py)
2. Cr√©er une colonne `preprocessed_labels` appliquant les remplacements √† `product_name`
3. Observer les cas o√π il y a eu des changements

```{=html}
</details>
</div>
```

<!----- end ‚ö´ ----->
:::


Dans un premier temps, on r√©cup√®re les fonctions permettant d'appliquer sur nos donn√©es 
le m√™me _preprocessing_ que celui qui a √©t√© mis en oeuvre lors de l'entra√Ænement du mod√®le:

In [None]:
#| classes: yellow-code
#| label: get-utils-ddc
#| output: false

# Solution pour voie üü° et üü¢
from utils.download_pb import download_pb
download_pb("https://raw.githubusercontent.com/InseeFrLab/predicat/master/app/utils_ddc.py", "utils/utils_ddc.py")

Pour observer les nettoyages de champs textuels mis en oeuvre, les lignes suivantes
peuvent √™tre ex√©cut√©es:

In [None]:
#| output: false

from utils.utils_ddc import replace_values_ean
replace_values_ean

Pour effectuer des remplacements dans des champs textuels, le plus simple est d'utiliser
les expressions r√©guli√®res (`regex`). Vous pouvez trouver une ressource compl√®te
sur le sujet dans [ce cours de `Python` de l'ENSAE](https://pythonds.linogaliana.fr/regex/).

Deux options s'offrent √† nous:

- Utiliser le _package_ `re` et boucler sur les lignes
- Utiliser les fonctionnalit√©s tr√®s pratiques de `Pandas`

Nous privil√©gierons la deuxi√®me approche, plus naturelle quand on utilise des `DataFrames` et
plus efficace puisqu'elle est nativement int√©gr√©e √† `Pandas`. 

La syntaxe prend la forme suivante : 

```python
data.replace({variable: dict_rules_replacement}, regex=True)
```

C'est celle qui est impl√©ment√©e dans la fonction _ad hoc_ du script `utils/preprocess_openfood.py`.
Cette derni√®re s'utilise de la mani√®re suivante:

In [None]:
from utils.utils_ddc import replace_values_ean
from utils.preprocess_openfood import clean_column_dataset
openfood = clean_column_dataset(
        openfood, replace_values_ean,
        "product_name", "preprocessed_labels"
)

Voici quelques cas o√π notre nettoyage de donn√©es a modifi√© le nom du produit :

In [None]:
(openfood
    .dropna(subset = ["product_name", "preprocessed_labels"])
    .loc[
        openfood["product_name"].str.upper() != openfood["preprocessed_labels"],
        ["product_name", "preprocessed_labels"]
    ]
)

On peut remarquer que pour aller plus loin et am√©liorer la normalisation des champs,
il serait pertinent d'appliquer un certain nombre de nettoyages suppl√©mentaires, comme
le retrait des mots de liaison (_stop words_). Des exemples de ce type de nettoyages
sont pr√©sents dans le [cours de `Python` de l'ENSAE](https://pythonds.linogaliana.fr/nlpintro/).

Cela est laiss√© comme exercice aux voies üî¥ et ‚ö´.


::: {.cell .markdown}
<!----- boite üî¥,‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Normaliser les champs textuels (üî¥,‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Utiliser `NLTK` ou `SpaCy` (solution pr√©f√©rable) pour ajouter des nettoyages
de champs textuels

```{=html}
</details>
</div>
```

<!----- end üî¥,‚ö´ ----->
:::

On peut maintenant se tourner vers la classification √† proprement parler. 
Pour celle-ci, on propose d'utiliser un mod√®le qui a √©t√© entrain√©
avec la librairie [`Fasttext`](https://fasttext.cc/). Voici comment r√©cup√©rer le mod√®le
et le tester sur un exemple tr√®s basique:

In [None]:
from utils.download_pb import download_pb
import os
import fasttext

if os.path.exists("fasttext_coicop.bin") is False:
    download_pb(
        url = config["URL_FASTTEXT_MINIO"],
        fname = "fasttext_coicop.bin"
    )


model = fasttext.load_model("fasttext_coicop.bin")
model.predict("RATATOUILLE")

Le r√©sultat est peu intelligible. En effet, cela demande une bonne connaissance de la 
COICOP pour savoir de
mani√®re intuitive que cela correspond √† la cat√©gorie [_"Autres plats cuisin√©s √† base de l√©gumes"_](https://www.insee.fr/fr/statistiques/serie/001764476). 

Avant de g√©n√©raliser le classifieur √† l'ensemble de nos donn√©es, on se propose donc de r√©cup√©rer
les noms des COICOP depuis le site [insee.fr](https://www.insee.fr/fr/metadonnees/coicop2016/division/01?champRecherche=true).
Comme cela ne pr√©sente pas de d√©fi majeur, le code est directement propos√©, quelle que soit la voie emprunt√©e:

In [None]:
def import_coicop_labels(url: str) -> pd.DataFrame:
    coicop = pd.read_excel(url, skiprows=1)
    coicop['Code'] = coicop['Code'].str.replace("'", "")
    coicop = coicop.rename({"Libell√©": "category"}, axis = "columns")
    return coicop
    
coicop = import_coicop_labels(
    "https://www.insee.fr/fr/statistiques/fichier/2402696/coicop2016_liste_n5.xls"
)

# Verification de la COICOP rencontr√©e plus haut
coicop.loc[coicop["Code"].str.contains("01.1.7.3.2")]

Maintenant nous avons tous les ingr√©dients pour g√©n√©raliser notre approche.
L'application en s√©rie de pr√©dictions
via `Fasttext` √©tant un peu fastidieuse et peu √©l√©gante (elle
n√©cessite d'√™tre √† l'aise avec les listes `Python`) et n'√©tant pas le centre de notre sujet,
la fonction suivante est fournie pour effectuer cette op√©ration :

In [None]:
def model_predict_coicop(data, model, product_column: str = "preprocessed_labels", output_column: str = "coicop"):
    predictions = pd.DataFrame(
        {
        output_column: \
            [k[0] for k in model.predict(
                [str(libel) for libel in data[product_column]], k = 1
                )[0]]
        })

    data[output_column] = predictions[output_column].str.replace(r'__label__', '')
    return data

openfood = model_predict_coicop(openfood, model)

## 1.3.bis Version alternative via l'API [`predicat`](https://github.com/InseeFrLab/predicat)  (üü°,üü¢,üîµ,üî¥,‚ö´)


L'utilisation d'API pour acc√©der √† des donn√©es devient de plus en plus fr√©quente. 
Si vous √™tes peu familiers avec les API, vous pouvez consulter
ce [chapitre du cours de `Python` de l'ENSAE](https://pythonds.linogaliana.fr/api/)
ou de la documentation [`utilitR` (langage `R`)](https://www.book.utilitr.org/03_fiches_thematiques/fiche_api)

Les API peuvent servir √† faire beaucoup plus que r√©cup√©rer des donn√©es. Elles sont
notamment de plus en plus utilis√©es pour r√©cup√©rer des pr√©dictions
d'un mod√®le. La plateforme [`HuggingFace`](https://huggingface.co/) est tr√®s appr√©ci√©e
pour cela: elle a grandement facilit√© la r√©utilisation de mod√®les mis en disposition
en _open source_. Cette approche a principalement deux avantages:

- Elle permet d'appliquer sur les donn√©es fournies en entr√©e exactement les m√™mes pr√©-traitement
que sur les donn√©es d'entrainement. Ceci renforce la fiabilit√© des pr√©dictions. 
- Elle facilite le travail des _data scientists_ ou statisticiens car ils ne sont plus oblig√©s 
de mettre en place des fonctions compliqu√©es pour passer les pr√©dictions dans une colonne
de `DataFrame`. 

Ici, nous proposons de tester une API mise √† disposition
de mani√®re exp√©rimentale pour faciliter la r√©utilisation de notre mod√®le de classification
dans la nomenclature COICOP.

Cette API s'appelle `predicat` et son code source est
disponible sur [`Github`](https://github.com/InseeFrLab/predicat).

Pour les parcours üü°,üü¢,üîµ, nous sugg√©rons de se cantonner √† tester quelques exemples. 
Pour les parcours üî¥ et ‚ö´ qui voudraient se tester sur les API,
nous proposons de g√©n√©raliser ces appels √† [`predicat`](https://github.com/InseeFrLab/predicat)
pour classifier toutes nos donn√©es. 

::: {.cell .markdown}
<!----- boite üî¥,‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Consommer un mod√®le sous forme d'API (üî¥,‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Appliquer l'API [`predicat`](https://github.com/InseeFrLab/predicat) en s√©rie pour
cat√©goriser l'ensemble des donn√©es

```{=html}
</details>
</div>
```

<!----- end üî¥,‚ö´ ----->
:::


Voici, pour les parcours üü°,üü¢,üîµ, un exemple d'utilisation:

In [None]:
#| eval: false
import requests

def predict_from_api(product_name):
    url_api = f"https://api.lab.sspcloud.fr/predicat/label?k=1&q=%27{product_name}%27"
    output_api_predicat = requests.get(url_api).json()
    coicop_found = output_api_predicat['coicop'][f"'{product_name}'"][0]['label']
    return coicop_found

predict_from_api("Ratatouille")

Pour le parcours üîµ, voici un exercice pour tester sur un √©chantillon des donn√©es
de l'`OpenFoodFacts`


::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "Consommer un mod√®le sous forme d'API (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

A partir des exemples pr√©sents dans [ce _notebook_](https://github.com/InseeFrLab/predicat/blob/master/help/example-request.ipynb),
tester l'API sur une centaine de noms de produits pris al√©atoirement (ceux avant _preprocessing_).


```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::


## 1.3.ter Entrainer son propre classifieur (üî¥,‚ö´)

Les grimpeurs des voies üî¥ et ‚ö´ sont encourag√©s √† essayer d'entra√Æner
eux-m√™mes un mod√®le de classification.

::: {.cell .markdown}
<!----- boite üî¥, ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Entrainer son propre mod√®le de classification (üî¥, ‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

A partir des exemples pr√©sents dans [ce _notebook_](https://github.com/InseeFrLab/predicat/blob/master/help/example-request.ipynb),
tester l'API sur une centaine de noms de produits pris al√©atoirement (ceux avant _preprocessing_). L'apprentissage peut
√™tre fait √† partir de la variable `category` disponible sur `OpenFoodFacts`.

Voici la consigne: 

- üî¥ : utiliser `fasttext`
- ‚ö´ : libert√© sur le _framework_ utilis√©


```{=html}
</details>
</div>
```

<!----- end üî¥, ‚ö´ ----->
:::



## 1.4. Ecriture de la base sur l'espace de stockage distant

Le fait d'avoir effectu√© en amont ce type d'op√©ration permettra
d'√©conomiser du temps par la suite puisqu'on s'√©vite des calculs √† la
vol√©e co√ªteux en performance (rien de pire qu'une page _web_ qui rame non ?). 

Pour facilement retrouver ces donn√©es, on propose de les √©crire dans un espace
de stockage accessible facilement. Pour cela, nous proposons d'utiliser celui
du `SSP Cloud` pour les personnes ayant un compte dessus. Pour les personnes
n'ayant pas de compte sur le `SSP Cloud`, vous pouvez passer cette √©tape et r√©utiliser
le jeu de donn√©es que nous proposons pour la suite de ce parcours. 

Nous proposons ici d'utiliser le package `s3fs` qui est 
assez pratique pour traiter un espace distant comme on ferait d'un 
espace de stockage local. Pour en apprendre plus sur le syst√®me
de stockage `S3` (la technologie utilis√©e par le SSP Cloud) 
ou sur le format `Parquet`, vous pouvez consulter ce chapitre
du [cours de `Python` de l'ENSAE](https://pythonds.linogaliana.fr/reads3/)

La premi√®re √©tape consiste √† initialiser la connexion (cr√©er un _file system_ 
distant, via `s3fs.S3FileSystem`, qui pointe vers l'espace de stockage du SSP Cloud). 
La deuxi√®me ressemble beaucoup √† l'√©criture d'un fichier en local, il y a seulement une
couche d'abstraction suppl√©mentaire avec `fs.open`: 


In [None]:
from utils.import_yaml import import_yaml
import s3fs

config = import_yaml("config.yaml")
DESTINATION_OPENFOOD = f"{config['BUCKET']}{config['DESTINATION_DATA_S3']}/openfood.parquet"

# Initialisation de la connexion
fs = s3fs.S3FileSystem(
    client_kwargs={"endpoint_url": config["ENDPOINT_S3"]}
)

# Ecriture au format parquet sur l'espace de stockage distant
with fs.open(DESTINATION_OPENFOOD, "wb") as file_location:
    openfood.to_parquet(file_location)

‚ö†Ô∏è __Il faut avoir modifi√© la valeur de `BUCKET` dans le fichier `config.yaml` pour
que cette commande fonctionne__. 

Enfin, pour rendre ce fichier accessible √† votre future application, 
il est n√©cessaire d'√©diter la cellule ci-dessous pour remplacer
`<USERNAME_SSPCLOUD>` par votre nom d'utilisateur sur le `SSPCloud` puis 
d'ex√©cuter la cellule suivante qui va permettre de rendre ce fichier public. : 

In [None]:
#| eval: false
# ‚ö†Ô∏è modifier ci-dessous pour remplacer USERNAME_SSPCLOUD par votre nom d'utilisateur sur le SSPCloud
!mc anonymous set download s3/<USERNAME_SSPCLOUD>/2023/sujet4/diffusion

‚ö†Ô∏è **Il faut avoir modifi√© la valeur de `USERNAME_SSPCLOUD` dans la commande pour que cela fonctionne**.




Le fichier sera ainsi disponible en t√©l√©chargement directement depuis un URL de la forme: 

> https://minio.lab.sspcloud.fr/<USERNAME_SSPCLOUD>/2023/sujet4/diffusion/openfood.parquet

# 2Ô∏è‚É£ Faire des statistiques agr√©g√©es par cat√©gories

Cette partie permet de calculer en amont de l'application des
statistiques descriptives qui pourront √™tre utilis√©es
par celle-ci. 

Il est pr√©f√©rable de minimiser la quantit√© de calculs
faits √† la vol√©e dans le cadre d'une application. Sinon,
le risque est une latence emb√™tante pour l'utilisateur
voire un crash du serveur √† cause de besoins
de ressources trop importants.

Cette partie propose ainsi de cr√©er en avance une
base de donn√©es synth√©tisant 
le
nombre de produits dans une cat√©gorie donn√©e (par exemple les
fromages √† p√¢te crue) qui partagent la m√™me note.
Cela nous permettra d'afficher des statistiques personnalis√©es
sur les produits similaires √† celui qu'on scanne. 


## 2.1. Pr√©liminaires (üü°,üü¢,üîµ,üî¥,‚ö´)


Sur le plan technique, cette partie propose deux cadres de manipulation
de donn√©es diff√©rents,
selon le balisage de la voie:

- üü°,üü¢,üîµ: utilisation de `Pandas`
- üî¥,‚ö´: requ√™tes SQL directement sur le fichier `Parquet` gr√¢ce √† `DuckDB`

La deuxi√®me approche permet de mettre en oeuvre des calculs plus efficaces
(`DuckDB`) est plus rapide mais n√©cessite un peu plus d'expertise sur la
manipulation de donn√©es, notamment des connaissances en SQL. 

Cette partie va fonctionner en trois temps:

1. Lecture des donn√©es `OpenFoodFacts` pr√©c√©demment produites
2. Construction de statistiques descriptives standardis√©es
3. Construction de graphiques √† partir de ces statistiques descriptives

Les √©tapes 1 et 2 sont s√©par√©es conceptuellement pour les parcours üü°,üü¢,üîµ. 
Pour les parcours üî¥ et ‚ö´, l'utilisation de requ√™tes SQL fait que ces
deux √©tapes conceptuelles sont intriqu√©es. Les parcours üü°,üü¢,üîµ
peuvent observer les morceaux de code propos√©s dans le cadre üî¥ et ‚ö´,
c'est assez instructif. L'√©tape 3 (production de graphiques)
sera la m√™me pour tous les parcours. 

::: {.cell .markdown}
```{=html}
<div class="alert alert-warning" role="alert" style="color: rgba(0,0,0,.8); background-color: white; margin-top: 1em; margin-bottom: 1em; margin:1.5625emauto; padding:0 .6rem .8rem!important;overflow:hidden; page-break-inside:avoid; border-radius:.25rem; box-shadow:0 .2rem .5rem rgba(0,0,0,.05),0 0 .05rem rgba(0,0,0,.1); transition:color .25s,background-color .25s,border-color .25s ; border-right: 1px solid #dee2e6 ; border-top: 1px solid #dee2e6 ; border-bottom: 1px solid #dee2e6 ; border-left:.2rem solid #ffc10780;">
<h3 class="alert-heading"><i class="fa fa-lightbulb-o"></i> Hint</h3>
```

Cette partie peut √™tre faite sans avoir suivie la pr√©c√©dente. 
Il est alors recommand√© d'effectuer deux actions:

1. Dans le fichier `config.yaml`, remplacer `"projet-funathon"` par votre nom
d'utilisateur sur le `SSP Cloud`
2. Cr√©er une cellule en copiant-collant le texte suivant et
en remplacant `<USERNAME_SSPCLOUD>` par votre nom d'utilisateur sur le SSPCloud. 

```python
# cr√©er une cellule de code et copier dedans ce texte
# remplacer `<USERNAME_SSPCLOUD>` par votre nom d'utilisateur sur le SSPCloud
!mc cp s3/projet-funathon/2023/sujet4/diffusion/openfood.parquet s3/<USERNAME_SSPCLOUD>/2023/sujet4/diffusion/openfood.parquet
```

‚ö†Ô∏è __Il faut avoir modifi√© la valeur de `USERNAME_SSPCLOUD` pour
que cette commande fonctionne__. 


Cette commande permet de copier le fichier d'exemple que nous avons
mis √† disposition vers votre espace personnel.

```{=html}
</div>
```
:::


Nous proposons d'importer √† nouveau nos configurations:

In [None]:
from utils.import_yaml import import_yaml
config = import_yaml("config.yaml")

Les colonnes suivantes nous seront utiles dans cette partie:

In [None]:
indices_synthetiques = [
    "nutriscore_grade", "ecoscore_grade", "nova_group"
]
principales_infos = ['product_name', 'code', 'preprocessed_labels', 'coicop']

Voici, √† nouveau, la configuration pour permettre √† `Python`
de communiquer avec l'espace de stockage distant:

In [None]:
import s3fs

config = import_yaml("config.yaml")
INPUT_OPENFOOD = f"{config['BUCKET']}{config['DESTINATION_DATA_S3']}/openfood.parquet"

# Initialisation de la connexion
fs = s3fs.S3FileSystem(
    client_kwargs={"endpoint_url": config["ENDPOINT_S3"]}
)

## 2.2. Import des donn√©es depuis l'espace de stockage distant avec `Pandas` (üü°,üü¢,üîµ)

Il est recommand√© pour les parcours üü°, üü¢, üîµ de travailler avec `Pandas` pour construire
des statistiques descriptives. Cela se fera en deux √©tapes:

- Import des donn√©es directement depuis l'espace de stockage, sans √©criture interm√©diaire sur le disque local,
puis nettoyage de celles-ci ;
- Construction de fonctions standardis√©es pour la production de statistiques descriptives.

### Import et nettoyage des donn√©es `OpenFoodFacts` (üü°, üü¢ et üîµ)

Il est possible de lire un CSV de plusieurs mani√®res avec `Python`.
L'une d'elle se fait √† travers le _[context manager](https://book.pythontips.com/en/latest/context_managers.html#context-managers)_. 
Le module `s3fs` permet d'utiliser ce _context manager_ pour lire un fichier distant, 
de mani√®re tr√®s similaire √† la lecture d'un fichier local. 

::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "Lire les donn√©es depuis un espace distant (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

A partir du _context manager_ int√©gr√© √† `s3fs`, lire
les donn√©es en suivant les consignes suivantes:

- la localisation des donn√©es est stock√©e dans la variable `INPUT_OPENFOOD`
- Utiliser l'option `columns = principales_infos + indices_synthetiques`
pour n'importer que les variables n√©cessaires.

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::


::: {.cell .markdown}
<!----- boite üü¢ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üü¢", title = "Lire les donn√©es depuis un espace distant (üü¢)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Lors de l'√©criture du fichier nous avons utilis√© la commande suivante:

```python
# Ecriture au format parquet sur l'espace de stockage distant
with fs.open(DESTINATION_OPENFOOD, "wb") as file_location:
    openfood.to_parquet(file_location)
```

Nous proposons de suivre la m√™me logique en changeant quelques √©l√©ments:

- La variable de chemin √† utiliser ici est `INPUT_OPENFOOD` ;
- Le contexte n'est plus √† l'√©criture (_"wb"_) mais √† la lecture (_"rb"_) ;
- La commande √† ex√©cuter dans ce contexte n'est plus l'√©criture d'un fichier parquet
mais `pd.read_parquet`. Utiliser
l'option `columns = principales_infos + indices_synthetiques`
pour n'importer que les variables n√©cessaires.

```{=html}
</details>
</div>
```

<!----- end üü¢ ----->
:::


In [None]:
#| classes: yellow-code
#| label: get-openfood-parquet-2
#| output: false

# Solution pour voie üü°, üü¢ et üîµ
import pandas as pd

# methode 1: pandas
with fs.open(INPUT_OPENFOOD, "rb") as remote_file:
    openfood = pd.read_parquet(
        remote_file,
        columns = principales_infos + \
        indices_synthetiques
    )

Les donn√©es ont ainsi l'aspect suivant:

In [None]:
openfood.head(2)

## 2.3. Statistiques descriptives (üü°, üü¢ et üîµ)

On d√©sire calculer pour chaque classe de
produits - par exemple les boissons rafraichissantes - 
le nombre de produits qui partagent une m√™me note pour chaque
indicateur de qualit√© nutritionnelle ou environnementale.

Nous allons utiliser le `DataFrame` suivant pour les calculs de notes:

In [None]:
openfood_notes = openfood.loc[:,["coicop"] + indices_synthetiques]

::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "Distribution des notes par cat√©gorie de produit (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. Pour chaque valeur de la variable `coicop`,
avec la m√©thode `agg`, effectuer un d√©compte des notes (`value_counts` en `Pandas`)
pour chaque variable de la liste `indices_synthetiques` gr√¢ce √† la m√©thode `agg`.
Renommer ensuite les deux variables d'index 'coicop' et 'note' gr√¢ce √† la m√©thode `reset_index`

2. Pivoter les donn√©es vers un format _long_
via les axes `coicop` et `note`

3. D√©dupliquer les donn√©es en ne gardant que les paires uniques sur les variables
`variable, note, coicop`

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::


::: {.cell .markdown}
<!----- boite üü¢ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üü¢", title = "Distribution des notes par cat√©gorie de produit (üü¢)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. Apr√®s un `groupby("coicop")`, effectuer un d√©compte des notes (`value_counts` en `Pandas`)
pour chaque variable de la liste `indices_synthetiques` gr√¢ce √† la m√©thode `agg`
puis renommer les deux variables d'index 'coicop' et 'note' gr√¢ce √† la m√©thode `reset_index`

```{=html}
<details>
<summary>R√©ponse en cas de difficult√©</summary>
```

```python
stats_notes = (
    openfood_notes
    .groupby("coicop")
    .agg({i:'value_counts' for i in indices_synthetiques})
    .reset_index(names=['coicop', 'note'])
)
```

```{=html}
</details>

```

2. Utiliser `pd.melt` pour pivoter les donn√©es vers un format _long_
via les axes `coicop` et `note`

3. D√©dupliquer les donn√©es en ne gardant que les paires uniques sur les variables
`variable, note, coicop` gr√¢ce √† la m√©thode `drop_duplicates`

```{=html}
</details>
</div>
```

<!----- end üü¢ ----->
:::


In [None]:
# Solution pour voie üü°, üü¢ et üîµ
def compute_stats_grades(data, indices_synthetiques):
    stats_notes = (
        data
        .groupby("coicop")
        .agg({i:'value_counts' for i in indices_synthetiques})
        .reset_index(names=['coicop', 'note'])
    )
    stats_notes = pd.melt(stats_notes, id_vars = ['coicop','note'])
    stats_notes = stats_notes.dropna().drop_duplicates(subset = ['variable','note','coicop'])
    stats_notes['value'] = stats_notes['value'].astype(int)
  
    return stats_notes

stats_notes = compute_stats_grades(openfood_notes, indices_synthetiques)

## 2.4. Import et traitement des donn√©es avec `DuckDB` (üî¥ et ‚ö´)

Cette partie propose pour les parcours üî¥ et ‚ö´ de reproduire l'analyse faite par
les parcours üü°,üü¢ et üîµ via `Pandas`. 

`DuckDB` va √™tre utilis√© pour lire et agr√©ger les donn√©es. 
Pour lire directement depuis un syst√®me de stockage distant, sans pr√©-t√©l√©charger les 
donn√©es, vous pouvez utiliser la configuration suivante de `DuckDB`:

In [None]:
import duckdb
con = duckdb.connect(database=':memory:')
con.execute("""
    INSTALL httpfs;
    LOAD httpfs;
    SET s3_endpoint='minio.lab.sspcloud.fr'
""")

Et voici un exemple minimal de lecture de donn√©es √† partir du chemin
`INPUT_OPENFOOD` d√©fini pr√©c√©demment. 

In [None]:
duckdb_data = con.sql(
    f"SELECT product_name, preprocessed_labels, coicop, energy_100g FROM read_parquet('s3://{INPUT_OPENFOOD}') LIMIT 10"
)
duckdb_data.df() #conversion en pandas dataframe

Nous proposons de cr√©er une unique requ√™te SQL qui, dans une clause `SELECT`,
pour chaque classe de produit (notre variable de COICOP),
compte le nombre de produits qui partagent une m√™me note. 


::: {.cell .markdown}
<!----- boite ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "‚ö´", title = "Distribution des notes par cat√©gorie de produit (‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

- Cr√©er une fonction `count_one_variable_sql` prenant un argument nomm√© `con` (connexion DuckDB),
un argument `variable` (par d√©faut √©gal √† `nova_group`) et un chemin de lecture des donn√©es
dans le syst√®me `S3`. Cette fonction agr√®ge calcule la statistique descriptive d√©sir√©e 
pour `variable`.
- Cr√©er le `DataFrame` qui combine toutes ces statistiques pour les
variables `["nutriscore_grade", "ecoscore_grade", "nova_group"]`.
Celui-ci comporte quatre variables: `coicop`, `note`, `value` et `variable`.

```{=html}
</details>
</div>
```

<!----- end ‚ö´ ----->
:::


::: {.cell .markdown}
<!----- boite üî¥ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üî¥", title = "Distribution des notes par cat√©gorie de produit (üî¥)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Cr√©er une fonction `count_one_variable_sql` prenant un argument nomm√© `con` (connexion DuckDB),
un argument `variable` (par d√©faut √©gal √† `nova_group`) et un chemin de lecture des donn√©es
dans le syst√®me `S3`.

Cette fonction effectue les op√©rations suivantes:

- Cr√©er un `DataFrame` `Pandas` apr√®s avoir agr√©g√© les donn√©es via `DuckDB` gr√¢ce
au mod√®le de requ√™te

```python
f"SELECT coicop, {variable} AS note, COUNT({variable}) AS value FROM read_parquet('s3://{path_within_s3}') GROUP BY coicop, {variable}"
```

- Cr√©e une variable `variable` √©gale √† la valeur de l'argument `variable`

- Cr√©er le `DataFrame` qui combine toutes ces statistiques de la mani√®re suivante
en appliquant la fonction de mani√®re r√©p√©t√©e :

```python
grades = ["nutriscore_grade", "ecoscore_grade", "nova_group"]
stats_notes_sql = [count_one_variable_sql(con, note, INPUT_OPENFOOD) for note in grades]
stats_notes_sql = pd.concat(stats_notes_sql)
```

```{=html}
</details>
</div>
```

<!----- end üî¥ ----->
:::

In [None]:
# Solution √† la voie üî¥ et ‚ö´ pour les curieux de la voie üü°, üü¢ et üîµ
def count_one_variable_sql(con, variable, path_within_s3 = "temp.parquet"):
    query = f"SELECT coicop, {variable} AS note, COUNT({variable}) AS value FROM read_parquet('s3://{path_within_s3}') GROUP BY coicop, {variable}"
    stats_one_variable = con.sql(query).df().dropna()
    stats_one_variable['variable'] = variable
    stats_one_variable = stats_one_variable.replace('', 'NONE')

    return stats_one_variable

grades = ["nutriscore_grade", "ecoscore_grade", "nova_group"]
stats_notes_sql = [count_one_variable_sql(con, note, INPUT_OPENFOOD) for note in grades]
stats_notes_sql = pd.concat(stats_notes_sql)

Ceci nous donne donc le `DataFrame` suivant:

In [None]:
stats_notes_sql.head(2)

## 2.5. Sauvegarde dans l'espace de stockage distant (üü°,üü¢,üîµ,üî¥,‚ö´)

Ces statistiques descriptives sont √† √©crire dans l'espace de stockage
distant pour ne plus avoir √† les calculer. 

In [None]:
#| eval: false
def write_stats_to_s3(data, destination):
    # Ecriture au format parquet sur l'espace de stockage distant
    with fs.open(destination, "wb") as file_location:
        data.to_parquet(file_location)

write_stats_to_s3(stats_notes, f"{config['BUCKET']}{config['DESTINATION_DATA_S3']}/stats_notes_pandas.parquet")
write_stats_to_s3(stats_notes_sql, f"{config['BUCKET']}{config['DESTINATION_DATA_S3']}/stats_notes_sql.parquet")

‚ö†Ô∏è __Il faut avoir modifi√© la valeur de `BUCKET` dans le fichier `config.yaml` pour
que cette commande fonctionne__. 



## 2.6. Cr√©ation d'un mod√®le de graphiques (üü°,üü¢,üîµ,üî¥,‚ö´)

On va utiliser `Plotly` pour cr√©er des graphiques et, ult√©rieurement,
les afficher sur notre page web. Cela permettra d'avoir un peu de
r√©activit√©, c'est l'int√©r√™t de faire un format _web_ plut√¥t qu'une
publication fig√©e comme un `PDF`. 


::: {.cell .markdown}
<!----- boite ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "‚ö´", title = "Mod√®le de figure pour les notes (‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Cr√©er une fonction standardis√©e dont l'_output_ est un objet `Plotly` 
respectant le cahier des charges suivant, pour chaque classe de produit : 

- Diagramme en barre pr√©sentant 
le nombre de produits ayant telle ou telle note
- Pr√©voir un argument pour mettre en surbrillance une valeur donn√©e
(par exemple la note `B`). 
- Pr√©voir un argument pour le titre du graphique

```{=html}
</details>
</div>
```

<!----- end ‚ö´ ----->
:::


::: {.cell .markdown}
<!----- boite üî¥ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üî¥", title = "Mod√®le de figure pour les notes (üî¥)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Cr√©er une fonction standardis√©e dont les arguments sont

- Un jeu de donn√©es nomm√© `data`
- Une caract√©ristique nutritionnelle nomm√©e `variable_note` par d√©faut √©gale √† `nutriscore_grade`
- Une cat√©gorie nomm√©e `coicop`, par d√©faut √©gale √† `01.1.7.3.2`
- Une note pour le produit dans une variable nomm√©e `note_produit` par d√©faut √©gal √† `B`
- Un titre par d√©faut √©gal √† `Nutriscore`

Cette fonction effectue les t√¢ches suivantes:

- Ne conserver, dans notre ensemble de valeurs agr√©g√©es, que celles relatives √† la COICOP et
√† la caract√©ristique nutritionnelle qu'on recherche ;
- Repr√©senter sous forme de diagramme en barre les valeurs nutritionnelles pour chaque d√©cile de la 
distribution avec, en rouge, celle de notre produit (`valeur_produit`)
- N'h√©sitez pas √† utiliser les options de `Plotly` pour personnaliser la figure

```{=html}
</details>
</div>
```

<!----- end üî¥ ----->
:::

::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "Mod√®le de figure pour les notes (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Pour pr√©parer cet exercice, cr√©er les objets suivants:

```python
data = stats_nutritionnelles.copy()
variable_note = 'nutriscore_grade'
coicop = "01.1.7.3.2"
note_produit = "B"
titre = "Nutriscore"
```

1. Ne conserver que les observations o√π `data['variable']` est √©gale √† la valeur `variable_note`
et o√π la variable `coicop` est √©gale √† la valeur `coicop`. A l'issue de ces
filtres, nommer le dataframe obtenu `example_coicop`
2. Cr√©er une 
colonne stockant les couleurs de notre graphique. Nommer cette variable `color`.
3. Cr√©er un diagramme en barre avec:
        + sur l'axe des _x_ les quantiles
        + sur l'axe des _y_, la valeur √† repr√©senter
        + la couleur √† partir de la variable `color`
        + Les _labels_ : pour l'axe des _x_ ne rien mettre et pour l'axe des _y_ : _"Note"_
        + Masquer la l√©gende
        + Le titre √† partir de la variable `titre` 
4. Encapsuler ce code dans une fonction nomm√©e `figure_infos_notes` dont les arguments
sont les variables pr√©c√©demment cr√©es.

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::

::: {.cell .markdown}
<!----- boite üü¢ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üü¢", title = "Mod√®le de figure pour les notes (üü¢)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Pour pr√©parer cet exercice, cr√©er les objets suivants:

```python
data = stats_nutritionnelles.copy()
variable_note = 'nutriscore_grade'
coicop = "01.1.7.3.2"
note_produit = "B"
titre = "Nutriscore"
```

1. Utiliser la m√©thode [`loc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)
pour ne conserver que les observations o√π `data['variable']` est √©gale √† la valeur `variable_note`
et o√π la variable `coicop` est √©gale √† la valeur `coicop` (qu'on a fix√© √† `"01.1.7.3.2"`). A l'issue de ces
filtres, nommer le dataframe obtenu `example_coicop`
2. Utiliser [`np.where`](https://numpy.org/doc/stable/reference/generated/numpy.where.html) pour cr√©er une 
colonne stockant les couleurs de notre graphique. On utilisera le rouge (_red_) lorsque la variable quantile
est √©gale √† `note_produit` et du bleu (_royalblue_) sinon. Nommer cette variable `color`.
3. Cr√©er un diagramme en barre avec:
        + sur l'axe des _x_ les notes (stock√©s dans la variable `note`)
        + sur l'axe des _y_, la valeur √† repr√©senter (stock√©e dans la variable `value`)
        + la couleur √† partir de la variable `color`
        + Les _labels_ : pour l'axe des _x_ ne rien mettre et pour l'axe des _y_ : _"Note"_
        + Masquer la l√©gende via l'argument `showlegend` de la m√©thode `update_layout` 
        + Le titre √† partir de la variable `titre` 
4. Encapsuler ce code dans une fonction nomm√©e `figure_infos_nutritionnelles` dont les arguments
sont `data`, `variable_nutritionnelle = 'nutriscore_grade'`, `coicop = "01.1.7.3.2"` et `valeur_produit = "B"`.

```{=html}
</details>
</div>
```

<!----- end üü¢ ----->
:::

Voici un exemple de fonction qui r√©pond aux 
cahiers des charges ci-dessus:

In [None]:
#¬†Solution pour voie üü°

import plotly.express as px
import numpy as np

def figure_infos_notes(
    data, variable_note = 'nutriscore_grade',
    coicop = "01.1.7.3.2", note_produit = "B",
    title = "Nutriscore"
):
    example_coicop = data.loc[data['variable'] == variable_note]
    example_coicop = example_coicop.loc[example_coicop['coicop']==coicop]
    example_coicop['color'] = np.where(example_coicop['note'] == note_produit, "Note du produit", "Autres produits")

    fig = px.bar(
        example_coicop,
        x='note', y='value', color = "color", template = "simple_white",
        title=title,
        color_discrete_map={"Note produit": "red", "Autres produits": "royalblue"},
        labels={
            "note": "Note",
            "value": ""
        }
    )
    fig.update_xaxes(
        categoryorder='array',
        categoryarray= ['A', 'B', 'C', 'D', 'E'])
    fig.update_layout(showlegend=False)
    fig.update_layout(hovermode="x")
    fig.update_traces(
        hovertemplate="<br>".join([
            "Note %{x}",
            f"{variable_note}: " +" %{y} produits"
        ])
    )

    return fig

Voici un exemple d'utilisation

In [None]:
#| output: false
from utils.construct_figures import figure_infos_notes
fig = figure_infos_notes(stats_notes)
fig.update_layout(width=800, height=400)

fig

# 3Ô∏è‚É£ Comparer un produit √† un groupe similaire

Tout ce travail pr√©liminaire nous permettra d'afficher sur notre application des statistiques
propres √† chaque cat√©gorie.

On propose d'utiliser le jeu de donn√©es pr√©par√© pr√©cedemment

In [None]:
indices_synthetiques = [
    "nutriscore_grade", "ecoscore_grade", "nova_group"
]
principales_infos = ['product_name', 'code', 'preprocessed_labels', 'coicop']
liste_colonnes = principales_infos + indices_synthetiques
liste_colonnes_sql = [f"\"{s}\"" for s in liste_colonnes]
liste_colonnes_sql = ', '.join(liste_colonnes_sql)

On va aussi utiliser la nomenclature COICOP qui peut √™tre import√©e
via le code ci-dessous:

In [None]:
from utils.download_pb import import_coicop_labels
coicop = import_coicop_labels(
    "https://www.insee.fr/fr/statistiques/fichier/2402696/coicop2016_liste_n5.xls"
)

## 3.1. D√©tection de code barre (üü°,üü¢,üîµ,üî¥,‚ö´)

La premi√®re brique de notre application consiste √† rep√©rer un produit par le scan du code-barre. 
Nous allons partir pour le moment d'un produit d'exemple, ci-dessous: 

![](https://images.openfoodfacts.org/images/products/500/011/260/2791/front_fr.4.400.jpg)

In [None]:
url_image = "https://images.openfoodfacts.org/images/products/500/011/260/2791/front_fr.4.400.jpg"

Dans le cadre de notre application, on permettra aux utilisateurs d'_uploader_ 
la photo d'un produit, ce sera plus _fun_.
En attendant notre application,
partir d'un produit standardis√©
permet d√©j√† de mettre en oeuvre la logique √† r√©-appliquer plus tard. 

Pour se simplifier la vie, le plus simple pour rep√©rer un code-barre est d'utiliser
le _package_ [`pyzbar`](https://pypi.org/project/pyzbar/).
Pour transformer une image en
matrice `Numpy` (l'objet attendu par [`pyzbar`](https://pypi.org/project/pyzbar/)),
on peut utiliser le module `skimage` de la mani√®re suivante:

In [None]:
from skimage import io
io.imread(url_image)

Gr√¢ce √† `sklearn.image`, on peut utiliser
l'URL d'une page web ou le chemin d'un fichier de mani√®re indiff√©rente
pour la valeur de `url_image`. 


::: {.cell .markdown}
<!----- boite üü¢üîµüî¥ et ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Extraire le code-barre √† partir d'une image (üü¢üîµüî¥ et ‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

1. Apr√®s avoir import√© l'image via `io.imread`, utiliser `pyzbar.decode`
pour extraire les informations voulues, notamment le code-barre. 
2. Si vous avez nomm√© l'objet g√©n√©r√©, v√©rifier le code-barre avec
`obj[0].data.decode()`.
3. A partir de cela, cr√©er une fonction `extract_ean` pour d√©coder l'image
(en retournant l'objet g√©n√©r√© par `pyzbar`)

```{=html}
</details>
</div>
```

<!----- end üü¢üîµüî¥ et ‚ö´ ----->
:::

In [None]:
#| classes: yellow-code
#| label: get-openfood-parquet
#| output: false
#| eval: false
# Solution pour voie üü°
from pyzbar import pyzbar

def extract_ean(url, verbose=True):
    img = io.imread(url)
    decoded_objects = pyzbar.decode(img)
    if verbose is True:
        for obj in decoded_objects:
            # draw the barcode
            print("detected barcode:", obj)
            # print barcode type & data
            print("Type:", obj.type)
            print("Data:", obj.data)
    return decoded_objects

obj = extract_ean(url_image, verbose = False)

obj[0].data.decode()

In [None]:
#| echo: false
from utils.detect_barcode import extract_ean
extract_ean(url_image)

On obtient bien un code identifiant notre produit. Il s'agit
de l'EAN qui est un identifiant unique, partag√© quelque soit
le point de vente d'un produit. Il s'agit d'un identifiant
pr√©sent sur tout code-barre, utilis√© 
dans les syst√®mes d'information 
des grandes enseignes mais aussi dans les bases produits
qui peuvent √™tre utilis√©es de mani√®re annexe (par exemple
l'`OpenFoodFacts`). 


## 3.2. Association d'un code barre √† un produit d'`OpenFoodFacts` (üü°,üü¢,üîµ,üî¥,‚ö´)

Maintenant qu'on dispose d'un code-barre (le num√©ro EAN), 
on va trouver le produit dans `OpenFoodFacts`
√† partir de ce code-barre.

Cependant, comme il peut arriver
qu'un produit dispose d'informations incompl√®tes, 
il peut √™tre utile de faire non seulement de l'appariement
exact (trouver le produit avec le m√™me code EAN) mais aussi de
l'appariement flou (trouver un produit avec un nom proche de celui qu'on
veut).

Ceci est un exercice pour les parcours üî¥ et ‚ö´, les autres
voies pouvant prendre cette fonction comme donn√©e. 

Pour aller plus loin sur cette question des appariements
flous, il pourrait √™tre utile d'aller
vers `ElasticSearch`. C'est n√©anmoins un sujet en soi, 
nous proposons donc aux curieux de
consulter [cette ressource](https://pythonds.linogaliana.fr/elastic/).

Voici l'EAN d'exemple :

In [None]:
ean = "5000112602999"

Pour avoir un outil performant, on propose d'utiliser
`DuckDB` pour lire et filtrer les donn√©es. Cela sera plus performant que 
lire, √† chaque fois que l'utilisateur de notre application _upload_ une image,
un gros fichier (2 millions de ligne) pour n'en garder qu'une. 

Voici la configuration √† mettre en oeuvre:

In [None]:
import duckdb
con = duckdb.connect(database=':memory:')
con.execute("""
    INSTALL httpfs;
    LOAD httpfs;
    SET s3_endpoint='minio.lab.sspcloud.fr'
""")

url_data = "https://projet-funathon.minio.lab.sspcloud.fr/2023/sujet4/diffusion/openfood.parquet"

Pour commencer, effectuons une requ√™te SQL pour r√©cup√©rer le produit
correspondant au code-barre qu'on a scann√©:


::: {.cell .markdown}
<!----- boite üü¢üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Lire les donn√©es avec <code>DuckDB</code> (üü¢ et üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>

Pour ex√©cuter une requ√™te SQL, on utilise la structure suivante avec `DuckDB`

```python
data_pandas_from_duckdb = con.sql(REQUETE).df()
```

La requ√™te que nous proposons d'utiliser est √† structurer √† partir des √©l√©ments suivants :

- Pour la clause `SELECT`, la liste des colonnes √† utiliser est pr√©-formatt√©e dans l'objet `liste_colonnes_sql`
- Pour la clause `FROM`, l'instruction `read_parquet` peut √™tre utilis√©e avec l'URL stock√© dans `url_data`
- Pour la clause `WHERE`, vous pouvez utiliser la syntaxe suivante pour normaliser les code-barres des deux c√¥t√©s en retirant les 
0 initiaux: `CAST(ltrim(code, '0') AS STRING) = CAST(ltrim({ean}) AS STRING)`

```{=html}
</details>
</div>
```

<!----- end üü¢üîµ ----->
:::

::: {.cell .markdown}
<!----- boite üî¥ et ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Lire les donn√©es avec <code>DuckDB</code> (üî¥ et ‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>

La requ√™te que nous proposons d'utiliser est √† structurer √† partir des √©l√©ments suivants :

- Ne garder que les variables pr√©sentes dans `liste_colonnes_sql`
- Lire les donn√©es directement depuis `url_data`
- Filtrer les donn√©es pour ne garder que celle dans l'OpenFood avec notre code-barre

Aide pour la voie üî¥

Il faut normaliser les code-barres des deux c√¥t√©s avant d'essayer
de comparer. Cela se fait de la mani√®re suivante: `CAST(ltrim({ean}) AS STRING)`
A vous de mettre en oeuvre cela pour faire de la comparaison entre notre EAN et la
variable `code`.



```{=html}
</details>
</div>
```

<!----- end üî¥ et ‚ö´ ----->
:::

Voici la solution:

In [None]:
# Solution pour voie üü°
def get_product_ean(con, ean, url_data, liste_colonnes_sql):
    openfood_produit = con.sql(
            f"SELECT {liste_colonnes_sql} FROM read_parquet('{url_data}') WHERE CAST(ltrim(code, '0') AS STRING) = CAST(ltrim({ean}) AS STRING)"
        ).df()
    return openfood_produit

On va n√©anmoins int√©grer ceci dans un _pipeline_ plus g√©n√©ral:

1. On cherche le produit √† partir du code barre
2. Si les infos sont manquantes, on r√©cup√®re les produits dont le nom ressemble par distance de Jaro-Winkler. 

Voici la fonction qui permet d'impl√©menter la deuxi√®me partie:

In [None]:
# Solution pour voie üü°

import numpy as np
import pandas as pd
from utils.pipeline import clean_note

def fuzzy_matching_product(openfood_produit, product_name, con, url_data, liste_colonnes_sql, indices_synthetiques):
    out_textual = con.sql(f"SELECT {liste_colonnes_sql} from read_parquet('{url_data}') WHERE jaro_winkler_similarity('{product_name}',product_name) > 0.9 AND \"energy-kcal_100g\" IS NOT NULL")
    out_textual = out_textual.df()

    out_textual_imputed = pd.concat(
        [
            openfood_produit.loc[:, ["code", "product_name", "coicop"]].reset_index(drop = True),
            pd.DataFrame(out_textual.loc[:, indices_synthetiques].replace("NONE","").replace('',np.nan).mode(dropna=True))
        ], ignore_index=True, axis=1
    )
    out_textual_imputed.columns = ["code", "product_name", "coicop"] + indices_synthetiques
    
    return out_textual_imputed

Voici finalement le _pipeline_ mis en oeuvre
par une fonction : 

In [None]:
# Solution pour voie üü°

def find_product_openfood(con, liste_colonnes_sql, url_data, ean):
    openfood_produit = con.sql(
        f"SELECT {liste_colonnes_sql} FROM read_parquet('{url_data}') WHERE CAST(ltrim(code, '0') AS STRING) = CAST(ltrim({ean}) AS STRING)"
    ).df()
    
    product_name = openfood_produit["product_name"].iloc[0]
    
    if openfood_produit['nutriscore_grade'].isin(['NONE','']).iloc[0]:
        openfood_produit = fuzzy_matching_product(
            openfood_produit, product_name, con, url_data,
            liste_colonnes_sql, indices_synthetiques)
        openfood_produit = openfood_produit.merge(coicop, left_on = "coicop", right_on = "Code")

    return openfood_produit

Qui peut √™tre finalis√© de la mani√®re suivante:

In [None]:
openfood_produit = find_product_openfood(
    con, liste_colonnes_sql,
    url_data, ean
)
openfood_produit.head(2)

## Production automatique d'un graphique (üü°,üü¢,üîµ,üî¥,‚ö´)

La derni√®re partie du prototypage
consiste √† enrober nos
fonctions de production de graphiques
dans une fonction plus g√©n√©rique. 

Pour rappel, l'import des donn√©es
se fait de la mani√®re suivante:

In [None]:
stats_notes = pd.read_parquet(
    "https://minio.lab.sspcloud.fr/projet-funathon/2023/sujet4/diffusion/stats_notes_pandas.parquet"
)

Dans notre application, nous allons utiliser cette fonction:

In [None]:
from utils.construct_figures import figure_infos_notes

variable = 'nutriscore_grade'

def plot_product_info(
    data, variable,
    stats_notes):

    fig = figure_infos_notes(
        stats_notes,
        variable_note = variable,
        coicop = data['coicop'].iloc[0],
        note_produit = data[variable].iloc[0],
        title = variable.split("_")[0].capitalize()
    )

    return fig

In [None]:
#| output: false
fig = plot_product_info(openfood_produit, variable, stats_notes)
fig.update_layout(width=800, height=400)
fig

In [None]:
#| output: false
fig = plot_product_info(openfood_produit, "ecoscore_grade", stats_notes)
fig.update_layout(width=800, height=400)
fig

# 4Ô∏è‚É£ Construire une application interactive

Cette partie vise √† assembler les briques pr√©c√©dentes afin de les rendre facilement accessibles √† un utilisateur final.
Pour cela, nous allons construire une application interactive √† l'aide du framework `Streamlit` en `Python`.

L'objectif est de cr√©er une application sur le mod√®le de [myyuka.lab.sspcloud.fr/](https://myyuka.lab.sspcloud.fr/).
Voici une petite vid√©o de d√©monstration de l'application:


In [None]:
#| eval: true
from IPython.display import HTML
HTML("""
    <video width="520" height="240" alt="test" controls>
        <source src="https://minio.lab.sspcloud.fr/projet-funathon/2023/sujet4/diffusion/video_out.webm" type="video/mp4">
    </video>
""")

Selon le parcours suivi, la construction de cette application sera plus ou moins guid√©e. 

## 4.1. Lancer l'application pour la tester (üü°,üü¢,üîµ,üî¥,‚ö´)

Il est rare d'avoir une application fonctionnelle du premier coup, cela peut demander
beaucoup d'essai-erreur pour parvenir √† ses fins. Il est donc utile de r√©guli√®rement
lancer l'application pour la tester. Cela se fait en lan√ßant un serveur local,
c'est-√†-dire en cr√©ant une t√¢che qui fonctionne en arri√®re-plan et qui va cr√©er une 
interaction entre un navigateur et du code `Python`. 

Pour lancer ce serveur web local plusieurs m√©thodes sont possibles sur le `SSP Cloud`,
en partant du principe que votre application est stock√©e dans un fichier `app.py`

- Pour les personnes famili√®res de la ligne de commande, vous pouvez 
en lancer une (en cliquant sur `+` dans le menu √† gauche de `Jupyter` 
et ex√©cuter, dans le bon dossier de travail, `streamlit run app.py --server.port 5000 --server.address 0.0.0.0` 
- Pour les personnes d√©sirant lancer la commande depuis `Jupyter`,
il suffit d'ex√©cuter la cellule suivante:

In [None]:
#| eval: false
!streamlit run app.py --server.port 5000 --server.address 0.0.0.0

Remarque: si vous n'√™tes pas sur le `SSP Cloud`, vous pouvez retirer
l'option `--server.address 0.0.0.0`. 

Il reste √† acc√©der au navigateur sur lequel l'application a √©t√© d√©ploy√©e. 
Sur un poste local, vous ouvririez l'URL `localhost:5000` sur votre navigateur. 
Pour acc√©der √† votre application depuis le SSP Cloud, il va falloir y acc√©der
diff√©remment. 

1. Il convient d'ouvrir un nouvel onglet sur votre navigateur web pour retourner sur
votre espace SSPCloud: [datalab.sspcloud.fr/my-services](https://datalab.sspcloud.fr/my-services).
Si vous √™tes sur une autre page, vous pouvez cliquer √† gauche sur `My Services`.
2. Ensuite, il faut cliquer sur le bouton `README` pour acc√©der √† des informations sur le 
service `Jupyter` ouvert. 

![](img/demo_readme_sspcloud.png)

Il faut ensuite cliquer sur le lien ci-dessous:

![](img/demo_readme_sspcloud2.png)

Cela va ouvrir un nouvel onglet sur votre navigateur o√π, cette fois, vous aurez l'application.
Chaque action que vous effectuerez sur celle-ci d√©clenchera une op√©ration dans la  
ligne de commande que vous avez lanc√©e. 

Pour le parcours üü°, la voie s'arr√™te √† ce niveau. Vous pouvez n√©anmoins basculer du c√¥t√© de la
voie üü¢ pour apprendre de mani√®re guid√©e √† cr√©er votre application `Streamlit`.

Pour les parcours üü¢,üîµ,üî¥ et ‚ö´, vous allez pouvoir cr√©er vous-m√™me l'application, de mani√®re 
plus ou moins guid√©e. 


## 4.2. Cr√©er l'application dans un serveur temporaire  (üü¢,üîµ,üî¥,‚ö´)

Voici la gradation des niveaux pour cr√©er l'application:

- üü¢: Lire et comprendre le contenu du fichier `app.py` qui g√©n√®re l'application
- üîµ: Apr√®s avoir supprim√© le fichier d'exemple `app.py`,
mettre en oeuvre l'application avec des consignes guid√©es
- üî¥: Apr√®s avoir supprim√© le fichier d'exemple `app.py`, mettre en oeuvre l'application
√† partir d'un cachier des charges d√©taill√©
- ‚ö´: Apr√®s avoir supprim√© le fichier d'exemple `app.py`, mettre en oeuvre l'application
uniquement √† partir de l'exemple sur [myyuka.lab.sspcloud.fr/](https://myyuka.lab.sspcloud.fr/)
et de la vid√©o pr√©c√©demment pr√©sent√©e. Id√©alement, faire en sorte que le contenu du site soit
_responsive_ c'est-√†-dire qu'il soit bien adapt√© √† la taille de l'√©cran. 

::: {.cell .markdown}
<!----- boite ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Cr√©er l'application (‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Bon courage, force et honneur, tout √ßa tout √ßa...

```{=html}
</details>
</div>
```

<!----- end ‚ö´ ----->
:::


::: {.cell .markdown}
<!----- boite üî¥ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Cr√©er l'application (üî¥)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Pour commencer, voici l'ensemble de l'environnement, que nous vous proposons de prendre
comme donn√©:

```python
    import streamlit as st
    from streamlit_javascript import st_javascript
    
    import cv2
    import pandas as pd
    import duckdb
    
    from utils.detect_barcode import extract_ean, visualise_barcode
    from utils.pipeline import find_product_openfood
    from utils.construct_figures import plot_product_info
    from utils.utils_app import local_css, label_grade_formatter
    from utils.download_pb import import_coicop_labels
    
    # Une personnalisation sympa pour l'onglet
    st.set_page_config(page_title="PYuka", page_icon="üçé")
    
    
    # --------------------
    # METADATA
    indices_synthetiques = [
        "nutriscore_grade", "ecoscore_grade", "nova_group"
    ]
    principales_infos = [
        'product_name', 'code', 'preprocessed_labels', 'coicop', \
        'url', 'image_url'
    ]
    liste_colonnes = principales_infos + indices_synthetiques
    liste_colonnes_sql = [f"\"{s}\"" for s in liste_colonnes]
    liste_colonnes_sql = ', '.join(liste_colonnes_sql)
    
    con = duckdb.connect(database=':memory:')
    con.execute("""
        INSTALL httpfs;
        LOAD httpfs;
        SET s3_endpoint='minio.lab.sspcloud.fr'
    """)
    
    # LOAD DATASET
    url_data = "https://projet-funathon.minio.lab.sspcloud.fr/2023/sujet4/diffusion/openfood.parquet"
    stats_notes = pd.read_parquet("https://minio.lab.sspcloud.fr/projet-funathon/2023/sujet4/diffusion/stats_notes_pandas.parquet")
    coicop = import_coicop_labels(
        "https://www.insee.fr/fr/statistiques/fichier/2402696/coicop2016_liste_n5.xls"
    )
    
    # --------------------
    
    
    st.title('Mon Yuka ü•ï avec Python üêç')
    
    # Feuille de style & taille de l'√©cran pour adapter l'interface
    local_css("style.css")
    width = st_javascript(
        "window.innerWidth"
    )
```

1. Si l'√©cran a une taille suffisante (on propose comme taille discriminante 500px),la partie gauche de l'√©cran est consacr√©e aux _inputs_ (sinon c'est en haut de la page) :
    + Un bouton permet √† l'utilisateur de choisir sa m√©thode d'_upload_ de photo: soit un _file uploader_, soit une capture √† partir de la cam√©ra
    + Si l'√©cran a une taille suffisante, afficher l'image reconnue
    + Cr√©er une liste modifiable de statistiques √† afficher √† partir d'un s√©lecteur adapt√©.
Pour formatter les champs √† afficher, vous pouvez utiliser la fonction `label_grade_formatter`
qui va, par exemple, transformer `nutriscore_grade` en `Nutriscore`
2. Cr√©er le corps principal de l'application avec les instructions suivantes:
    + Cr√©er une fonction enrobant `find_product_openfood` pour r√©cup√©rer la donn√©e adapt√©e √† partir d'un EAN. Nomm√© le `DataFrame` obtenu `subset`
    + Utiliser  `extract_ean` pour d√©coder l'image. Stocker l'objet en sortie d'`OpenCV` sous le nom `decoded_objects`
    + A partir de l'objet `subset`: cr√©er un texte qui renvoie vers l'URL du produit sur `OpenFoodFacts`, afficher l'image du produit, afficher le `DataFrame` dans l'interface de notre application
    + Utiliser notre fonction de production de graphique pour afficher des statistiques descriptives √† partir de notre choix d'options. 
```{=html}
</details>
</div>
```

<!----- end üî¥ ----->
:::


::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Cr√©er l'application (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Pour commencer, voici l'ensemble de l'environnement, que nous vous proposons de prendre
comme donn√©:

```python
    import streamlit as st
    from streamlit_javascript import st_javascript
    
    import cv2
    import pandas as pd
    import duckdb
    
    from utils.detect_barcode import extract_ean, visualise_barcode
    from utils.pipeline import find_product_openfood
    from utils.construct_figures import plot_product_info
    from utils.utils_app import local_css, label_grade_formatter
    from utils.download_pb import import_coicop_labels
    
    # Une personnalisation sympa pour l'onglet
    st.set_page_config(page_title="PYuka", page_icon="üçé")
    
    
    # --------------------
    # METADATA
    indices_synthetiques = [
        "nutriscore_grade", "ecoscore_grade", "nova_group"
    ]
    principales_infos = [
        'product_name', 'code', 'preprocessed_labels', 'coicop', \
        'url', 'image_url'
    ]
    liste_colonnes = principales_infos + indices_synthetiques
    liste_colonnes_sql = [f"\"{s}\"" for s in liste_colonnes]
    liste_colonnes_sql = ', '.join(liste_colonnes_sql)
    
    con = duckdb.connect(database=':memory:')
    con.execute("""
        INSTALL httpfs;
        LOAD httpfs;
        SET s3_endpoint='minio.lab.sspcloud.fr'
    """)
    
    # LOAD DATASET
    url_data = "https://projet-funathon.minio.lab.sspcloud.fr/2023/sujet4/diffusion/openfood.parquet"
    stats_notes = pd.read_parquet("https://minio.lab.sspcloud.fr/projet-funathon/2023/sujet4/diffusion/stats_notes_pandas.parquet")
    coicop = import_coicop_labels(
        "https://www.insee.fr/fr/statistiques/fichier/2402696/coicop2016_liste_n5.xls"
    )
    
    # --------------------
    
    
    st.title('Mon Yuka ü•ï avec Python üêç')
    
    # Feuille de style & taille de l'√©cran pour adapter l'interface
    local_css("style.css")
    width = st_javascript(
        "window.innerWidth"
    )
```

<br>
Nous proposons ensuite de construire ce fichier par √©tape

Etape 1: Construire la partie _inputs_ en suivant le mod√®le
√† trou suivant:

```python
    if width > 500:
        # pour les grands √©crans on met une partie √† gauche
        # qui centralise plusieurs type d'input
        with st.sidebar:
            # 1. choix de la m√©thode d'upload
            if input_method == 'Photo enregistr√©e':
                # 2. file uploader
            else:
                # 3. camera uploader
            
            if input_url is not None:
                # visualise l'image s'il y a un input
                img = visualise_barcode(input_url)
                cv2.imwrite('barcode_opencv.jpg', img)
                # 4. afficher l'image
    
            # 5. choix des statistiques √† afficher
    else:
        # pour les petits √©crans (type smartphone)
        # le file uploader est au d√©but
        # 1. choix de la m√©thode d'upload
        if input_method == 'Photo enregistr√©e':
            # 2. file uploader
        else:
            # 3. camera uploader
            picture = st.camera_input("Take a picture")
            input_url = picture
            # 5. choix des statistiques √† afficher
```

<br>

Celui-ci est √† remplir de la mani√®re suivante:

1. Cr√©er un bouton qui permet √† l'utilisateur de choisir
sa m√©thode d'_upload_ de photo. Celui-ci est √† enregistrer
sous le nom `input_method`
2. Proposer un _file uploader_ dont la valeur peut √™tre utilis√©e
sous le nom `input_url`
3. Proposer un outil de capture de cam√©ra dont la valeur peut √™tre utilis√©e
sous le nom `input_url`
4. Si l'√©cran a une taille suffisante (on propose comme taille discriminante 500px),
afficher l'image stock√©e dans le fichier temporaire `barcode_opencv.jpg`
5. Cr√©er une liste modifiable de statistiques √† afficher √† partir d'un s√©lecteur adapt√©.
Pour formatter les champs √† afficher, vous pouvez utiliser la fonction `label_grade_formatter`
qui va, par exemple, transformer `nutriscore_grade` en `Nutriscore`

Etape 2: Construire la partie s'adaptant √† ces _inputs_ avec le mod√®le suivant
√† trou suivant:

```python
    # ----------------------------------------------------------
    # PARTIE 2: EXPLOITATION DES INPUTS DANS NOTRE APP
    
    
    # CHARGEMENT DE LA LIGNE DANS OPENFOODFACTS
    @st.cache_data
    def load_data(ean):
        # 1. Cr√©er le DataFrame avec la fonction `find_product_openfood` 
        # openfood_data = 
        return openfood_data
    
    if input_url is None:
        # Showcase product
        st.write('Produit exemple: Coca-Cola')
        subset = load_data("5000112602791")
        decoded_objects = extract_ean(subset["image_url"].iloc[0])
    else:
        # 2. utiliser `extract_ean` pour d√©coder l'image
        # decoded_objects
        
    try:
        # 3. R√©cup√©rer l'EAN
        ean = decoded_objects[0].data.decode("utf-8")
        st.markdown(f'üéâ __EAN d√©tect√©__: <span style="color:Red">{ean}</span>', unsafe_allow_html=True)
        subset = load_data(ean)
        # 3. Mettre un lien avec l'URL du produit sur openfoodfacts
        # 4. Afficher l'image du produit
        # 5. Afficher le DataFrame
        # put some statistics
        t = f"<div>Statistiques parmi les <span class='highlight blue'>{subset['category'].iloc[0]}<span class='bold'>COICOP</span>"                
        st.markdown(t, unsafe_allow_html=True)
        # 6. Afficher les figures plotly
    except:
        # we don't manage to get EAN
        st.write('üö® Probl√®me de lecture de la photo, essayez de mieux cibler le code-barre')
        st.image("https://i.kym-cdn.com/entries/icons/original/000/025/458/grandma.jpg")
```

Voici des indications pour compl√©ter ces trous:

1. Cr√©er une fonction enrobant `find_product_openfood` pour r√©cup√©rer la donn√©e adapt√©e √† partir d'un EAN
2. Utiliser  `extract_ean` pour d√©coder l'image. Stocker l'objet en sortie d'`OpenCV` sous le nom `decoded_objects`
3. A partir de l'objet `subset`, cr√©er un texte qui renvoie vers l'URL du produit sur `OpenFoodFacts`
4. Afficher l'image du produit, l'URL √©tant la variable ad√©quate de `subset`
5. Afficher le `DataFrame` dans l'interface de notre application
6. Utiliser notre fonction de production de graphique pour afficher des statistiques descriptives √† partir de notre
choix d'options. 

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::

Voici une proposition d'application, afin de reproduire en local le contenu de [myyuka.lab.sspcloud.fr/](https://myyuka.lab.sspcloud.fr/)


In [None]:
#| echo: true
#| eval: true
# Solution pour la voie üü¢
with open('app.py', 'r') as file:
    app_content = file.read()

print(
    app_content
)

## 4.3. En marche vers la mise en production (üü¢,üîµ,üî¥,‚ö´)

Pour le parcours üü¢, la voie s'arr√™te √† ce niveau. Vous pouvez n√©anmoins basculer du c√¥t√© de la
voie üîµ pour apprendre de mani√®re guid√©e √† mettre en production votre travail en
d√©ployant automatiquement une application. 

Pour les parcours üîµ,üî¥ et ‚ö´, vous allez pouvoir d√©ployer vous-m√™me l'application, de mani√®re 
plus ou moins guid√©e. 

# 5Ô∏è‚É£ D√©ploiement de l'application interactive

## 5.1. Pr√©liminaires (üîµ,üî¥,‚ö´)

L'application construite dans la partie pr√©c√©dente reste pour le moment √† un niveau local: elle n'est accessible que via l'utilisateur qui l'a d√©ploy√©e et ce sur la machine o√π elle a √©t√© d√©ploy√©e. L'objectif de cette derni√®re partie est de **d√©ployer** l'application, c'est √† dire de la rendre accessible en continu √† n'importe quel utilisateur. Pour cela, on va devoir s'int√©resser √† la technologie des **conteneurs**, qui est √† la base des infrastructures de production modernes.

Le fait de lancer ce notebook via un simple [lien de lancement](LIEN A METTRE) nous a permis de commencer √† travailler directement, sans trop nous soucier de l'environnement de d√©veloppement dans lequel on se trouvait.

Mais d√®s lors que l'on souhaite passer de son environnement de d√©veloppement √† un environnement de production, il est n√©cessaire de se poser un ensemble de questions pour s'assurer que le projet fonctionne ailleurs que sur sa machine personnelle :

- quelle est la version de `Python` √† installer pour que le projet fonctionne ?
- quels sont les packages `Python` utilis√©s par le projet et quelles sont leurs versions ?
- quelles sont les √©ventuelles librairies syst√®mes, i.e. d√©pendantes du syst√®me d'exploitation install√©, n√©cessaires pour que les packages `Python` s'installent correctement ?

La technologie standard pour assurer la **portabilit√©** d'un projet, c'est √† dire de fonctionner sur diff√©rents environnements informatiques, est celle des **conteneurs**. Sch√©matiquement, il s'agit de bo√Ætes virtuelles qui contiennent l'ensemble de l‚Äôenvironnement (librairies syst√®mes, interpr√©teur `Python`, code applicatif, configuration...) permettant de faire tourner l‚Äôapplication, tout en restant l√©g√®res et donc faciles √† redistribuer. En fait, chaque service lanc√© sur le `SSP Cloud` est un conteneur, et ce notebook tourne donc lui-m√™me... dans un conteneur !

L'enjeu de cette partie est donc de d√©voiler pas √† pas la bo√Æte noire afin de comprendre dans quel environnement on se trouve, et comment celui-ci va nous permettre de d√©ployer notre application.

## 5.2. Conteneurisation de l'application (üîµ,üî¥,‚ö´)

::: {.cell .markdown}
<!----- boite üîµ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "üîµ", title = "Comprendre la cr√©ation de l'image `Docker` de l'application (üîµ)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Le projet contient √† la racine un fichier `Dockerfile`. Il s'agit de la "recette" de construction de l'image `Docker` de l'application, i.e. qui sp√©cifie l'environnement n√©cessaire √† son bon fonctionnement.

En vous inspirant de la [documentation Streamlit](https://docs.streamlit.io/knowledge-base/tutorials/deploy/docker#create-a-dockerfile) (en Anglais) ou bien de cette [page de cours](https://ensae-reproductibilite.github.io/website/chapters/portability.html#dockerfile), essayez de comprendre pas √† pas les √©tapes de construction de l'image `Docker` de l'application.

```{=html}
</details>
</div>
```

<!----- end üîµ ----->
:::

::: {.cell .markdown}
<!----- boite üî¥, ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "Cr√©er le `Dockerfile` de l'application (üî¥, ‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Une image `Docker` est construite √† partir d'un fichier sp√©cifique g√©n√©ralement plac√© √† la racine du projet, le `Dockerfile`. Sans regarder le `Dockerfile` existant dans le projet, et en vous inspirant de la [documentation Streamlit](https://docs.streamlit.io/knowledge-base/tutorials/deploy/docker#create-a-dockerfile) (en Anglais), essayez de construire le `Dockerfile` pertinent pour l'application, puis comparez votre solution √† l'existant.

Quelques consignes suppl√©mentaires :

- on utilisera comme image de base `inseefrlab/onyxia-jupyter-python:py3.10.9`
- on se mettra en utilisateur *root* via l'[instruction USER](https://docs.docker.com/engine/reference/builder/#user)
- on aura besoin d'installer les librairies syst√®me suivantes via `apt-get` : `ffmpeg, libsm6, libxext6, libzbar0`
- on copiera tous les fichiers du projet local sur l'image `Docker` √† l'aide de l'[instruction COPY](https://docs.docker.com/engine/reference/builder/#copy)
- on fera tourner l'application sur le port `8000` du conteneur (qu'il faudra donc prendre soin d'exposer)
- on ne fera pas de `HEALTHCHECK`

```{=html}
</details>
</div>
```

<!----- end üî¥, ‚ö´ ----->
:::

::: {.cell .markdown}
<!----- boite ‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "‚ö´", title = "Construire l'image `Docker` de l'application par int√©gration continue (‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

Une fois le `Dockerfile` construit (du moins sa premi√®re version), on va l'utiliser pour construire une image `Docker` (la "bo√Æte" virtuelle) et mettre celle-ci sur un registre (r√©pertoire d'images) afin que celle-ci puisse √™tre r√©utilis√©e dans un autre environnement que celui o√π on l'a d√©velopp√©e.

On pourrait faire cela "√† la main" en ligne de commandes (cf. [documentation Docker](https://docs.docker.com/get-started/02_our_app/)), mais on va plut√¥t automatiser le processus en passant par un *pipeline* (s√©rie d'√©tapes) d'int√©gration continue.

Ainsi, √† chaque mise √† jour du code source de l'application (nouvelles fonctionnalit√©s, correction de bugs, etc.), notre image sera automatiquement mise √† jour.

Les √©tapes √† suivre sont les suivantes :

- si n√©cessaire, cr√©er un compte personnel sur [GitHub](https://github.com) et sur le [DockerHub](https://hub.docker.com/) (registre d'images open-source)
- bien s'assurer que le `Dockerfile` obtenu √† l'√©tape pr√©c√©dente est identique √† celui existant dans le projet
- [forker](https://docs.github.com/fr/get-started/quickstart/fork-a-repo) le [d√©p√¥t du projet](https://github.com/InseeFrLab/funathon2023_sujet4) afin de l'avoir dans votre espace personnel sur `GitHub`
- [cloner](https://docs.github.com/fr/repositories/creating-and-managing-repositories/cloning-a-repository) le d√©p√¥t fork√© (i.e. de la forme `votre_nom_utilisateur_gh/funathon2023_sujet4`) via un terminal
- cr√©er un nouveau d√©p√¥t public sur le `DockerHub`
- cr√©er les secrets `DOCKERHUB_USERNAME` et `DOCKERHUB_TOKEN` (cf. [documentation Docker](https://docs.docker.com/build/ci/github-actions/#step-one-create-the-repository)), n√©cessaires pour que le CI `GitHub` puisse pousser une image sur le `DockerHub`
- ajuster le fichier d'int√©gration continue (`.github/workflows/docker.yaml`) pour que le d√©p√¥t sur lequel est envoy√© l'image ne soit plus `inseefrlab/funathon2023_sujet4` mais `votre_nom_utilisateur_dh/funathon2023_sujet4`
- *commit*/*push* les changements sur `GitHub`
- si tout s'est bien pass√©, une action devrait se lancer (cf. onglet `Actions` du d√©p√¥t) afin de construire l'image et de l'envoyer sur le `DockerHub`
- si l'action s'est bien d√©roul√©e (fl√®che verte), aller v√©rifier que l'image est bien disponible dans votre espace sur le `DockerHub`

```{=html}
</details>
</div>
```

<!----- end ‚ö´ ----->
:::



## 5.3. D√©ploiement sur le `SSP Cloud`

Maintenant que l'image de notre application est disponible sur le `DockerHub`, elle peut √† pr√©sent √™tre r√©cup√©r√©e (*pull*) et d√©ploy√©e sur n'importe quel environnement. Dans notre cas, on va la d√©ployer sur un cluster `Kubernetes`, l'infrastructure sous-jacente du `SSP Cloud`. Le fonctionnement de `Kubernetes` est assez technique, mais l'on pourra s'abstraire de certaines parties selon le niveau de difficult√© choisi.


::: {.cell .markdown}
<!----- boite üî¥,‚ö´ ----->

```{=html}

In [None]:
#| echo: false
#| output: asis
#| eval: true
from utils_notebook import create_box_level
create_box_level(color = "grey", title = "D√©ploiement de l'application √† partir du `DockerHub` `InseeFrLab` (üî¥,‚ö´)")

<details>
<summary>D√©rouler pour r√©v√©ler les instructions</summary>
```

En amont de ce projet, nous avons construit une image `Docker` fonctionnelle de l'application, disponible sur le `DockerHub` dans l'espace [inseefrlab](https://hub.docker.com/repository/docker/inseefrlab/funathon2023_sujet4). Nous avons √©galement cr√©√©s dans le r√©pertoire `deployment/` √† la racine du projet les trois fichiers standards n√©cessaires au d√©ploiement d'une application sur `Kubernetes`. 

Afin de d√©ployer l'application, suivre les instructions suivantes :

- inspecter les fichiers `deployment.yml`, `service.yml` et `ingress.yml` et rep√©rer les √©l√©ments suivants :
    - o√π est sp√©cifi√©e l'image que l'on va d√©ployer. Pour la difficult√© ‚ö´: remplacer l'image actuelle par celle que vous avez construite et envoy√©e sur le `DockerHub` dans la partie pr√©c√©dente
    - o√π sont sp√©cifi√©es les ressources computationnelles que l'on va allouer √† l'application
    - o√π est d√©fini le port que l'on a expos√© dans le `Dockerfile`. Pour la difficult√© ‚ö´: si vous n'avez pas expos√© l'application sur le port `8000`, modifier cette ligne
    - o√π est d√©fini le port sur lequel on va exposer l'application sur le cluster `Kubernetes`
    - o√π est d√©finie l'URL √† laquelle on va exposer l'application pour que les utilisateurs puissent s'y connecter. La modifier (√† 2 reprises) pour y indiquer une adresse personalis√©e pour votre d√©ploiement. Seule contrainte : elle doit √™tre de la forme : `*.lab.sspcloud.fr` 
- ouvrir un terminal dans le service `Jupyter`
- se placer dans le projet du funathon : `cd funathon2023_sujet4`
- appliquer les contrats de d√©ploiement : `kubernetes apply -f deployment/`
- v√©rifier le lancement du conteneur : `watch kubernetes get pods`. Le nom associ√© devrait √™tre de la forme `funathon2023-sujet4-****-*****`
- une fois que le conteneur est indiqu√© comme `Running`, entrer dans un navigateur l'URL que vous avez sp√©cifi√© dans le fichier `ingress.yml`, et v√©rifier que l'application fonctionne correctement

```{=html}
</details>
</div>
```

<!----- end üî¥,‚ö´ ----->
:::

Votre application est maintenant d√©ploy√©e, vous pouvez partager cette URL avec n'importe quel utilisateur dans le monde !

## Bonus: le parcours üü£

Un dernier _challenge_ pour les amateurs de sensations fortes : cr√©er la m√™me application sur un site _web_ statique gr√¢ce au _web assembly_ (par exemple gr√¢ce √† `Observable` et `Quarto`) !

Pour avoir un site web statique, l'identification du code-barre devra √™tre faite en dehors de l'application, par exemple par le moyen d'une API
