# Concevez une application de santé publique

## Nettoyage des données

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import os

In [2]:
os.getcwd()

'C:\\Users\\doare\\OneDrive\\Bureau\\IML_Projet_2'

'C:\\Users\\doare\\OneDrive\\Bureau\\IML_Projet_2'

In [3]:
os.chdir('C:\\Users\\doare\\OneDrive\\Bureau\\IML_Projet_2')

#### Dictionnaire de fonction

In [4]:
# Création d'une fonction pour supprimer les valeurs manquantes par colonne
def supprimer_colonne_vide(data : pd.DataFrame , pourcentage_val_manquantes : float) -> pd.DataFrame:
    """
    Fonction pour supprimer des colonnes en spécifiant le pourcentage de valeurs manquantes dans la colonne
    """
    colonne_a_garder = []
    for colonne in data.columns:
        if data[colonne].isna().sum()/data.shape[0] <= pourcentage_val_manquantes:
            colonne_a_garder.append(colonne)
    return data[colonne_a_garder]

# Création fonction pour observer les valeurs manquantes par colonne
def pourcentage_val_manquantes(data : pd.DataFrame):
    """
    Fonction qui sort un DataFrame avec 3 colonnes, les variables, le pourcentage de valeurs manquantes par variable et le nombre de valeurs manquantes
    """
    dataframe = pd.DataFrame(columns=['Variable', 'Pourcentage_valeurs_manquantes','Valeurs_manquantes'])
    dataframe['Variable'] = data.columns
    val_manquantes = list()
    val_manquantes_pourcentage = list()
    for col in data.columns:
        val1 = data[col].isna().sum().sum()
        val2 = data[col].isna().sum()/data.shape[0]
        val_manquantes.append(val1)
        val_manquantes_pourcentage.append(val2)
    dataframe['Pourcentage_valeurs_manquantes'] = list(val_manquantes_pourcentage)
    dataframe['Valeurs_manquantes'] = list(val_manquantes)
        
    return dataframe.sort_values(by = 'Pourcentage_valeurs_manquantes', ascending = False)

# Création fonction pour observer sous forme de graphique en bar le % de valeurs manquantes par colonne
def plot_pourcentage_val_manquantes_par_variable(data: pd.DataFrame, sample=False):
    """
    Mettre un échantillon du jeu de données si le dataset est trop lourd
    Permet d'afficher le pourcentage de valeur manquantes/non manquantes par variable sous forme de graphique en bar
    """
    if sample:
        subdata = data.sample(frac=0.5)
    else:
        subdata = data
    sns.displot(data=subdata.isna().melt(value_name="missing"),y="variable",hue="missing",multiple="fill",aspect=3.25)
    plt.gcf().set_size_inches(20, 30)


#Remplacer valeur manquantes pas un string
def remplacer_valeurs_manquantes_string(data: pd.DataFrame, colonne: str, valeur: str) -> pd.DataFrame:
    """
    Renseigner le jeu de données ainsi que la colonne dans laquelle on veut remplacer les valeurs. Enfin, il faut écrire par quoi on veut remplacer les valeurs manquantes
    """
    data[colonne] = data[colonne].fillna(valeur)

In [None]:
df = pd.read_csv('en.openfoodfacts.org.products (1).csv', sep='\t')
df.shape

  df = pd.read_csv('en.openfoodfacts.org.products (1).csv', sep='\t')
  df = pd.read_csv('en.openfoodfacts.org.products (1).csv', sep='\t')


Nous avons beaucoup de colonnes et plusieurs ont l'air vide ou du moins comporter beaucoup de valeurs manquantes. On va donc venir supprimer les colonnes inutiles afin de réduire nos variables.

In [None]:
#Visualisation de nombre de valeurs manquantes par colonne
plot_pourcentage_val_manquantes_par_variable(df, sample=True)

In [None]:
df_prep = supprimer_colonne_vide(df, .9)
df_prep.shape

Après avoir supprimer les colonnes les plus vides (au moins 90%) de valeurs manquantes on passe de 200 colonnes à 74. Cependant beaucoup d'entre elles possèdent encore de nombreuses valeurs manquantes. On va donc essayer de réduire ce nombre de variable et également choisir des produits qui ont assez d'informations.

In [None]:
_ = pourcentage_val_manquantes(df_prep)
_.head(50)

Afin de se rendre mieux comprendre des variables, nous allons nous focaliser sur un produit. Nous allons regarder sur le ketchup.

In [None]:
df_ketchup = df_prep[(df_prep['product_name'] == 'Ketchup')]
df_ketchup.head(5)

In [None]:
df_prod_sans_na = df_prep[df_prep["product_name"].notna() & df_prep["nutriscore_grade"].notna() & df_prep["pnns_groups_2"].notna() & df_prep["main_category_en"].notna() & df_prep["nova_group"].notna() & df_prep["ecoscore_grade"].notna()]

print(f"Nombre de lignes ou nous avons des données essentielles: {df_prod_sans_na.shape[0]} produits soit {df_prod_sans_na.shape[0]/df_prep.shape[0]*100:.2f}% de notre jeu de données de base.")

In [None]:
_ = pourcentage_val_manquantes(df_prod_sans_na)
pd.set_option('display.max_rows', None)
_.head(74)

Parmi les 74 variables restantes, elles ont presque toutes moins de 60% de valeurs manquantes ce qui est acceptable pour la suite. 

In [None]:
#Regarder valeur présentes dans la colonne
df_prod_sans_na['countries_en'].unique()

Nous allons garder des colonnes qui contiennent :
   <br> - des informations générales sur le produit (product_name, brands, pnns_groups, localisation )
   <br> - des informations environnementales (packaging, huile de palme)
   <br> - des informations sur la qualité du produit (additifs, infos nutritionnels tels que le nutriscore et les variables quantitatives pour 100g )



In [None]:
df_filtre = df_prod_sans_na.loc[:, ["code","product_name","brands", "pnns_groups_1", "pnns_groups_2","categories","main_category_en", "countries_en","sugars_100g","salt_100g","sodium_100g","proteins_100g","energy_100g","energy-kcal_100g",
"carbohydrates_100g","saturated-fat_100g","fat_100g","fiber_100g","additives_n","nutriscore_grade","nova_group","ecoscore_grade"]]

In [None]:
df_filtre.shape

In [None]:
df_filtre.head()

In [None]:
df_filtre.dtypes

On peut voir que notre variable energy_100g est mal formaté, on va donc la transformer en float.

In [None]:
df_filtre['energy_100g'] = df_filtre['energy_100g'].astype('float64')

In [None]:
df_filtre.dtypes

In [None]:
df_filtre.isna().sum()

Nous pouvons voir que certaines colonnes comportent encore des valeurs manquantes. Nous avons des valeurs manquantes pour deux types de variables, des variables quantitatives (nous allons donc imputer un valeur au lieu de les supprimer), une variable qualitative (la marque dans laquel nous ne pourrons rien faire)

In [None]:
#remplacer valeur manquantes de brands par 'non renseignée'
remplacer_valeurs_manquantes_string(df_filtre,'brands', 'Non renseigné')

#remplacer valeur manquantes de countries_en par 'non renseignée'
remplacer_valeurs_manquantes_string(df_filtre,'countries_en', 'Non renseigné')

In [None]:
df_filtre.isna().sum()

#### Finir valeurs manquantes, calcul outliers (supprimer/borner si il faut)

In [None]:
df_filtre.describe()

Premièrement, on peut voir que certaines valeurs sont négatives, on va donc les supprimer. De plus, On observe que les valeurs maximum de nos variables sont supérieurs à 100 or ce sont des données pour 100g. On va donc supprimer toutes ces données aberrantes.

In [None]:
colonne_100g = ['sugars_100g','salt_100g','sodium_100g','proteins_100g','energy_100g','energy-kcal_100g','carbohydrates_100g','carbohydrates_100g','saturated-fat_100g','fat_100g','fiber_100g']
df_copie = df_filtre.copy()
for col in colonne_100g:
    df_copie = df_copie.loc[((df_copie[col]>=0)&(df_copie[col]<=100)) | (df_copie[col].isna()),:]


In [None]:
df_copie.describe()

In [None]:
test_pnns_groups_2 = df_copie.groupby(by=["pnns_groups_2"]).mean()
test_pnns_groups_2.head(15)