<h1 style="text-align: center; font-weight: bold;"><u>Étape 3 Identifier et traiter les valeurs manquantes</u></h1>

<h2 style="font-weight: bold;"><u>Import et chargement des données</u></h2>

In [2]:
# Importation des bibliothèques
import pandas as pd, numpy as np
from myFonctions import remove_duplicates, calculate_mode, replace_nan_with_stat, calculate_mean, calculate_median, SimpleImputer, enable_iterative_imputer, IterativeImputer, BayesianRidge, display_boxplot_with_stats, detect_outliers, replace_outliers, impute_missing_values
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.impute import KNNImputer

# Lire le fichier CSV
nutritional_products = pd.read_csv("data/foodfacts.csv", sep="\t", encoding="utf-8", low_memory=False)

<h2 style="font-weight: bold;">3.A) <u>Nettoyer les données</u></h2>

In [3]:
# Sélectionne les colonnes spécifiques qu'on souhaite
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

# Calculer le taux de remplissage pour ces colonnes spécifiques
taux_remplissage_colonnes_specifiques = nutritional_products[colonnes_specifiques].notnull().mean() * 100

seuil = 50  # On cherche les colonnes avec plus de 50% de valeurs manquantes

# Appliquer un seuil de 50% pour identifier les colonnes manquantes
colonnes_manquantes_specifiques = taux_remplissage_colonnes_specifiques[taux_remplissage_colonnes_specifiques <= seuil]

print("Colonnes spécifiques sélectionnées avec plus de 50% de valeurs manquantes :")
print(colonnes_manquantes_specifiques.sort_values())

Colonnes spécifiques sélectionnées avec plus de 50% de valeurs manquantes :
omega-6-fat_100g         0.058609
omega-3-fat_100g         0.262180
energy-from-fat_100g     0.267168
iron_100g               43.788735
calcium_100g            43.972042
dtype: float64


In [4]:
# Sélectionner les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

# Calculer le nombre de valeurs manquantes pour chaque colonne sélectionnée
number = nutritional_products[colonnes_specifiques].isnull().sum()

# Affichage du résultat
print(number)

omega-3-fat_100g        319931
omega-6-fat_100g        320584
iron_100g               180310
calcium_100g            179722
energy-from-fat_100g    319915
dtype: int64


In [5]:
# Sélectionner les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

# Afficher les types de données des colonnes spécifiques
types_colonnes_specifiques = nutritional_products[colonnes_specifiques].dtypes

print(types_colonnes_specifiques)


omega-3-fat_100g        float64
omega-6-fat_100g        float64
iron_100g               float64
calcium_100g            float64
energy-from-fat_100g    float64
dtype: object


<h3 style="font-weight: bold;"><u>Remplacement NAN par le mode</u></h3>

**Le mode** est la modalité ou la valeur la plus fréquente dans un ensemble de données.

In [6]:
# Exemple d'application des fonctions sur les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

# Calcul du mode
mode_result = calculate_mode(nutritional_products, columns=colonnes_specifiques)
print("Mode des colonnes spécifiées :")
print(mode_result)

Mode des colonnes spécifiées :
   omega-3-fat_100g  omega-6-fat_100g  iron_100g  calcium_100g  \
0               2.0               1.1        0.0           0.0   

   energy-from-fat_100g  
0                   0.0  


In [7]:
# Exemple d'application des fonctions sur les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

print("\nValeurs NaN avant remplacement:")
print(nutritional_products[colonnes_specifiques].isna().sum())

df_mode_replaced = replace_nan_with_stat(nutritional_products, columns=colonnes_specifiques, stat='mode')

print("\nValeurs NaN après remplacement:")
print(df_mode_replaced[colonnes_specifiques].isna().sum())



Valeurs NaN avant remplacement:
omega-3-fat_100g        319931
omega-6-fat_100g        320584
iron_100g               180310
calcium_100g            179722
energy-from-fat_100g    319915
dtype: int64

Valeurs NaN après remplacement:
omega-3-fat_100g        0
omega-6-fat_100g        0
iron_100g               0
calcium_100g            0
energy-from-fat_100g    0
dtype: int64


<h3 style="font-weight: bold;"><u>Remplacement NAN par la moyenne</u></h3>

### **La moyenne**
La **moyenne** (ou moyenne arithmétique) est la somme de toutes les valeurs d'un ensemble de données, divisée par le nombre total de valeurs. Elle donne une idée du "centre" des données.

In [8]:
# Exemple d'application des fonctions sur les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

# Calcul de la moyenne
mean_result = calculate_mean(nutritional_products, columns=colonnes_specifiques)
print("\nMoyenne des colonnes spécifiées :")
print(mean_result)


Moyenne des colonnes spécifiées :
omega-3-fat_100g          3.182103
omega-6-fat_100g         16.229144
iron_100g                 0.003652
calcium_100g              0.125163
energy-from-fat_100g    585.501214
dtype: float64


In [9]:
# Exemple d'application des fonctions sur les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

print("\nValeurs NaN avant remplacement:")
print(nutritional_products[colonnes_specifiques].isna().sum())

df_mean_replaced = replace_nan_with_stat(nutritional_products, columns=colonnes_specifiques, stat='mean')

print("\nValeurs NaN après remplacement:")
print(df_mean_replaced[colonnes_specifiques].isna().sum())



Valeurs NaN avant remplacement:
omega-3-fat_100g        319931
omega-6-fat_100g        320584
iron_100g               180310
calcium_100g            179722
energy-from-fat_100g    319915
dtype: int64

Valeurs NaN après remplacement:
omega-3-fat_100g        0
omega-6-fat_100g        0
iron_100g               0
calcium_100g            0
energy-from-fat_100g    0
dtype: int64


<h3 style="font-weight: bold;"><u>Remplacement NAN par la médiane</u></h3>

### **La médiane**
La **médiane** est la valeur qui sépare un ensemble de données en deux parties égales lorsque les données sont triées dans l'ordre croissant ou décroissant. Si l'ensemble de données contient un nombre impair de valeurs, la médiane est la valeur du milieu. Si l'ensemble de données contient un nombre pair de valeurs, la médiane est la moyenne des deux valeurs centrales.

- **Si n est impair** : la médiane est la valeur centrale.
- **Si n est pair** : la médiane est la moyenne des deux valeurs centrales.

In [10]:
# Exemple d'application des fonctions sur les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

# Calcul de la médiane
median_result = calculate_median(nutritional_products, columns=colonnes_specifiques)
print("\nMédiane des colonnes spécifiées :")
print(median_result)


Médiane des colonnes spécifiées :
omega-3-fat_100g          1.80000
omega-6-fat_100g         10.05000
iron_100g                 0.00101
calcium_100g              0.03500
energy-from-fat_100g    300.00000
dtype: float64


In [11]:
# Exemple d'application des fonctions sur les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

print("\nValeurs NaN avant remplacement:")
print(nutritional_products[colonnes_specifiques].isna().sum())

df_median_replaced = replace_nan_with_stat(nutritional_products, columns=colonnes_specifiques, stat='median')

print("\nValeurs NaN après remplacement:")
print(df_median_replaced[colonnes_specifiques].isna().sum())



Valeurs NaN avant remplacement:
omega-3-fat_100g        319931
omega-6-fat_100g        320584
iron_100g               180310
calcium_100g            179722
energy-from-fat_100g    319915
dtype: int64

Valeurs NaN après remplacement:
omega-3-fat_100g        0
omega-6-fat_100g        0
iron_100g               0
calcium_100g            0
energy-from-fat_100g    0
dtype: int64


In [12]:
# Exemple d'application des fonctions sur les colonnes spécifiques
colonnes_specifiques = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

df_median_replaced = replace_nan_with_stat(nutritional_products, columns=colonnes_specifiques, stat='median')
print(df_median_replaced[colonnes_specifiques].describe())  # Vérifie les statistiques générales

       omega-3-fat_100g  omega-6-fat_100g      iron_100g   calcium_100g  \
count     320772.000000     320772.000000  320772.000000  320772.000000   
mean           1.803624         10.053622       0.002167       0.074647   
std            0.295553          0.448506       0.141886       2.200838   
min            0.000000          0.050000      -0.000260       0.000000   
25%            1.800000         10.050000       0.001010       0.035000   
50%            1.800000         10.050000       0.001010       0.035000   
75%            1.800000         10.050000       0.001010       0.035000   
max           60.000000         71.000000      50.000000     694.737000   

       energy-from-fat_100g  
count         320772.000000  
mean             300.762768  
std               39.662140  
min                0.000000  
25%              300.000000  
50%              300.000000  
75%              300.000000  
max             3830.000000  


<h3 style="font-weight: bold;"><u>Remplacement NAN par la méthode iterative imputer</u></h3>

### **Iterative Imputer**

L'**Iterative Imputer** est une méthode d'imputation des valeurs manquantes dans un ensemble de données. Contrairement aux méthodes simples telles que la moyenne ou la médiane, qui impute une valeur constante pour les données manquantes, l'Iterative Imputer utilise un modèle itératif pour prédire les valeurs manquantes en fonction des autres caractéristiques.

In [13]:
print("\nValeurs NaN avant remplacement:")
print(nutritional_products[colonnes_specifiques].isna().sum())

# Imputation seulement sur les colonnes 'omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g' et 'energy-from-fat_100g'
df_imputed_selected = impute_missing_values(nutritional_products, columns=['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g'])


print("\nValeurs NaN après remplacement:")
print(df_imputed_selected[colonnes_specifiques].isna().sum())


Valeurs NaN avant remplacement:
omega-3-fat_100g        319931
omega-6-fat_100g        320584
iron_100g               180310
calcium_100g            179722
energy-from-fat_100g    319915
dtype: int64

Valeurs NaN après remplacement:
omega-3-fat_100g        0
omega-6-fat_100g        0
iron_100g               0
calcium_100g            0
energy-from-fat_100g    0
dtype: int64
