<h1 style="text-align: center; font-weight: bold;"><u>Étape 6 ANOVA</u></h1>

<h2 style="font-weight: bold;"><u>Import et chargement des données</u></h2>

In [1]:
# Importation des bibliothèques pandas, numpy, impute_missing_values, analyze_variables, get_normal_columns et stats
import pandas as pd, numpy as np
from myFonctions import impute_missing_values, analyze_variables, get_normal_columns
import scipy.stats as stats


# Charger les données
nutritional_products = pd.read_csv("data/foodfacts.csv", sep="\t", encoding="utf-8", low_memory=False)
columns_select = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

<h2 style="font-weight: bold;">6.A)<u>Conditions pour réaliser une ANOVA entre une variable qualitative et une variable quantitative</u></h2> 

#### 📌 La variable qualitative doit être catégorielle  
- Elle représente des groupes (ex. : `"Type de produit"` = Fruits, Légumes, Viandes).  
- Elle doit comporter **au moins deux niveaux** (ANOVA à un facteur) mais peut en avoir plus.  

#### 📌 La variable quantitative doit être continue  
- Elle doit mesurer une caractéristique numérique (ex. : `"Teneur en protéines"` en g/100g).  
- **Pas d'ANOVA avec une variable binaire ou ordinale** (dans ce cas, on utiliserait plutôt un **test de Kruskal-Wallis** si la normalité n'est pas respectée).  

#### 📌 Normalité des résidus (hypothèse fondamentale de l'ANOVA)  
- Les résidus (écarts entre valeurs observées et moyennes des groupes) doivent suivre **une distribution normale**.  
- Vérification possible avec un **test de Shapiro-Wilk** ou **test de Kolmogorov-Smirnov (KS)** ou une **visualisation** (*QQ-plot, histogramme des résidus, boxplot par groupe*).  

#### 📌 Homogénéité des variances (homoscédasticité)  
- Les variances de la variable quantitative doivent être **similaires** entre les groupes définis par la variable qualitative.  
- Vérification avec un **test de Levene** ou **test de Bartlett**.  
- Si cette hypothèse n’est pas respectée, on peut utiliser une **ANOVA de Welch**, qui ne suppose pas l’égalité des variances.  

#### 📌 Indépendance des observations  
- Chaque observation doit être **indépendante** des autres.  
- En cas de dépendance (ex. : mesures répétées sur les mêmes individus), une **ANOVA à mesures répétées** est nécessaire.  









<h2 style="font-weight: bold;">6.B)<u>TESTS SHAPIRO-WILK, KOLMOGROV-SMIRNOV, LEVENE ET KRUSKAL-WALLIS</u></h2> 

In [2]:
# Imputation seulement sur les colonnes 'omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g' et 'energy-from-fat_100g'
df_imputed_selected = impute_missing_values(nutritional_products, columns=columns_select)


# Comparaison avec une sélection de variables
analyze_variables(df_imputed_selected, 'nutrition_grade_fr', features=columns_select)


🔹 Analyse pour omega-3-fat_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ❌ Non normal
  - Test de Kolmogorov-Smirnov : p-value = 0.00000
  - Test de Levene (homogénéité) : p-value = 0.09212 ✅ Homogène
  - Kruskal-Wallis : p-value = 0.00000 ⚠️ Différence significative !

🔹 Analyse pour omega-6-fat_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ❌ Non normal
  - Test de Kolmogorov-Smirnov : p-value = 0.00000
  - Test de Levene (homogénéité) : p-value = 0.00000 ❌ Non homogène
  - Kruskal-Wallis : p-value = 0.00000 ⚠️ Différence significative !

🔹 Analyse pour iron_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ❌ Non normal
  - Test de Kolmogorov-Smirnov : p-value = 0.00000
  - Test de Levene (homogénéité) : p-value = 0.21975 ✅ Homogène
  - Kruskal-Wallis : p-value = 0.00000 ⚠️ Différence significative !

🔹 Analyse pour calcium_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ❌ Non normal
  - Test de Kolmogorov-Smirnov : p-value = 0.00000
  - Test de Levene (homogénéité)

<h2 style="font-weight: bold;">6.C)<u>Si toutes les conditions de l’ANOVA sont respectées</u></h2> 

<h3><u>Exemple ANOVA</u></h3> 

In [4]:
# Exemple de DataFrame
data = {
    'type_produit': ['Fruit', 'Légume', 'Fruit', 'Viande', 'Légume', 'Viande', 'Fruit', 'Légume', 'Viande'],
    'calories': [50, 30, 60, 150, 40, 200, 55, 35, 220]
}

df = pd.DataFrame(data)

# Anova - Hypothèse : les moyennes de calories diffèrent selon le type de produit
# On crée un dictionnaire pour séparer les données en groupes
groupes = [df[df['type_produit'] == groupe]['calories'] for groupe in df['type_produit'].unique()]

# Effectuer l'ANOVA
f_stat, p_value = stats.f_oneway(*groupes)

# Afficher les résultats
print(f"Statistique F : {f_stat}")
print(f"Valeur p : {p_value}")

# Interprétation
if p_value < 0.05:
    print("Les moyennes des groupes sont significativement différentes.")
else:
    print("Aucune différence significative entre les moyennes des groupes.")


Statistique F : 47.388888888888886
Valeur p : 0.00021103739543271226
Les moyennes des groupes sont significativement différentes.
