<h1 style="text-align: center; font-weight: bold;"><u>√âtape 6 ANOVA</u></h1>

<h2 style="font-weight: bold;"><u>Import et chargement des donn√©es</u></h2>

In [1]:
# Importation des biblioth√®ques pandas, numpy, impute_missing_values, analyze_variables, get_normal_columns et stats
import pandas as pd, numpy as np
from myFonctions import impute_missing_values, analyze_variables, get_normal_columns
import scipy.stats as stats


# Charger les donn√©es
nutritional_products = pd.read_csv("data/foodfacts.csv", sep="\t", encoding="utf-8", low_memory=False)
columns_select = ['omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g', 'energy-from-fat_100g']

<h2 style="font-weight: bold;">6.A)<u>Conditions pour r√©aliser une ANOVA entre une variable qualitative et une variable quantitative</u></h2> 

#### üìå La variable qualitative doit √™tre cat√©gorielle  
- Elle repr√©sente des groupes (ex. : `"Type de produit"` = Fruits, L√©gumes, Viandes).  
- Elle doit comporter **au moins deux niveaux** (ANOVA √† un facteur) mais peut en avoir plus.  

#### üìå La variable quantitative doit √™tre continue  
- Elle doit mesurer une caract√©ristique num√©rique (ex. : `"Teneur en prot√©ines"` en g/100g).  
- **Pas d'ANOVA avec une variable binaire ou ordinale** (dans ce cas, on utiliserait plut√¥t un **test de Kruskal-Wallis** si la normalit√© n'est pas respect√©e).  

#### üìå Normalit√© des r√©sidus (hypoth√®se fondamentale de l'ANOVA)  
- Les r√©sidus (√©carts entre valeurs observ√©es et moyennes des groupes) doivent suivre **une distribution normale**.  
- V√©rification possible avec un **test de Shapiro-Wilk** ou **test de Kolmogorov-Smirnov (KS)** ou une **visualisation** (*QQ-plot, histogramme des r√©sidus, boxplot par groupe*).  

#### üìå Homog√©n√©it√© des variances (homosc√©dasticit√©)  
- Les variances de la variable quantitative doivent √™tre **similaires** entre les groupes d√©finis par la variable qualitative.  
- V√©rification avec un **test de Levene** ou **test de Bartlett**.  
- Si cette hypoth√®se n‚Äôest pas respect√©e, on peut utiliser une **ANOVA de Welch**, qui ne suppose pas l‚Äô√©galit√© des variances.  

#### üìå Ind√©pendance des observations  
- Chaque observation doit √™tre **ind√©pendante** des autres.  
- En cas de d√©pendance (ex. : mesures r√©p√©t√©es sur les m√™mes individus), une **ANOVA √† mesures r√©p√©t√©es** est n√©cessaire.  









<h2 style="font-weight: bold;">6.B)<u>TESTS SHAPIRO-WILK, KOLMOGROV-SMIRNOV, LEVENE ET KRUSKAL-WALLIS</u></h2> 

In [2]:
# Imputation seulement sur les colonnes 'omega-3-fat_100g', 'omega-6-fat_100g', 'iron_100g', 'calcium_100g' et 'energy-from-fat_100g'
df_imputed_selected = impute_missing_values(nutritional_products, columns=columns_select)


# Comparaison avec une s√©lection de variables
analyze_variables(df_imputed_selected, 'nutrition_grade_fr', features=columns_select)


üîπ Analyse pour omega-3-fat_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ‚ùå Non normal
  - Test de Kolmogorov-Smirnov : p-value = 0.00000
  - Test de Levene (homog√©n√©it√©) : p-value = 0.09212 ‚úÖ Homog√®ne
  - Kruskal-Wallis : p-value = 0.00000 ‚ö†Ô∏è Diff√©rence significative !

üîπ Analyse pour omega-6-fat_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ‚ùå Non normal
  - Test de Kolmogorov-Smirnov : p-value = 0.00000
  - Test de Levene (homog√©n√©it√©) : p-value = 0.00000 ‚ùå Non homog√®ne
  - Kruskal-Wallis : p-value = 0.00000 ‚ö†Ô∏è Diff√©rence significative !

üîπ Analyse pour iron_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ‚ùå Non normal
  - Test de Kolmogorov-Smirnov : p-value = 0.00000
  - Test de Levene (homog√©n√©it√©) : p-value = 0.21975 ‚úÖ Homog√®ne
  - Kruskal-Wallis : p-value = 0.00000 ‚ö†Ô∏è Diff√©rence significative !

üîπ Analyse pour calcium_100g :
  - Test de Shapiro-Wilk : p-value = 0.00000 ‚ùå Non normal
  - Test de Kolmogorov-Smirnov

<h2 style="font-weight: bold;">6.C)<u>Si toutes les conditions de l‚ÄôANOVA sont respect√©es</u></h2> 

<h3><u>Exemple ANOVA</u></h3> 

In [4]:
# Exemple de DataFrame
data = {
    'type_produit': ['Fruit', 'L√©gume', 'Fruit', 'Viande', 'L√©gume', 'Viande', 'Fruit', 'L√©gume', 'Viande'],
    'calories': [50, 30, 60, 150, 40, 200, 55, 35, 220]
}

df = pd.DataFrame(data)

# Anova - Hypoth√®se : les moyennes de calories diff√®rent selon le type de produit
# On cr√©e un dictionnaire pour s√©parer les donn√©es en groupes
groupes = [df[df['type_produit'] == groupe]['calories'] for groupe in df['type_produit'].unique()]

# Effectuer l'ANOVA
f_stat, p_value = stats.f_oneway(*groupes)

# Afficher les r√©sultats
print(f"Statistique F : {f_stat}")
print(f"Valeur p : {p_value}")

# Interpr√©tation
if p_value < 0.05:
    print("Les moyennes des groupes sont significativement diff√©rentes.")
else:
    print("Aucune diff√©rence significative entre les moyennes des groupes.")


Statistique F : 47.388888888888886
Valeur p : 0.00021103739543271226
Les moyennes des groupes sont significativement diff√©rentes.
