[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alesaccoia/IULM_DDM2324_Notebooks/blob/main/09_anova.ipynb)

# Esempio di Analysis Of Variance per l'associazione tra variabili categoriche e numeriche
L'analisi ANOVA (Analysis of Variance) è un test statistico che confronta le medie di più gruppi per vedere se esistono differenze significative tra di essi. 

In questo esempio, basato su variabili sociodemografiche, vogliamo capire se le età delle persone nel nostro CRM cambi a seconda della loro provenienza geografica.


## Importazione del dataset

In [None]:
import pandas as pd
import numpy as np
import random
from scipy import stats


df = pd.read_excel('data/esempio_anova.xlsx')
df


# Raggruppamento in base alla provenienza


In [None]:
# prima di tutto guardiamo le medie, per provenienza
df.groupby('Provenienza').mean('Età')

In [None]:


# L'analisi dell'ANOVA: la funzione scipy "stats.f_oneway" richiede che si passino N argomenti, quindi dobbiamo salvare una "lista di liste"
grouped_data = [group['Età'] for name, group in df.groupby('Provenienza')]
print(f"Il tipo di dato di grouped_data é {type(grouped_data)}")
print(f"grouped_data é composta da {len(grouped_data)} elementi")

for i, g in enumerate(grouped_data):
    print(f"L'elemento grouped_data[{i}] é di tipo {type(g)} e ha lunghezza {len(g)} ")



## Esecuzione dell'ANOVA per confrontare le età tra i gruppi


In [None]:
f_statistic, p_value = stats.f_oneway(*grouped_data) # notare l'unpacking della lista, senza l'asterisco staremmo passando un solo elemento!

In [None]:
# Interpretazione dei risultati
alpha = 0.05
print(f'Statistica F: {f_statistic}')
print(f'Valore p: {p_value}')
if p_value < alpha:
    print("Ci sono differenze significative tra le età in base alla provenienza.")
else:
    print("Non ci sono differenze significative tra le età in base alla provenienza.")