[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alesaccoia/IULM_DDM2324_Notebooks/blob/main/09_anova.ipynb)

# Esempio di Analysis Of Variance per l'associazione tra variabili categoriche e numeriche
L'analisi ANOVA (Analysis of Variance) è un test statistico che confronta le medie di più gruppi per vedere se esistono differenze significative tra di essi.

In questo esempio, basato su variabili sociodemografiche, vogliamo capire se le età delle persone nel nostro CRM cambi a seconda della loro provenienza geografica.


## Importazione del dataset

In [1]:
import pandas as pd
import numpy as np
import random
from scipy import stats

!wget "https://github.com/LeoLin72/IULM_DDM2324_Notebooks/raw/main/data/esempio_anova.xlsx"
df = pd.read_excel('esempio_anova.xlsx')
df


--2024-04-09 13:32:02--  https://github.com/LeoLin72/IULM_DDM2324_Notebooks/raw/main/data/esempio_anova.xlsx
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/LeoLin72/IULM_DDM2324_Notebooks/main/data/esempio_anova.xlsx [following]
--2024-04-09 13:32:02--  https://raw.githubusercontent.com/LeoLin72/IULM_DDM2324_Notebooks/main/data/esempio_anova.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7474 (7.3K) [application/octet-stream]
Saving to: ‘esempio_anova.xlsx’


2024-04-09 13:32:02 (52.2 MB/s) - ‘esempio_anova.xlsx’ saved [7474/7474]



Unnamed: 0,Provenienza,Età
0,Isola,20
1,Sud,23
2,Isola,23
3,Sud,59
4,Centro,29
...,...,...
195,Isola,40
196,Centro,49
197,Isola,23
198,Centro,55


# Raggruppamento in base alla provenienza


In [2]:
# prima di tutto guardiamo le medie, per provenienza
df.groupby('Provenienza').mean('Età')

Unnamed: 0_level_0,Età
Provenienza,Unnamed: 1_level_1
Centro,38.175
Isola,37.266667
Nord,39.9
Sud,40.72


In [3]:


# L'analisi dell'ANOVA: la funzione scipy "stats.f_oneway" richiede che si passino N argomenti, quindi dobbiamo salvare una "lista di liste"
grouped_data = [group['Età'] for name, group in df.groupby('Provenienza')]
print(f"Il tipo di dato di grouped_data é {type(grouped_data)}")
print(f"grouped_data é composta da {len(grouped_data)} elementi")

for i, g in enumerate(grouped_data):
    print(f"L'elemento grouped_data[{i}] é di tipo {type(g)} e ha lunghezza {len(g)} ")



Il tipo di dato di grouped_data é <class 'list'>
grouped_data é composta da 4 elementi
L'elemento grouped_data[0] é di tipo <class 'pandas.core.series.Series'> e ha lunghezza 40 
L'elemento grouped_data[1] é di tipo <class 'pandas.core.series.Series'> e ha lunghezza 60 
L'elemento grouped_data[2] é di tipo <class 'pandas.core.series.Series'> e ha lunghezza 50 
L'elemento grouped_data[3] é di tipo <class 'pandas.core.series.Series'> e ha lunghezza 50 


## Esecuzione dell'ANOVA per confrontare le età tra i gruppi


In [4]:
f_statistic, p_value = stats.f_oneway(*grouped_data) # notare l'unpacking della lista, senza l'asterisco staremmo passando un solo elemento!

In [5]:
# Interpretazione dei risultati
alpha = 0.05
print(f'Statistica F: {f_statistic}')
print(f'Valore p: {p_value}')
if p_value < alpha:
    print("Ci sono differenze significative tra le età in base alla provenienza.")
else:
    print("Non ci sono differenze significative tra le età in base alla provenienza.")

Statistica F: 0.907107878781358
Valore p: 0.43861922693827005
Non ci sono differenze significative tra le età in base alla provenienza.
