[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alesaccoia/IULM_DDM2324_Notebooks/blob/main/13_italy_population.ipynb)

In [None]:
import pandas as pd

# a.1
# Carica il foglio "Raw Data" dal file fornito
df = pd.read_excel("data/italy_population_administrative_layers.xlsx", sheet_name="Raw Data")

# Mostra le prime righe del dataset per comprendere la struttura dei dati
# a.2
df.head()


In [None]:
#a.3
df = df[df['Eta'] != 999]


In [None]:
# b.1
num_comuni = df['A_ID_3'].nunique()
print(f"Sono presenti {num_comuni} codici comune unici")

# b.2
total_males = df['Totale Maschi'].sum()
total_females = df['Totale Femmine'].sum()
print(f"Il numero totale di maschi in Italia é {total_males}")
print(f"Il numero totale di femmine in Italia é {total_females}")


In [None]:
# b.3
grouped = df.groupby(['A_ID_2', 'A_LBL_2', 'A_ID_3', 'A_LBL_3'])['Totale'].sum()
highest_population_comune = grouped.idxmax()
lowest_population_comune = grouped.idxmin()


highest_population_value = grouped[highest_population_comune]
lowest_population_value = grouped[lowest_population_comune]

print(f"Il comune più popoloso in Italia è {highest_population_comune} con una popolazione di {highest_population_value}")
print(f"Il comune meno popoloso in Italia è {lowest_population_comune} con una popolazione di {lowest_population_value}")



In [None]:
# c.2
import matplotlib.pyplot as plt

# Raggruppiamo per 'Eta' e sommiamo i valori per 'Totale Maschi' e 'Totale Femmine'
grouped_by_age = df.groupby('Eta').agg({'Totale Maschi': 'sum', 'Totale Femmine': 'sum'}).reset_index()

# Creiamo il grafico a linee
plt.figure(figsize=(12, 6))
plt.plot(grouped_by_age['Eta'], grouped_by_age['Totale Maschi'], label='Maschi', color='blue')
plt.plot(grouped_by_age['Eta'], grouped_by_age['Totale Femmine'], label='Femmine', color='red')
plt.xlabel('Età')
plt.ylabel('Popolazione')
plt.title('Popolazione maschile e femminile per età in Italia')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# c.3
max_males_age = grouped_by_age['Totale Maschi'].idxmax()
max_females_age = grouped_by_age['Totale Femmine'].idxmax()

max_males_age, max_females_age


In [None]:
# Supponendo l'esistenza del DataFrame df

# Calcola la popolazione totale per ogni regione
total_population_by_region = df.groupby('A_LBL_1')['Totale'].sum()

# Calcola la popolazione degli anziani (età > 65) per ogni regione
elderly_population_by_region = df[df['Eta'] > 65].groupby('A_LBL_1')['Totale'].sum()

# Calcola la proporzione del numero di anziani rispetto al totale della popolazione per ogni regione
proportion_elderly_by_region = elderly_population_by_region / total_population_by_region

proportion_elderly_by_region.sort_values(ascending=False)


# Calcola l'età media pesata per ciascuna regione (esercizio 3 capitolo 4)

In [None]:
# Moltiplica l'età per la popolazione totale per ottenere il peso totale per ogni età
df['weighted_age'] = df['Eta'] * df['Totale']

# Calcola la somma dei pesi e la popolazione totale per ciascuna regione
sum_weights = df.groupby('A_LBL_1')['weighted_age'].sum()
sum_population = df.groupby('A_LBL_1')['Totale'].sum()

# Calcola l'età media pesata dividendo la somma dei pesi per la popolazione totale
average_weighted_age = sum_weights / sum_population
average_weighted_age.sort_values(ascending=False)


In [None]:
import scipy.stats as stats

# Crea una lista di età per ciascuna regione
ages_by_region = [df['weighted_age'][df['A_LBL_1'] == region] for region in df['A_LBL_1'].unique()]

# Esegui il test ANOVA
f_statistic, p_value = stats.f_oneway(*ages_by_region)

print(f"F statistic: {f_statistic}")
print(f"P-value: {p_value}")
