[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alesaccoia/IULM_DDM2324_Notebooks/blob/main/EsercizioSvolto_Capitolo_02_Esercizio_3.ipynb)


# Esercizio 2.4.3

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Carica il file
df = pd.read_excel("data/reddito_popolazione.xlsx")


1. Analisi di base

In [None]:
# Numero di righe e colonne
shape = df.shape

# Controllo valori mancanti
missing_values = df.isnull().sum()

shape, missing_values


2. Statistiche descrittive

In [None]:
# Calcola l'età media, reddito mediano e reddito minimo e massimo
average_age = df['Eta'].mean()
median_income = df['Reddito'].median()
min_income = df['Reddito'].min()
max_income = df['Reddito'].max()

print(f"Età media: {average_age}")
print(f"Reddito mediano: {median_income}")
print(f"Reddito minimo: {min_income}")
print(f"Reddito massimo: {max_income}")

3. Analisi per genere

In [None]:
# Numero di persone per genere
gender_counts = df['Genere'].value_counts()

# Età media per genere
average_age_gender = df.groupby('Genere')['Eta'].mean()

# Reddito medio per genere
average_income_gender = df.groupby('Genere')['Reddito'].mean()

gender_counts, average_age_gender, average_income_gender


4. Analisi per provenienza

In [None]:
# Numero di persone per provenienza
origin_counts = df['Provenienza'].value_counts()

# Età media per provenienza
average_age_origin = df.groupby('Provenienza')['Eta'].mean()

# Reddito medio per provenienza
average_income_origin = df.groupby('Provenienza')['Reddito'].mean()

origin_counts, average_age_origin, average_income_origin


Un'altro modo per fare più statistiche sugli stessi gruppi la si può fare utilizzando la funzione "agg"

In [None]:
# Calcola l'età media e il reddito medio per genere usando agg
gender_analysis = df.groupby('Genere').agg({
    'Eta': 'mean',
    'Reddito': 'mean'
}).reset_index()

gender_counts, gender_analysis

5. Combinazione genere e provenienza

In [None]:
# Reddito medio delle donne provenienti da aree urbane
urban_female_income = df[(df['Genere'] == 'f') & (df['Provenienza'] == 'urbano')]['Reddito'].mean()

# Età media degli uomini provenienti da aree rurali
rural_male_age = df[(df['Genere'] == 'm') & (df['Provenienza'] == 'rurale')]['Eta'].mean()

urban_female_income, rural_male_age


6. Filtri e ordinamento

In [None]:
# Numero di persone con reddito > 20 e genere femminile
high_income_females = df[(df['Reddito'] > 20) & (df['Genere'] == 'f')].shape[0] # oppure si può usare len()

# Top 5 persone per reddito
top5_income = df.sort_values(by='Reddito', ascending=False).head(5)

high_income_females, top5_income


7. Operazioni avanzate

In [None]:
# Aggiungi una nuova colonna "Categoria Età"
df['Categoria Età'] = pd.cut(df['Eta'], bins=[0, 30, 50, float('inf')], labels=['Giovane', 'Adulto', 'Anziano'])

# Conta per categoria età
age_category_counts = df['Categoria Età'].value_counts()

# Reddito medio delle persone "Giovane" da aree suburbane
young_suburban_income = df[(df['Categoria Età'] == 'Giovane') & (df['Provenienza'] == 'suburbano')]['Reddito'].mean()

age_category_counts, young_suburban_income

8. Visualizzazione dei dati

In [None]:
# Grafico a barre per provenienza
sns.countplot(data=df, x='Provenienza')
plt.show()

# Boxplot per reddito per genere
sns.boxplot(data=df, x='Genere', y='Reddito')
plt.show()
