Questo progetto di analisi è eseguito su dataset, presi dal sito Istat (https://demo.istat.it/?l=it), che raccolgono info (Età, Sesso e Totale Residenti) sui residenti stranieri e italiani negli anni 2019-2023.

Il progetto si limita ad analizzare come sono distribuiti i residenti stranieri nelle varie regioni e province, evitando quindi di fare una analisi anche sui comuni italiani. 

Come obiettivo del progetto mi sono posto di analizzare come sono distribuiti i residenti stranieri nel nostro territorio. Di seguito gli obiettivi:
-	Mostrare, con un grafico a barre, il totale dei residenti per ogni regione 
-	Mostrare, con un grafico a torta, la percentuale di residenti stranieri e italiani, sul totale della popolazione, per una determinata regione scelta dall’utente. 
-	Visualizzare, con una heatmap, la distribuzione della popolazione straniera per fascia di età
-   Visualizzare, con una heatmap, la distribuzione della popolazione straniera per fascia di età nelle province appartenenti ad una regione scelta dall'utente

# PREPARIAMO IL NECESSARIO

In [None]:
# Importo le librerie di cui ho bisogno, che userò
import ipywidgets as widgets
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
# Carico il primo file CSV dei residenti italiani nelle varie regioni in base all'età
df_italiani_R = pd.read_csv("./italiani/perRegione.csv", sep=";")

# Carico il secondo file CSV dei residenti stranieri nelle varie regioni in base all'età
df_stranieri_R = pd.read_csv("./stranieri/perRegione.csv", sep=";")

# Carico il terzo file CSV dei residenti stranieri nelle varie province in base all'età
df_stranieri_P = pd.read_csv("./stranieri/perProvince.csv", sep=";")

In [None]:
# Aggiungo la colonna 'Totale' ai dataframe a cui manca
df_stranieri_R["Totale"] = df_stranieri_R["Maschi"]+df_stranieri_R["Femmine"]
df_stranieri_P['Totale'] = df_stranieri_P['Maschi'] + df_stranieri_P['Femmine']

#### Verifico i dataframe

In [None]:
df_italiani_R.info()

In [None]:
df_stranieri_R.info()

In [None]:
df_stranieri_P.info()

#### osservando i df appena creati si può notare che le righe in cui l'età vale 999 altro non sono che un riepilogo delle celle soprastanti. di conseguenza mi creo i dataframe in cui ho il totale dei residenti a prescindere dall'età

#### df per il totale dei residenti italiani nelle regioni

In [None]:
# Creo un nuovo dataframe e lo riempio con le righe in cui il valore della colonna "Età" è uguale a 999
df_italiani_R_TOT = df_italiani_R[df_italiani_R["Età"] == 999].copy()

# Rimuovo le righe copiate
df_italiani_R = df_italiani_R[df_italiani_R["Età"] != 999]

# Rimuovo la colonna 'Età'
df_italiani_R_TOT.drop('Età',axis=1,inplace=True)

# Resetto gli indici del dataframe
df_italiani_R_TOT = df_italiani_R_TOT.reset_index(drop=True)

# Rinomino le colonne
df_italiani_R_TOT = df_italiani_R_TOT.rename(columns={"Totale": "Totale Residenti","Maschi":"Totale Maschi","Femmine":"Totale Femmine"})

# Verifico sia andato tutto a buon fine
df_italiani_R_TOT.info()

#### df per il totale dei residenti stranieri nelle regioni 

In [None]:
# Creo un nuovo dataframe e lo riempio con le righe in cui il valore della colonna "Età" è uguale a 999
df_stranieri_R_TOT = df_stranieri_R[df_stranieri_R["Età"] == 999].copy()

# Rimuovo le righe copiate
df_stranieri_R = df_stranieri_R[df_stranieri_R["Età"] != 999]

# Rimuovo la colonna 'Età'
df_stranieri_R_TOT.drop('Età',axis=1,inplace=True)

# Resetto gli indici del dataframe
df_stranieri_R_TOT = df_stranieri_R_TOT.reset_index(drop=True)

# Rinomino le colonne
df_stranieri_R_TOT = df_stranieri_R_TOT.rename(columns={"Totale": "Totale Residenti","Maschi":"Totale Maschi","Femmine":"Totale Femmine"})

# Verifico sia andato tutto a buon fine
df_stranieri_R_TOT.info()


#### df per il totale dei residenti stranieri nelle province

In [None]:
# Creo un nuovo dataframe e lo riempio con le righe in cui il valore della colonna "Età" è uguale a 999
df_stranieri_P_TOT = df_stranieri_P[df_stranieri_P["Età"] == 999].copy()

# Rimuovo le righe copiate
df_stranieri_P = df_stranieri_P[df_stranieri_P["Età"] != 999]

# Rimuovo la colonna 'Età'
df_stranieri_P_TOT.drop('Età',axis=1,inplace=True)

# Resetto gli indici del dataframe
df_stranieri_P_TOT = df_stranieri_P_TOT.reset_index(drop=True)

# Rinomino le colonne
df_stranieri_P_TOT = df_stranieri_P_TOT.rename(columns={"Totale": "Totale Residenti","Maschi":"Totale Maschi","Femmine":"Totale Femmine"})

# Verifico che sia andato tutto a buon fine
df_stranieri_P_TOT.info()

#### ora che i dataframe dei residenti italiani e stranieri sono stati ripuliti dalla riga di 'riepilogo' posso unirli

In [None]:
# Unisco i due df relativi alle regioni per ottenere un unico dataframe
df_merged_R = pd.merge(df_italiani_R, df_stranieri_R, on=["Codice Regione", "Regione", "Età"], how="outer", suffixes=(" Italiani"," Stranieri"))

# Aggiungo la colonna 'Totale Residenti'
df_merged_R["Totale Residenti"] = df_merged_R["Totale Italiani"]+df_merged_R["Totale Stranieri"]

In [None]:
# verifico 
df_merged_R.info()

# ANALISI

### obiettivo 1: totale dei residenti per ogni regione

In [None]:
plt.figure(figsize=(20, 10))

# Imposto l'ordine in cui visualizzare il grafico a barre
order=df_stranieri_R_TOT.sort_values("Totale Residenti", ascending=False)["Regione"]

sns.barplot(data=df_stranieri_R_TOT, x="Regione", y="Totale Residenti", order=order)
# Ruoto per leggibilità
plt.xticks(rotation=90)

# Aggiungo una label agli assi e un titolo al grafico
plt.xlabel("Regioni")
plt.ylabel("Numero di residenti stranieri")
plt.title("Residenti stranieri per regione")

# Setto il layout e visualizzo il grafico
plt.tight_layout()
plt.show()


### obiettivo 2: percentuale di residenti stranieri e italiani, sul totale della popolazione, per una determinata regione scelta dall’utente

In [None]:
# Totale di residenti italiani per ogni regione
italiani_total = df_italiani_R_TOT['Totale Residenti']

# Totale di residenti stranieri per ogni regione
stranieri_total = df_stranieri_R_TOT['Totale Residenti']

# Calcolo il totale di residenti (italiani + stranieri) per ogni regione
totale_residenti = italiani_total + stranieri_total

# Calcolo le percentuali di italiani e stranieri sul totale per ogni regione
percentuale_italiani = (italiani_total / totale_residenti) * 100
percentuale_stranieri = (stranieri_total / totale_residenti) * 100

# Crea il dataframe df_utils
df_utils = pd.DataFrame({
    'Codice Regione': df_stranieri_R_TOT['Codice Regione'],
    'Regione': df_italiani_R_TOT['Regione'],
    'Residenti Italiani': italiani_total,
    'Residenti Stranieri': stranieri_total,
    'Totale Residenti': totale_residenti,
    'Percentuale Italiani': percentuale_italiani,
    'Percentuale Stranieri': percentuale_stranieri
})


# df_utils.reset_index()
df_utils.info()


In [None]:
df_utils = df_utils.sort_values(by='Percentuale Stranieri', ascending=False)
df_utils.info()
df_utils.reset_index(inplace=True, drop=True)

In [None]:
# Funzione per generare il grafico
def generate_pie_chart(region):
    region_data = df_utils.loc[region]
    labels = ['Italiani', 'Stranieri']
    sizes = [region_data['Percentuale Italiani'], region_data['Percentuale Stranieri']]
    colors = ['#ff9999', '#66b3ff']
    
    plt.figure(figsize=(6, 6))
    plt.pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)
    plt.axis('equal')
    plt.title(f'Percentuali di italiani e stranieri - {region} - {df_utils["Regione"][region]}')
    plt.show()
# Opzioni per il menu a tendina delle regioni
region_options = widgets.Dropdown(options=df_utils.index.tolist(), description='Regione:')

# Modifica l'etichetta delle opzioni nel menu a tendina
region_options.options = [(f"{region} - {df_utils['Regione'][region]}", region) for region in region_options.options]

# Funzione per gestire l'evento di selezione della regione
def on_region_select(change):
    region = change.new
    generate_pie_chart(region)

region_options.observe(on_region_select, names='value')

# Mostra il menu a tendina delle regioni
display(region_options)


### obiettivo 3: distribuzione, per età, dei residenti stranieri nelle varie regioni

In [None]:
# Crea un pivot table per visualizzare i dati come heatmap
pivot_table_R = df_merged_R.pivot_table(index='Regione', columns='Età', values='Totale Stranieri')

pivot_table_R = pivot_table_R.reindex(df_stranieri_R_TOT.sort_values("Totale Residenti", ascending=False)["Regione"])

# Crea la heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(pivot_table_R, cmap="YlOrRd", annot=False, fmt="g", linewidths=0.5, cbar=True)
plt.title("Distribuzione, per età, dei residenti stranieri nelle varie Regioni")
plt.xlabel("Età")
plt.ylabel("Regione")
plt.xticks(rotation=90)
plt.yticks(rotation=0)
plt.tight_layout()

# Visualizza la heatmap
plt.show()

### obiettivo 4: distribuzione dei residenti stranieri nelle province appartenenti alla regione scelta dall'utente

#### per ogni provincia ho bisogno di avere anche il nome della regione a cui appartiene. Quindi creo un dizionario in cui per ogni codice provincia associo la giusta regione

In [None]:

region_mapping = {
    range(1, 7): 'Piemonte',
    7: "Valle d'Aosta/Vallée d'Aoste",
    range(8, 12): 'Liguria',
    range(12, 21): 'Lombardia',
    range(21, 23): 'Trentino-Alto Adige/Südtirol',
    range(23, 30): 'Veneto',
    range(30, 33): 'Friuli-Venezia-Giulia',
    range(33, 41): 'Emilia-Romagna',
    range(41, 45): 'Marche',
    range(45, 54): 'Toscana',
    range(54, 56): 'Umbria',
    range(56, 61): 'Lazio',
    range(61, 66): 'Campania',
    range(66, 70): 'Abruzzo',
    70: 'Molise',
    range(71, 76): 'Puglia',
    range(76, 78): 'Basilicata',
    range(78, 81): 'Calabria',
    range(81, 90): 'Sicilia',
    range(90, 96): 'Sardegna',
    range(97, 99): 'Lombardia',
    93: 'Friuli-Venezia-Giulia',
    94: 'Molise',
    96: 'Piemonte',
    99: 'Emilia-Romagna',
    100: 'Toscana',
    range(101, 103): 'Calabria',
    103: 'Piemonte',
    108: 'Lombardia',
    109: 'Marche',
    110: 'Puglia',
    111: 'Sardegna'
}


In [None]:
# Creo una nuova colonna 'Regione' nel dataframe df_stranieri_P
df_stranieri_P['Regione'] = ''

# Assegno i valori della colonna 'Regione' ad entrambi i dataframe in base ai criteri definiti
for region_range, region_name in region_mapping.items():
    if isinstance(region_range, int):
        df_stranieri_P_TOT.loc[df_stranieri_P_TOT['Codice Provincia'] == region_range, 'Regione'] = region_name
    else:
        df_stranieri_P_TOT.loc[df_stranieri_P_TOT['Codice Provincia'].isin(region_range), 'Regione'] = region_name

for region_range, region_name in region_mapping.items():
    if isinstance(region_range, int):
        df_stranieri_P.loc[df_stranieri_P['Codice Provincia'] == region_range, 'Regione'] = region_name
    else:
        df_stranieri_P.loc[df_stranieri_P['Codice Provincia'].isin(region_range), 'Regione'] = region_name



#### Verifico che la colonna 'Regione' sia stata aggiunta

In [None]:
df_stranieri_P_TOT.info()
df_stranieri_P.info()

#### heatmap dei residenti stranieri nelle province per la regione selezionata

In [None]:

# Funzione per generare la 
def generate_heatmap(region):
    # Filtra il dataframe per la regione selezionata
    df_region = df_stranieri_P[df_stranieri_P['Regione'].str.contains(region)]
    
    # df_region.info()
        
    # Crea un pivot table per visualizzare i dati come heatmap
    pivot_table = df_region.pivot_table(index='Provincia', columns='Età', values='Totale')

    pivot_table = pivot_table.reindex(df_region.groupby('Provincia')['Totale'].sum().sort_values(ascending=False).index)
    
    # Crea la heatmap
    plt.figure(figsize=(12, 8))
    sns.heatmap(pivot_table, cmap="YlOrRd", annot=False, fmt="g", linewidths=0.5, cbar=True)
    plt.title(f"Distribuzione degli stranieri nelle province della regione {region} per età")
    plt.xlabel("Età")
    plt.ylabel("Provincia")
    plt.xticks(rotation=90)
    plt.yticks(rotation=0)
    plt.tight_layout()
    
    # Visualizza la heatmap
    plt.show()

# Opzioni per il menu a tendina delle regioni
region_options = widgets.Dropdown(options=df_stranieri_R_TOT['Regione'].unique(), description='Regione:')

# Funzione per gestire l'evento di selezione della regione
def on_region_select(change):
    region = change.new
    generate_heatmap(region)

region_options.observe(on_region_select, names='value')

# Mostra il menu a tendina delle regioni
display(region_options)


# CONCLUSIONI

Viene effettuata una analisi per regione e succesivamente per province. Di conseguenza:

Per quanto riguarda le regioni:
- Se si considera il totale dei residenti stranieri si osserva, grazie al grafico a barre, come la regione Lombardia presenti il maggior numero di residenti stranieri.

- Se si considerano le percentuali di stranieri residenti, sul totale della popolazione residente in quella regione, si evince come la regione Emilia-Romagna abbia una percentuale superiore di residenti stranieri

Per quanto riguarda le province:
- Si evince come sia la regione Veneto quella in cui i residenti stranieri siano distribuiti più equamente nelle province (5 delle 7 province). Altre regioni in cui si ha una situazione simile sono: Abruzzo, Basilicata, Emilia-Romagna, Marche, Sicilia, Trentino-Alto Adige

- Se si osservano le heatmap delle province delle regioni quali Lazio, Lombardia, Toscana, Piemonte, Liguria, Calabria, Campania, Molise, Friuli-Venezia-Giulia, Puglia, Sardegna, Umbria, Valle d'Aosta si nota, invece, come i residenti stranieri siano maggiormente distribuiti nelle città di interesse di quelle regioni. Osservando, per esempio, la regione Lombardia o la regione Lazio si nota come quasi la totalità dei residenti stranieri risiedano a Milano e a Roma piuttosto che in altre province.




## Ultime considerazioni:


Ci sono alcune regioni (Basilicata, Molise, Trentino-Alto Adige, Umbria, Valle d'Aosta) in cui, avendo poche province, la distribuzione dei residenti stranieri sarebbe ancora più precisa se si considerassero anche i Comuni di quelle regioni. Ciò potrebbe essere oggetto di analisi future.