---

# Introduzione ai big data e ai metodi computazionali

## Laurea in Sociologia



# Analisi dati - The Social Capital Atlas

Michele Tizzoni

---

In questo notebook useremo la libreria Pandas per esplorare i dati su cui si basano due studi pubblicati nel 2022:

- Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital I: measurement and associations with economic mobility. Nature 608, 108–121 (2022). https://doi.org/10.1038/s41586-022-04996-4

- Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital II: determinants of economic connectedness. Nature 608, 122–134 (2022). https://doi.org/10.1038/s41586-022-04997-3

Gli autori di questi due studi hanno creato una piattaforma dove è possibile esplorare i dati: https://www.socialcapital.org/

Inoltre, i dati sono scaricabili tramite il portale Humanitarian Data Exchange: https://data.humdata.org/dataset/social-capital-atlas

### Economic connectedness

Gli autori introducono una nuova misura del capitale sociale, la **connessione economica**, che cattura la misura in cui gli individui con uno status socioeconomico (SES) elevato sono amici di persone con un basso SES. Gli autori definiscono la **connessione economica** come la frazione di amici di una persona che guadagnano più del reddito medio, divisa per 0.5 (la frazione prevista se le connessioni sociali fossero casuali). Ad esempio, se il 40% dei collegamenti di una persona che guadagna al di sotto del reddito mediano sono con persone che guadagnano al di sopra del reddito mediano, allora la connessione economica è pari a 0.8; in altre parole, gli amici ad alto reddito sono sottorappresentati del 20% nel gruppo di amicizia di quella persona.

In [None]:
import pandas as pd

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
df = pd.read_csv('./social_capital_county.csv')

In [None]:
df.head()

In [None]:
df.info()

Il file README contiene una descrizione di tutte le variabili. Qui ne riportiamo solo alcune:
* `county`: 5-digit county FIPS code.
* `county_name`: Name of the county and state.
* `pop_2018`: Population in 2018.
* `num_below_p50`: Number of children with below-national-median parental household income.


* `ec_county`: Baseline definition of economic connectedness.
* `ec_se_county`: The standard error of economic connectedness, incorporating both sampling error and error from the addition of noise to protect privacy.
* `child_ec_county`: Childhood economic connectedness.
* `child_ec_se_county`: The standard error of childhood economic connectedness.


* `clustering_county`: The average fraction of an individual’s friend pairs who are also friends with each other.
* `volunteering_rate_county`: The percentage of Facebook users who are members of a group which is predicted to be about ‘volunteering’.
* `civic_organizations_county`: The number of Facebook Pages predicted to be “Public Good” pages.



## Selezione

Proviamo a selezionare i dati corrispondenti ad un solo Stato alla volta. 

In [None]:
df_alabama = df[df['county_name'].str.contains('Alabama')]

In [None]:
df_alabama

In [None]:
df_ny = df[df['county_name'].str.contains('New York')]

In [None]:
df_ny

In [None]:
alabama_ec_mean = df_alabama['ec_county'].mean()
ny_ec_mean = df_ny['ec_county'].mean()

In [None]:
alabama_ec_mean

In [None]:
ny_ec_mean

## GroupBy

Proviamo a calcolare la media dell'indice EC per ogni stato.

## Grafico

Costruiamo un grafico che mette in relazione la connessione economica e il tasso di volontariato nelle contee americane. 

In [None]:
plt.figure(figsize=(8,4))
plt.plot( df['ec_county'], df['volunteering_rate_county'], 'o', markersize=2)

plt.xlabel('EC index')
plt.ylabel('Volunteering rate')

In [None]:
df['ec_county'].mean()

In [None]:
df['volunteering_rate_county'].mean()

In [None]:
df[ df['volunteering_rate_county']>0.23 ]

# Parte 2: Introduzione a Geopandas

Geopandas è una libreria Python chec consente l'analisi di dati georeferenziati. 

In [None]:
import geopandas as gpd

In [None]:
usa = gpd.read_file('./cb_2018_us_county_5m/cb_2018_us_county_5m.shp')

In [None]:
usa.head()

In [None]:
usa.plot(figsize=(20,10))

In [None]:
geo_alabama = usa[ usa['STATEFP']=='01' ]

In [None]:
geo_alabama.plot()

In [None]:
geo_alabama

In [None]:
geo_alabama['county'] = geo_alabama['GEOID'].transform(int)

In [None]:
geo_alabama

In [None]:
df_alabama.head()

In [None]:
geo_alabama = pd.merge(geo_alabama, df_alabama, on='county', how='inner')

In [None]:
geo_alabama.plot(column='pop2018', cmap='BuGn', edgecolor='k', legend=True)

In [None]:
geo_alabama.plot(column='ec_county', cmap='BuGn', edgecolor='k', legend=True)

# Italia

In [None]:
italia = gpd.read_file('./Limiti01012023_g/ProvCM01012023_g/ProvCM01012023_g_WGS84.shp')

In [None]:
italia.head()

In [None]:
italia.DEN_UTS

In [None]:
italia.plot(figsize=(7,14))