# Corso di Probabilità e Statistica - Analisi statistica e visualizzazione di dati con pandas

In questo capitolo useremo la libreria pandas per analizzare dati in modo qualitativo.

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
from scipy.stats import trim_mean
from statsmodels import robust
import seaborn as sns
import matplotlib.pylab as plt

## Esempio: murder rate (USA)
Nell'esempio successivo ci viene fornito un file con i tassi di omicidio negli stati USA. L'obiettivo è di aprire il file fare qualche analisi statistica di base e esplorare/visualizzare il database.


In [None]:
# importiamo i dati
state = pd.read_csv("../data/state.csv")

In [None]:
# apriamo il file (le prime 8 righe)
print(state.head(8))

In [None]:
# calcoliamo la popolazione media
state['Population'].mean()

In [None]:
# calcoliamo il tasso di omicidio medio
state['Murder.Rate'].mean()

In [None]:
# mediana
state['Population'].mean()

In [None]:
# standard deviation
state['Population'].std()

In [None]:
# quantili
state['Murder.Rate'].quantile([0.05, 0.25, 0.5, 0.75, 0.95])


In [None]:
# usiamo caratteri leggibili!
plt.rcParams.update({'font.size': 18})
#istogramma
state["Population"].hist()
plt.xlabel('Population')
plt.ylabel('Frequency')
plt.title('Histogram')

In [None]:
x=state["Population"]
y=state["Murder.Rate"]
plt.scatter(x,y)
plt.xlabel('Population')
plt.ylabel('Murder Rate')

In [None]:
#stessa cosa con seaborn
sns.scatterplot(data=state, x="Population", y="Murder.Rate")

In [None]:
# classifichiamo i dati a seconda della popolazione
state["Population High"]=(state["Population"]>1e7)

In [None]:
# Plot categorici
sns.boxplot(data=state, x="Population High", y="Murder.Rate" )

In [None]:
# Definiamo una nuova colonna 
state.loc[state["Population High"],"Population Level"]="High"
state.loc[~state["Population High"],"Population Level"]="Low"

In [None]:
# Plot categorico
sns.boxplot(data=state, x="Population Level", y="Murder.Rate" )

In [None]:
# Plot categorico (swarmplot)
sns.swarmplot(data=state, x="Population Level", y="Murder.Rate" )

In [None]:
#Coloriamo a seconda del valore di una variabile
sns.scatterplot(data=state, x="Population", y="Murder.Rate", hue="Population Level")

### Esempio: traffico aereo

In questo esempio utilizziamo un file che riporta i ritardi del traffico aereo di una serie di compagnie aeree.

In [None]:
# levggiamo i dati 
airlines = pd.read_csv("../data/airline_stats.csv")

In [None]:
# troviamo la lista di compagnie aeree nel dataframe
airlines["airline"].unique()

In [None]:
#guardiamo il file
airlines

**Statistica**

Calcoliamo la media e deviazione standard dei ritardi per compagnia. Abbiamo tre tipologie di ritardo: carrier_delay (dovuto alla compagnia) atc_delay (dov uto all'aeroporto) weather_delay (dovuto al meteo).

Per questo raggrupiamo usando groupby()
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html



In [None]:
medie=airlines.groupby("airline").mean()
dev_standard=airlines.groupby("airline").std()

In [None]:
medie

In [None]:
dev_standard

Quale è la causa principale di ritardo?

In [None]:
airlines.mean()

**Plot categorici**

In [None]:
# Plot categorico
ax=sns.boxplot(data=airlines, x="airline", y="pct_atc_delay" )

Come rendere leggibili le label sull'asse x?

In [None]:
# Plot categorico con asse x leggibile
ax=sns.boxplot(data=airlines, x="airline", y="pct_atc_delay" )
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)

In [None]:
# Violinplot
ax=sns.violinplot(data=airlines, x="airline", y="pct_carrier_delay" )
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)

Se vogliam confrontare sullo stesso grafico tutti i ritardi per tutte le compagnie, possiamo riarrangiare il nostro dataframe con pd.melt
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
airlines_melt=pd.melt(airlines,id_vars=["airline"],value_vars=["pct_carrier_delay","pct_atc_delay","pct_weather_delay"])

In [None]:
airlines_melt

In [None]:
# Plot categorico: boxplot
ax=sns.boxplot(data=airlines_melt, x="airline", y="value", hue="variable", palette="Blues")
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)

In [None]:
# Plot categorico: barplot (senza autliers)
ax=sns.boxplot(data=airlines_melt, 
               x="airline", y="value", 
               hue="variable", palette="Blues",
              fliersize=0)
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)

In [None]:
# Plot categorico: barplot
ax=sns.barplot(data=airlines_melt, x="airline", y="value", hue="variable", palette="Blues")
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)

### Esercizio

**Introduzione**
In questo esercizio utilizzeremo un nuovo file di dati per mettere in pratica quanto discusso negli esempi. Per prima cosa carichiamo 
il file ../data/kc_tax.csv.gz

In [None]:
kc_tax = pd.read_csv("../data/kc_tax.csv.gz")

In [None]:
# apriamo il file
kc_tax

In [None]:
#eliminiamo i NaN
kc_tax=kc_tax.dropna()

In [None]:
#cambiamo il nome delle colonne
kc_tax.columns=["Valore catastale","Metri quadrati","CAP"]
# prendiamo un sottoinsieme del database
kc_tax0 = kc_tax.loc[(kc_tax.CAP < 98020)]

**Svolgimento:** 
A questo punto possiamo esplorare alcune proprietà di questo database, ad esempio:

- Studiare quale sia la correlazione tra valore catastale e metri quadrati

- Studiare come varia il valore catastale a seconda del CAP

- Studiare come varia la metratura media a seconda del CAP

**Suggerimenti:**

Per visualizzare la correlazione possiamo ad esempio  
fare uno scatterplot dei dati grezzi "Metri quadri" vs "Catastale".

Visto che i dati sono molti possiamo anche raggrupparli secondo il CAP (usando groupby("CAP").mean() ) e poi plottare le medie

Proviamo ad usare sns.barplot() o sns.boxplot() 

Lavoriamo prima con il dataframe "piccolo" kc_tax0 e poi proviamo con il dataframe complete kc_tax


### La matrice di covarianza

In questo esempio costruiamo la matrice di covarianza a partire da un set di dati finanziari (il prezzo delle azioni SP500).

In [None]:
# importiamo i dati
sp500_sym = pd.read_csv("../data/sp500_sectors.csv") # simboli
sp500_px = pd.read_csv("../data/sp500_data.csv.gz", index_col=0) # dati di borsa

In [None]:
# Table 1-7
# Consideriamo il settore telecomunicazioni
telecomSymbols = sp500_sym[sp500_sym['sector'] == 'telecommunications_services']['symbol']

# Filtriamo i dati considerando il periodo 07/2012-06/2015
telecom = sp500_px.loc[sp500_px.index >= '2012-07-01', telecomSymbols]
telecom.corr()
print(telecom)

In [None]:
# Focalizziamoci su di un sottoinsieme dei dati 
etfs = sp500_px.loc[sp500_px.index > '2012-07-01', 
                    sp500_sym[sp500_sym['sector'] == 'etf']['symbol']]
print(etfs.head())

In [None]:
# calcoliamo la matrice di covarianza
etfs.corr()

In [None]:
# Mostriamo la matrice di covarianza come heatmap
fig, ax = plt.subplots(figsize=(5, 4))
ax = sns.heatmap(etfs.corr(), vmin=-1, vmax=1, 
                 cmap="coolwarm", #colormap divergente
                 ax=ax)

plt.tight_layout()
plt.show()