<img src="images/logo-uniba.png" style="width:200px" align="right"> 
<img src="images/pyt.png" style="width:150px" align="left"> 
<br />
<br />

## Python Basics 3/12/2019
Cristina Muschitiello - Infocamere, FAO, CREA


____

# PARTE 2: IL LINGUAGGIO

# 2.3. La statistica

___

## INDICE DEGLI ARGOMENTI

* CARICAMENTO DELLE LIBRERIE
* DATI DI ESEMPIO:
   * Iris Data
   * Alcohol Consumption by cuntry
   * Titanic Data
* TABELLE DI FREQUENZA
   * Tabelle singole per variabili quantitative o categoriali
   * Tabelle singole per variabili continue
   * Tabelle doppie
* ALCUNE RAPPRESENTAZIONI GRAFICHE
   * Istogramma
   * Diagramma a barre
   * Diagramma a linee
   * Diagramma a Torta
   * Boxplot
* MEDIE E VARIABILITA'
   * Media aritmetica 
   * Altri indicatori di tendenza centrale
   * Deviazione Standard
   * Varianza
* SCATTERPLOT, COVARIANZA E CORRELAZIONE
___

## CARICAMENTO DELLE LIBRERIE

Nel caso in cui si intenda adoperare una libreria esterna in un nostro codice Python, occorre preventivamente importarla.


In [None]:
# Import Libraries

import numpy as np
import pandas as pd
import scipy as sp
import seaborn as sns
import statistics as st

## DATI DI ESEMPIO

### Iris Data

<img src="images/irisClass.jpg" style="width:400px" align="left"> 

<img src="images/iris_with_labels.jpg" style="width:200px" align="left"> 

In [None]:
irisDf = sns.load_dataset('iris')

In [None]:
print(irisDf)

In [None]:
irisDf

### Alcohol Consumption by Country
Dati direttamente saricabili dal web

In [None]:
alcDf = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2010_alcohol_consumption_by_country.csv')

In [None]:
alcDf

## Titanic data 

Dati da scaricare e salvare sul computer.

I dati sono [scaricabili qui](https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html)

In [None]:
titDf = pd.read_csv("data/titanic.csv") 

In [None]:
titDf

## TABELLE DI FREQUENZA
### Tabelle singole per variabili quantitative o categoriali

In [None]:
# Sesso dei passeggeri del Titanic
## Modo1 (funzione della libreria pandas)
pd.crosstab(index=titDf["Sex"],columns="count") 

In [None]:
## Modo2 (modulo della libreria di default di python)
titDf.Sex.value_counts()

In [None]:
# Numero di passeggeri per classe
pd.crosstab(index=titDf["Pclass"],columns="count")

In [None]:
# Specie di iris
irisDf.species.value_counts()

In [None]:
pd.crosstab(index = irisDf["species"],columns = "count")

### Tabelle singole per variabili continue

In [None]:
# Larghezza delle foglie di iris
pd.cut(irisDf['sepal_width'], bins=4)

In [None]:
irisDf["classes"] = pd.cut(irisDf['sepal_width'], bins=4)
irisDf.classes.value_counts()

In [None]:
pd.crosstab(index = irisDf["classes"],columns="count")

### Tabelle Doppie

In [None]:
# Sesso per classe dei passeggeri del Titanic
sex_class = pd.crosstab(index = titDf["Sex"],
            columns = titDf["Pclass"])
survived_class = pd.crosstab(index = titDf["Pclass"],
            columns = titDf["Survived"])

In [None]:
survived_class

In [None]:
sex_class

In [None]:
# Aggiunta delle colonne e righe marginali
survived_class = pd.crosstab(index = titDf["Pclass"],
            columns = titDf["Survived"],margins=True)
survived_class

In [None]:
# Rinominare righe e colonne
survived_class.columns = ["No","Si","Totale"]
survived_class.index = ["Prima","Seconda","Terza","Totale"]
survived_class

## ALCUNE RAPPRESENTAZIONI GRAFICHE: Matplotlib e Pandas

### Istogramma

In [None]:
import matplotlib
import matplotlib.pyplot as plt

In [None]:
# Istogramma semplice
plt.hist(irisDf["sepal_length"], bins=20)
plt.ylabel('sepal_length')
plt.show()

In [None]:
# Istogramma con densità (con seaborn)
sns.distplot(irisDf["sepal_length"] )

In [None]:
# Istogramma multipli
irisDf.plot.hist(subplots=True, layout=(2,2), figsize=(20, 10), bins=20)

In [None]:
plt.subplots(figsize=(7,6), dpi=100)
sns.distplot( irisDf.loc[irisDf.species=='setosa', "sepal_length"] , color="dodgerblue", label="Setosa")
sns.distplot( irisDf.loc[irisDf.species=='virginica', "sepal_length"] , color="orange", label="virginica")
sns.distplot( irisDf.loc[irisDf.species=='versicolor', "sepal_length"] , color="deeppink", label="versicolor")

plt.title('Iris Histogram')
plt.legend();

### Diagramma a barre

In [None]:
### Specie di iris
# Verticale
irisDf['species'].value_counts().plot(kind='bar')

In [None]:
### Specie di iris
# Verticale
irisDf['species'].value_counts().plot(kind='barh')

In [None]:
# Primi 10 paesi consumatori di alcohol
pl = alcDf[0:10]["alcohol"].plot(kind="barh")
# pl.set_yticklabels(alcDf[0:10]["location"])
# pl.invert_yaxis()
# pl.plot()

### Diagramma a torta

In [None]:
# Primi 10 paesi consumatori di alcohol
fig, ax = plt.subplots(figsize=(10,10))
ax.pie(alcDf[0:10]["alcohol"], labels=alcDf[0:10]["location"], autopct='%.1f%%')
plt.show()


### Box Plot

In [None]:
# Boxplot per singolo gruppo
sns.boxplot( y=irisDf["sepal_length"] )

In [None]:
# Una variabile numerica e più gruppi
sns.boxplot(x=irisDf["species"], y=irisDf["sepal_length"] )


3 - Several numerical variable
Finally we can study the distribution of several numerical variables, let’s say sepal length and width:

In [None]:
# Più variabili numeriche
sns.boxplot(data=irisDf.iloc[:,0:2])

___
## MEDIE E VARIABILITA'


### Media aritmetica

$\begin{align*}
\mu = \sum_{i=1}^N{x_i}
\end{align*}
$

In [None]:
st.mean(alcDf['alcohol'])

In [None]:
mean = st.mean(alcDf['alcohol'])
print("La media è {}".format(mean))

In [None]:
mean = st.mean(alcDf['alcohol'])
print("La media è {}".format(round(mean,2)))

### Altri indicatoridi tendenza centrale

In [None]:
# Mediana
st.median(alcDf['alcohol'])

In [None]:
# Media armonica
st.harmonic_mean(irisDf['sepal_length'])

In [None]:
# Moda
st.mode(irisDf['sepal_length'])

In [None]:
# Quantili con pandas
irisDf["sepal_length"].quantile([.25, .5, .75])

In [None]:
irisDf.quantile([.25, .5, .75], axis = 0)

### Deviazione Standard

In [None]:
st.pstdev(alcDf['alcohol'])

In [None]:
st_dev = st.pstdev(alcDf['alcohol'])

print("La deviazione standard è {}".format(round(st_dev,2)))

### Varianza

In [None]:
st.pvariance(alcDf['alcohol'])

___
## SCATTERPLOT, COVARIANZA  E CORRELAZIONE 

In [None]:
# Correlazione fra larghezza e lunghezza dei petali di iris
data1 = irisDf["petal_length"]
data2 = irisDf["petal_width"]
plt.scatter(data1, data2)
plt.show()

In [None]:
# Covarianza
np.cov(data1,data2)

In [None]:
### Correazione
# Pearson: valore e pvalue
sp.stats.pearsonr(data1,data2) 

In [None]:
### Correazione
# Spearman: valore e pvalue
sp.stats.spearmanr(data1,data2) 