# Corso di Probabilità e Statistica - Visualizzazione delle distribuzioni

In questo capitolo introduciamo alcuni metodi per visualizzare la distribuzione di un set di dati 


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats # Statistica
import seaborn as sns # Grafica avanzata

In [None]:
# Generare N numeri random Gaussiani
N=1000
x = np.random.randn(N)

In [None]:
# usiamo caratteri leggibili!
plt.rcParams.update({'font.size': 18})

**Scatter plot**

In [None]:
plt.plot(x,'.')
plt.title('Scatter Plot')
plt.xlabel('Index')
plt.ylabel('X')
plt.draw()

**Istogramma**

In [None]:
plt.hist(x)
plt.xlabel('X')
plt.ylabel('Frequency')
plt.title('Histogram, default settings')

In [None]:
# cambiare il numero di bins
plt.hist(x,bins=50)
plt.xlabel('X')
plt.ylabel('Frequency')
plt.title('Histogram, 50 bins')

**Esercizio**

Alcuni varianti da provare (una alla volta o combinate). 
Per maggiori istruzioni vedi:
https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.hist.html

range: tuple or None, default: None

density: bool, default: False

cumulative: bool or -1, default: False

histtype: {'bar', 'barstacked', 'step', 'stepfilled'}, default: 'bar'

log: bool, default: False

color: color or array-like of colors or None, default: None

*esempio plt.hist(x,bins=50, log=True, color="red") etc*

**KDE (kernel density estimation)**

vedi: https://seaborn.pydata.org/generated/seaborn.kdeplot.html

In [None]:
sns.kdeplot(x)
plt.xlabel('X')
plt.ylabel('Density')

**Istogramma + KDE : distplot**

Vedi: https://seaborn.pydata.org/generated/seaborn.distplot.html

In [None]:
sns.distplot(x)
plt.xlabel('X')
plt.ylabel('Density')

**Distribuzione cumulata** (con bins)

con scipy.stats

In [None]:
numbins = 100
cdf = stats.cumfreq(x,numbins)
plt.plot(cdf[0])
plt.xlabel('X')
plt.ylabel('Cumulative Frequency')
plt.title('Cumulative probablity density function')

Alternativa: matplotlib

In [None]:
plt.hist(x,bins=50,cumulative=True,density=True)
plt.xlabel('X')
plt.ylabel('Cumulative Frequency')
plt.show()

Alternativa: seaborn

In [None]:
sns.kdeplot(x , cumulative=True)
plt.xlabel('X')
plt.ylabel('Cumulative Frequency')

**Distribuzione cumulata** (senza bins)

Possiamo ottenere la distribuzione cumulata in modo indipendente dai bin semplicemente ordinando i numeri random e plottandoli in funzione del rank /N

In [None]:
y=np.sort(x)
idx = [ i/len(y) for i in range(len(y))]
plt.xlabel('X')
plt.ylabel('Cumulative Frequency')
plt.plot(y,idx)

Per precisione usiamo degli steps (più corretto per pochi dati)

In [None]:
z=np.random.randn(20)
y=np.sort(z)
idx = [ i/len(y) for i in range(len(y))]
plt.xlabel('Z')
plt.ylabel('Cumulative Frequency')
plt.step(y,idx, label="Steps")
plt.plot(y,idx, color="red" , label="Line")