Statistica Elementare con Numpy
===============================

<img src="../Humour/extrapolating1.png" width="500" align="center"/>

In [None]:
import numpy as np
import matplotlib.pyplot as plt

Dati in un array numpy.

In [None]:
dati = np.array([1.95,1.96,1.9,1.9,1.84,1.81,2.06,1.99,1.93,1.97,2.02,1.92,1.95,1.88,1.87,2.03,1.85,2.08,1.96,1.81,
                2.07,1.91,1.79,1.99,1.97,1.95,1.96,1.93,1.83,2.09,2.02,2.09,1.84,1.86,1.96,2.03,1.93,1.9,1.94,1.87,
                1.97,1.91,1.87,1.81,2.06,2.02,1.96,1.81,1.93,2.03,1.92,1.96,1.8,1.95,1.9,2.02,2.03,1.9,2.03,2.02,
                1.96,1.9,1.98,1.87,1.9,1.89,1.84,2.06,1.93,2.06,1.93,1.93,1.9,1.9,1.9,1.93,1.86,1.83,1.96,1.81,2.03,
                1.98,1.84,1.86,1.96,1.81,1.98,1.84,1.86,1.96,1.92,1.96,1.85,2.04,2,1.92,1.9,2.15,1.94,1.92])

In [None]:
num_elementi = dati.size
num_elementi

Dati al quadrato

In [None]:
dati_sq = dati*dati

Media utilizzando solo la funzione sum

In [None]:
media1 = dati.sum()/num_elementi
media1

Media utilizzando la funzione mean di numpy

In [None]:
media2 = dati.mean()
media2

Varianza calcolata espicitamente

In [None]:
varianza1 = (dati_sq - 2.*media1*dati + media1*media1).sum()/num_elementi # Notice array + const*array + const
varianza1

Varianza empirica

In [None]:
varianzaEmp = (dati_sq - 2.*media1*dati + media1*media1).sum()/(num_elementi-1)
varianzaEmp

In [None]:
varianzaEmp1 = (dati_sq - media1*media1).sum()/(num_elementi-1) 
varianzaEmp1

Varianza calcolata usando la funzione var di numpy (divide per N).

In [None]:
varianza2 = dati.var()
varianza2

Deviazione standard calcolata dalla varianza e usando la funzione std di numpy

In [None]:
deviazione_std1 = np.sqrt(varianza2)
deviazione_std1

In [None]:
deviazione_std2 = dati.std()
deviazione_std2

Selezione dei dati a meno di 3*sigma da media1

In [None]:
dati1 = np.array([n for n in dati if np.absolute(n - media1) < 3.*deviazione_std1])

In [None]:
dati1.size

Nessun dato viene scartato. Test: vediamo quanti dati sono compresi in un intervallo di +/- sigma

In [None]:
dati1 = np.array([n for n in dati if np.absolute(n - media1) < deviazione_std1])

In [None]:
dati1.size

Istogramma delle frequenze

In [None]:
min = dati.min()
min

In [None]:
max = dati.max()
max

In [None]:
nbins = 10
xrange = (1.75,2.20)

In [None]:
fig, ax = plt.subplots()
nevent, bins, patches = ax.hist(dati, nbins, range=xrange)

In [None]:
nevent       # Numero di eventi in ciacun bin

In [None]:
bins         # Estremi dei bin

I patches sono i rettangoli (blu in questo caso) che vengono usati per disegnare l'istogramma.

<img src="../Humour/NormalDistribution.jpg" width="400" align="left"/>

Distribuzione gaussiana casuale con stessa media e deviazione standard di quella osservata. Istogramma delle frequenze.

In [None]:
gaussdati = media1 + deviazione_std1*np.random.randn(100)

In [None]:
fig1, ax1 = plt.subplots()
n1, bins1, patches1 = ax1.hist(gaussdati, nbins, range=xrange)

In [None]:
def ek(xval,ave,stdev):
    return np.exp(-((xval-ave)/stdev)**2/2.0)/stdev/np.sqrt(2.0*np.pi)

In [None]:
halfBinWidth = (bins[1]-bins[0])/2.

Dall'array bins che contiene gli estremi dei bin costruiamo l'array dei punti medi dei bin (bins + halfBinWidth), eliminando l'ultimo elemento (np.delete(   ,-1)).

In [None]:
points = np.delete(bins + halfBinWidth,-1)
points

Test that the approximate integral of ek is equal to one.

In [None]:
ek(points,media1,deviazione_std1).sum()*halfBinWidth*2.

In [None]:
ekval = ek(points,media1,deviazione_std1)*halfBinWidth*2.*num_elementi

Frequenze osservate vs frequenze attese

In [None]:
print("frequenze osservate",nevent)
print("frequenze attese   ",ekval)

In [None]:
chisq = ((ekval-nevent)**2/ekval).sum()
chisq

<img src="../Humour/extrapolating2.png" width="850" align="left"/>

Numeri Casuali
---------------

In [None]:
import numpy as np
import matplotlib.pyplot as plt         # plotting of results

#help(np.random.normal)

- Come generare numeri distribuiti secondo la distribuzione normale standard $\mu = 0.0,\, \sigma = 1.0\,$. 

In [None]:
m1 = np.random.normal(size=2000)

In [None]:
nbins = 30
xrange = (-5,5)    # ntupla
fig, ax = plt.subplots()
nevent, bins, patches = ax.hist(m1, nbins, range=xrange)

- Come generare numeri distribuiti secondo la distribuzione normale con $\mu = -2.0,\, \sigma = 0.3\,$. 

In [None]:
m2 = np.random.normal(loc=-2., scale=0.3, size=2000)

In [None]:
nbins = 300
xrange = (-5,1)    # ntupla
fig, ax = plt.subplots()
nevent, bins, patches = ax.hist(m2, nbins, range=xrange)

- Come generare numeri distribuiti secondo la distribuzione uniforme standard $[0,1]$. 

In [None]:
help(np.random)

In [None]:
m3 = np.random.random_sample(size=2000)

In [None]:
nbins = 12
xrange = (-0.1,1.1)    # ntupla
fig, ax = plt.subplots()
nevent, bins, patches = ax.hist(m3, nbins, range=xrange)

In [None]:
help(np.random.random_integers)

In [None]:
m4 = np.random.random_integers(0,high=100,size=20)
m4

In [None]:
m4 = np.random.randint(0,101,size=20)
m4

    Compatibility functions
    =============================================================================
    rand                 Uniformly distributed values.
    randn                Normally distributed values.
    ranf                 Uniformly distributed floating point numbers.
    randint              Uniformly distributed integers in a given range.
    =============================================================================
    

In [None]:
#%help(np.random.random)