# La statistica in Python: introduzione
## Hello, World!

Quando si impara un nuovo linguaggio di programmazione, tradizionalmente, il primo programma che si implementa si limita a stampare in output il messaggio "Hello, world!".

Prova a eseguire e modificare il seguente esempio (seleziona la cella e premi MAIUSC+ENTER oppure il tasto "Run").

In [None]:
print("Hello, World!")

"print" è una funzione predefinita del python che stampa in output il suo argomento. "Hello, World!", scritto tra virgolette, è una stringa, cioè una sequenza di caratteri.

## Operazioni aritmetiche

Il python può eseguire semplici calcoli aritmetici con gli operatori: \*, /, +, -, //, %, \**

Prova a capire il comportamento di questi operatori modificando i seguenti esempi:

In [None]:
11+4

In [None]:
11*4

In [None]:
11/4

In [None]:
11-4

In [None]:
11//4

In [None]:
11%4

In [None]:
11**4

Con le parentesi possiamo scrivere espressioni aritmetiche più complicate. Prova a modificare il seguente esempio.

In [None]:
(2**4+1)/3-2*4

## Le variabili

Il nostro obiettivo è studiare la statistica e quindi i dati: un dato è un'informazione elementare che rappresenta un valore. Per gestire i singoli dati, i linguaggi di programmazione introducono le variabili: dei nomi associati a valori che sono memorizzati nella memoria del computer.

L'operatore "=" assegna un valore a una variabile. Prova a modificare il seguente esempio

In [None]:
a = 2
b = 3
c = a + b
print(a, b, c)

Ogni variabile ha un tipo, associato al tipo di dato che può memorizzare (numeri interi, decimali, stringhe, etc...). Le variabili a, b e c sono variabili numeriche intere:

In [None]:
print(type(a))
print(type(b))
print(type(c))

Oltre agli interi, i tipi più comuni di variabili sono:

-- numeri reali (in inglese "floating point numbers", memorizzati in memoria in forma approssimata):

In [None]:
f = 1.234
print(type(f))

-- sequenze di caratteri (stringe, in inglese "string"):

In [None]:
c = 'Ciaone!'
print(type(c))

-- variabili Booleane che possono avere valore "True" o "False":

In [None]:
p1 = 2 < 3
p2 = 2 > 3
print(p1)
print(type(p1))
print(p2)
print(type(p2))

Esistono anche operatori logici tra variabili: l'intersezione logica "and", l'unione logica "or" e la negazione "not".

Prova a modificare il seguente esempi:

In [None]:
print((2>3) or (3>2))
print((2>3) and (3>2))
print(not(2>3))

## Memorizzare i dati: gli array

L'obiettivo di questo modulo è imparare ad analizzare i dati per ricavarne informazioni statistiche. Per fare questo non basta memorizzare singoli valori in variabili, ma abbiamo bisogno di memorizzare e manipolare grandi quantità di valori. Serve, quindi, raggruppare i nostri dati in strutture, che li rendano facilmente accessibili: le strutture dati. La struttura dati più semplice è l'array o vettore: una sequenza omogenea di variabili indicizzate da un numero intero.

Prova a modificare i seguenti esempi:

In [None]:
A = [11, 22, 33, 44, 55]
print(A)
print(type(A))

Nota che il tipo di questo array è "list". Approfondiremo questo aspetto in futuro, perché è un argomento avanzato del python.

Il seguente codice legge e sovrascrive singoli elementi dell'array.

In [None]:
print(A[0])
print(A[3])

In [None]:
A[2] = 66
print(A)

## Leggere i dati da un file

Nella stessa cartella in cui è salvato questo notebook Jupyter è presente il file di testo "dati1.txt", che contiene una sequenza di numeri.

Prova ad aprire il file con un editor di testo.

Il seguente codice carica i dati dal file in un array. Useremo questo array per calcolare dati statistici sui numeri nel file.

Le righe che iniziano con "#" sono commenti e sono ignorate dall'interprete Python: servono a noi esseri umani per capire cosa fa il codice.

In [None]:
# numpy è un modulo Python che contiene funzioni utili nel calcolo scientifico
import numpy

# con questo comando apriamo il file "dati1.txt"
# "file" è un tipo speciale di variabile, chiamato oggetto, che indica il file "dati1.txt"
file = open("dati1.txt")

# la funzione loadtxt fa parte del modulo numpy
# il risultato è un array che contiene tutti i numeri nel file "dati1.txt"
dati = numpy.loadtxt(file)

print(dati)

## Funzioni statistiche di base

Una volta memorizzati i dati nell'array, possiamo usare le funzioni predefinite del python per analizzare questi dati. Ad esempio:

In [None]:
# Il numero di elementi nell'array
print("Numero di elementi: ", len(dati))

# Il massimo e il minimo valore

print("Massimo: ", max(dati))
print("Minimo: ", min(dati))

# La somma di tutti gli elementi

print("Somma: ", sum(dati))

# Possiamo calcolare semplicemente le media aritmetica

print("Media: ", sum(dati) / len(dati) )

Come esercizio, calcola la semidispersione.

Il modulo "numpy" contiene funzioni più avanzate, anche di natura statistica. Ad esempio:

In [None]:
# La media

print("Media: ", numpy.mean(dati))

# La mediana 

print("Mediana: ", numpy.median(dati))

# La dispersione dei valori (massimo - minimo)

print("Dispersione: ", numpy.ptp(dati))

# Funzioni statistiche più avanzate: deviazione standard e varianza

print("Deviazione standard: ", numpy.std(dati))
print("Varianza: ", numpy.var(dati))

Possiamo verificare il calcolo delle mediana, ordinando ("sort" in inglese) l'array:

In [None]:
print(numpy.sort(dati))

Possiamo rappresentare graficamente i dati con un istogramma:

In [None]:
# matplotlib è uno dei moduli python che permettono di generare immagini
# pyplot è una parte di matplotlib che ha funzioni simili al linguaggio MATLAB
from matplotlib import pyplot as plt

plt.hist(dati, bins=10)