$Cov(A,B) = \frac{(x_1 - \mu_x)(y_1 - \mu_y) + (x_2 - \mu_x)(y_2 - \mu_y) + \dots + (x_n - \mu_x)(y_n - \mu_y)}{n-1}$

Abbiamo misurato la lunghezza dell'omero e del femore di un feto in momenti diversi della sua crescita.

Vogliamo scrivere del codice per calcolare la covarianza di queste due variabili. 

In [None]:
import numpy

settimana = [12, 16, 20, 24, 28, 32, 36, 40]
omero = [9, 20, 30, 40, 48, 55, 61, 66]
femore = [8, 20, 31, 42, 52, 61, 68, 74]

media_omero = numpy.mean(omero)
media_femore = numpy.mean(femore)
n = len(settimana) # Utilizziamo la funzione len per contare gli elementi della lista settimana

covarianza = 0
for i in range(n): # La funzione range ritorna i numeri da 1 a n
  covarianza += (omero[i] - media_omero) * (femore[i] - media_femore)

covarianza_metodo_uno = covarianza/(n-1)

covarianza_metodo_due = numpy.cov(omero, femore, ddof=1)

print('Metodo uno: ' + str(covarianza_metodo_uno))
print('Metodo due: ' + str(covarianza_metodo_due))

Notiamo che la nostra funzione  restituisce un solo valore: la covarianza tra l'omero e il femore.


Numpy invece restituisce una lista contente due liste, con in tutto 4 valori.
Il primo valore, 408.125, è la varianza dei valori di omero; il secondo e il terzo valore (identici), sono la covarianza tra l'omero e il femore (il valore che abbiamo calcolato anche noi!), il quarto valore, 553.14285714, è la varianza dei valori del femore.

Proviamo ora a calcolare la correlazione. 

Correlazione: $\rho_{AB} = \frac{COV(A,B)}{\sigma_A \sigma_B}$

In [None]:
corr = numpy.corrcoef(omero,femore)

# Un trucchetto per andare a capo nei print; la sequenza "\n" viene intrepretata
# come "vai a capo"

print('Correlazione: \n' + str(corr))

Anche in questo caso, numpy ritorna quattro valori: due (uguali) sono la correlazione tra omero e femore; gli altri invece sono due 1: la correlazione perfetta di ogni variabile con se stessa. 

**ESERCIZIO 1:** Due variabili hanno correlazione positiva quando al crescere di una corrisponde una crescita dell'altra; hanno invece correlazione negativa quando al crescere di una corrisponde un decrescere dell'altra. 

Scrivi due liste e pensi abbiano correlazione negativa e poi verificalo col codice.

In [None]:
# Scrivi il tuo codice qui


# Regressione Lineare

Homer ha misurato la quantità di birra che ha consumato fino a un certo mese dell'anno.

Cerchiamo di costruire un modello di regressione lineare per predire la quantità di birre totali consumate da Homer col passare dei mesi. 

In [None]:
# I valori che abbiamo misurato
mese = numpy.array([1, 2, 3, 4, 5])
birre = numpy.array([10, 22, 28, 41, 51])

# Cerchiamo la retta che meglio approssima i nostri valori
retta = numpy.polyfit(mese, birre, deg=1)   # La funzione polyfit trova il polinomio
                                            # che meglio approssima i nostri dati
                                            # Vogliamo una retta, cioè un polinomio di grado 1

Qual è la retta che abbiamo trovato? 
Stiamo cercando una retta della forma

$$birre = a + b_0*mese$$

Il metodo polyfit retituisce i coefficienti [$b_0$, $a$].

Visualizziamoli:

In [None]:
print(retta)

Avremo quindi:

$$birre = 0.1 + 10.1*mese$$

Per esempio, per il mese 1, avremmo:
$$birre = 0.1 + 10.1*1 = 10.2$$
Per il mese 4
$$birre = 0.1 + 10.1*4 = 40.5$$


Possiamo stampare i valori che sono stati stimati secondo il nostro modello:

In [None]:
retta = numpy.polyfit(mese, birre, 1)

# la funzione numpy.polyval() chiede:
# i coefficienti del polinomio (retta)
# i punti in cui valutare il polinomio (mese).

# numpy.polyval restituisce una lista, con i valori del polinomio
# per i punti specificati

birre_stimate_retta = numpy.polyval(retta, mese)

In [None]:
print(birre_stimate_retta)

Possiamo ora visualizzare la retta stimata dal nostro modello. Per fare questo utilizzeremo la libreria `matplotlib`, che serve a visualizzare grafici. 

In [None]:
import matplotlib.pyplot as plt # Libreria per i grafici

# NOTA: ci sono due cose particolari
#       1) ".pyplot" -> non preoccupatevene
#       2) "as plt"  -> quando le librerie hanno dei nomi molto lunghi, possiamo
#                       definire un "soprannome" per chiamarla facilmente nel testo
#       facciamo un esempio:

import numpy
import numpy as np 
# Abbiamo importato numpy due volte, ma la seconda volta gli abbiamo dato un
# soprannome.

# Questi due codici fanno la stessa cosa:
print(numpy.sqrt(9))
print(np.sqrt(9))

La funzione per disegnare un grafico è ``matplotlib.pyplot.plot()``; visto che abbiamo definito un soprannome per la libreria, per noi sarà semplicemente ``plt.plot()``.

Vediamo come funziona:

In [None]:
# il formato è:
# plt.plot(x,y)
# quindi la funzione vuole due liste:
# x -> valore sull'asse delle x
# y -> valore sull'asse delle y

plt.plot(mese, birre)

Possiamo anche specificare alcune proprietà della nostra linea per migliorare la visualizzazione:

In [None]:
plt.plot(mese, birre,'-xr')
# Così visualizzeremo i valori utilizzando:
# 1) Una linea continua  ----> '-'
# 2) Con delle croci dove abbiamo effettivamente dei dati ----> 'x'
# 3) e di colore rosso ----> 'r'

In [None]:
plt.plot(mese, birre_stimate_retta,'--ob') 
# Così visualizzeremo la nostra stima:
# 1) Una linea tratteggiata  ----> '--'
# 2) Con dei cerchi dove abbiamo effettivamente dei dati ----> 'o'
# 3) e di colore blu ----> 'b'

Così separati però sono difficili da confrontare queste due linee. Se inseriamo entrambi i ``plt.plot`` nella stessa cella, possiamo visualizzare i valori effettivi e la nostra stima insieme.

In [None]:
plt.plot(mese, birre,'-xr')
plt.plot(mese, birre_stimate_retta,'--ob') 

Possiamo vedere che il nostro modello non è perfetto, ma sembra abbastanza buono: i valori stimati (pallini blu), sono molto vicini ai valori veri: x rosse.

**ESERCIZIO 2:** se scriviamo l'istruzione

``differenza = (birre - birre_stimate_retta)**2``

otteniamo una nuova lista, dove in ogni posizione troviamo la differenza tra la nostra stima e il valore reale. Vogliamo:

1) Stampare il valore di queste differenze (quanto sbagliamo ogni mese)

2) Stampare la media di queste differenze (quanto sbagliamo in media)

3) Visualizzare il grafico di questa lista (quindi sull'asse delle x i mesi, e sull'asse delle y il nostro errore). Il grafico dovrà essere una linea tratteggiata, con delle croci sui nostri valori, e blu

In [None]:
# Inserire il codice qui


## Regressione polinomiale

Sopra abbiamo visto che per stimare la retta migliore che modella i nostri dati possiamo usare questo comando:

``retta = numpy.polyfit(mese, birre, 1)``

volendo una retta abbiamo chiesto un polinomio di grado ``1``. Possiamo però chiedere anche un grado più alto. Vediamo cosa succede se vogliamo invece approssimare i nostri dati con una parabola, quindi con un polinomio di grado ``2``. 

In [None]:
parabola = numpy.polyfit(mese,birre, 2) # Parabola: polinomio di grado 2
print("I coefficienti della parabola sono: " + str(parabola))

Il nostro modello è perciò:

$$birre\_stimate = 0.21*mese^2 + 8.81*mese + 1.6$$

Quindi prima di tutto scopriamo nuovamente quali sono le stime del nostro modello:

In [None]:
birre_stimate_parabola = numpy.polyval(parabola,mese)
print("La stima della parabola è:", birre_stimate_parabola)

In [None]:
# Ora stampiamo il nostro grafico:
plt.plot(mese,birre,'-xr')
plt.plot(mese,birre_stimate_parabola,'--ob') 

La differenza non sembra molta. Proviamo a usare un polinomio di grado 3:

In [None]:
polinomio = np.polyfit(mese,birre, 3)
birre_stimate_grado_tre = np.polyval(polinomio,mese)

plt.plot(mese,birre,'-xr')
plt.plot(mese,birre_stimate_grado_tre,'--ob') 
plt.show()

Ancora una volta, sembra più o meno simile. Vediamo quindi l'errore dei tre metodi diversi:

In [None]:
err_retta = np.sum((birre - birre_stimate_retta)**2)/ len(birre)
err_parabola = np.sum((birre - birre_stimate_parabola)**2)/ len(birre)
err_grado_tre = np.sum((birre - birre_stimate_grado_tre)**2)/ len(birre)

print('errore_linea: ' + str(err_retta))
print('errore_parabola: ' + str(err_parabola))
print('err_grado_tre: ' + str(err_grado_tre))

Sembra effettivamente che al crescere del grado l'approssimazione sia migliore. Per verificare il comportamento del nostro modello, vediamo come si comporta su dei dati che non abbiamo usato in precedenza per creare il modello. Questa è una pratica molto comune in data science (ma nella scienza in generale), per valutare la qualità del proprio !

In [None]:
# Questi sono i nostri dati di prima, quelli che abbiamo usato
# per "addestrare" il nostro modello
mese = np.array([1, 2, 3, 4, 5])
birre = np.array([10, 22, 28, 41, 51])

# Ripetiamo la stima dei modelli
retta = np.polyfit(mese,birre, 1)
parabola = np.polyfit(mese,birre, 2)
polinomio = np.polyfit(mese,birre, 3)

In [None]:
# Le nostre liste di prima arrivavano fino al quinto mese.
# Ora invece le abbiamo completate arrivando fino al decimo mese.
mese = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
birre = np.array([10, 22, 28, 41, 51, 59, 67, 83, 91, 100])

# Valutiamo i nostri tre modelli su questi nuovi dati.
birre_stimate_retta = np.polyval(retta,mese)
birre_stimate_parabola = np.polyval(parabola,mese)
birre_stimate_grado_tre = np.polyval(polinomio,mese)

print("Stima retta:", birre_stimate_retta)
print("")
print("Stima parabola:", birre_stimate_parabola)
print("")
print("Stima terzo grado:", birre_stimate_grado_tre)

In [None]:
# E ora visualizziamo i tre modelli
plt.plot(mese,birre_stimate_retta,'r')
plt.plot(mese,birre_stimate_parabola,'b')
plt.plot(mese,birre_stimate_grado_tre,'k')   #<-- "k" significa nero (da blacK)
plt.plot(mese, birre, '--g')                 #<-- "g" significa verde (da Green)

# Segnamo dove finiscono i cinque mesi
plt.plot([5, 5],[0, 200],'-',10)

# Aggiungiamo anche una legenda
plt.legend(['retta','parabola','grado_tre'])

Come vedete, più ci allontaniamo dal quinto mese (dove finivano le nostre osservazioni) e più i modelli divergono. La retta rossa è quella che più fedelmente continua ad approssimare bene il modello.

Vediamo l'errore fatto dai modelli:

In [None]:
err_retta = np.sum((birre - birre_stimate_retta)**2) / len(birre)
err_parabola = np.sum((birre - birre_stimate_parabola)**2) / len(birre)
err_grado_tre = np.sum((birre - birre_stimate_grado_tre)**2) / len(birre)

print('errore_linea: ' + str(err_retta))
print('errore_parabola: ' + str(err_parabola))
print('err_grado_tre: ' + str(err_grado_tre))

**ESERCIZIO 3**: Partendo da queste due liste

`` x = [1, 2, 3, 4, 5] ``

`` y = [2, 11, 18, 60, 120] ``

1) Calcolare un polyfit di grado 3

2) Visualizzare un grafico con insieme i valori delle liste e le stime fatte dal modello

Pensate sia un buon modello?

In [None]:
# Inserisci qui il codice

# Dichiariamo le liste
x = [1, 2, 3, 4, 5]
y = [2, 11, 18, 60, 120]

# Utilizziamo polyfit per trovare i coefficienti del polinomio di grado 3
...

# Utilizziamo polyval per valutare il nostro modello sulle x
...

# Utilizziamo plot per visualizzare il grafico dei dati
...

# Utilizziamo plot per visualizzare il grafico delle stime fatte dal modello
...

**ESERCIZIO 4.1**: Una macchina si muove lungo una strada. All'inizio e alla fine del percorso, dei sensori registrano la distanza percorsa. I dati sono riassunti da queste due liste:

```
minuto =         [ 0, 3, 6, 9, 21, 24, 27]
distanza_in_km = [ 0, 0.25, 1.0, 2.2, 10.1, 16, 21] 
```

Provate a:

1) usare polyfit per approssimare i dati con una parabola

2) usare polyval per valutare il nostro modello sui dati

3) visualizzare il grafico dei dati (con dei cerchi) e le nostre stime (con una linea)

In [None]:
## Scrivete il vostro codice qui

## Dichiariamo i nostri dati
minuto =         [ 0, 3, 6, 9, 21, 24, 27]
distanza_in_km = [ 0, 0.25, 1.0, 2.2, 10.1, 16, 21] 

## 1) usare polyfit per approssimare i dati con una parabola
parabola = ...

## 2) usare polyval per valutare il nostro modello sui dati
stime = ...

## Visualizza il grafico dei dati (sull'asse x i minuti, sull'asse y le distanze percorse)
...

# Visualizza il grafico delle stime (sull'asse x i minuti, sull'asse y le stime)
...

**ESERCIZIO 4.2:** Poi, ci vengono forniti i dati completi:
```
minuti_completi =   [ 0, 3, 6, 9, 10, 12, 14, 16, 18, 20, 21, 24, 27]
distanza_in_km_complete = [ 0, 0.25, 1.0, 2.2, 2.5, 4.0, 4.0, 4.0, 4.3, 7.0, 10.1, 16, 21] 
```

3) usare il modello stimato prima per valutare su tutti i tempi riportati

4) visualizzare in un unico grafico le nostre stime e le distanze_in_km_complete.

Cosa ne pensate? Ci sono differenze? Se sì, a cosa potrebbero essere dovute?

In [None]:
## Scrivete il vostro codice qui

## Dichiariamo i nostri dati
minuti_completi =   [ 0, 3, 6, 9, 10, 12, 14, 16, 18, 20, 21, 24, 27]
distanza_in_km_complete = [ 0, 0.25, 1.0, 2.2, 2.5, 4.0, 4.0, 4.0, 4.3, 7.0, 10.1, 16, 21] 

## valutiamo la nostra parabola per tutti i tempi riportati (usiamo polyeval con il modello "parabola")
stime_complete = ...

## Visualizza il grafico dei dati (sull'asse x i minuti_completi, sull'asse y le distanza_in_km_complete)
...

# Visualizza il grafico delle stime (sull'asse x i minuti_completi, sull'asse y le stime_complete)
...

In [None]:
minuto =         [ 0, 3, 6, 9, 21, 24, 27]
distanza_in_km = [ 0, 0.25, 1.0, 2.2, 10.1, 16, 21] 

parabola = np.polyfit(minuto, distanza_in_km, deg=2)
stime = np.polyval(parabola,minuto)

import matplotlib.pyplot as plt

#plt.plot(minuto, distanza_in_km,'o')
#plt.plot(minuto, stime,'-')

minuti_completi =   [ 0, 3, 6, 9, 10, 12, 14, 16, 18, 20, 21, 24, 27]
distanza_in_km_complete = [ 0, 0.25, 1.0, 2.2, 2.5, 4.0, 4.0, 4.0, 4.3, 7.0, 10.1, 16, 21]  

stime_complete = np.polyval(parabola,minuti_completi)

plt.plot(minuti_completi, distanza_in_km_complete,'-')
plt.plot(minuti_completi, stime_complete,'-')

# Lavoriamo con i dati ISTAT

Ora ripetiamo alcune delle analisi che abbiamo svolto fino ad adesso sul nostro dataset. Prima di tutto, dobbiamo caricare il file

In [None]:
from google.colab import files 
uploaded = files.upload() 

import pandas                           # Segnaliamo che vogliamo utilizzare la libreria pandas
data = pandas.read_csv('DATI_ISTAT.csv', delimiter=";")    # Leggiamo i dati
data.head()                             # Visualizziamo le prime 5 osservazioni

Ora scelgiamo due colonne che ci interessa analizzare

In [None]:
colonne_interessanti = ["Regione", "ClassiScuoleSuperiori", "IscrittiScuoleSuperiori"]
dati_puliti = data[colonne_interessanti]
dati_puliti.head()

Calcoliamo la correlazione tra queste due variabili

In [None]:
corr = numpy.corrcoef(dati_puliti["IscrittiScuoleSuperiori"],dati_puliti["ClassiScuoleSuperiori"])
print(corr)

Come poteva essere previdibile, queste due variabili sono fortemente correlate: nelle regioni in cui ci sono più iscritti ci sono anche più classi.

Ora proviamo a visualizzare il grafico.

NOTA: come abbiamo visto, se i dati non hanno un ordine naturale (ad esempio, una sequenza temporale) è meglio evitare di usare le linee. Per farlo, possiamo specificare che vogliamo solo dei cerchi dove sono presenti i nostri dati.

In [None]:
plt.plot(dati_puliti["IscrittiScuoleSuperiori"],dati_puliti["ClassiScuoleSuperiori"], 'o' )

Proviamo a calcolare la migliore retta che passa per i nostri dati, e la visualizziamo.

In [None]:
retta = np.polyfit(dati_puliti["IscrittiScuoleSuperiori"],dati_puliti["ClassiScuoleSuperiori"], 1)
stima_classi = np.polyval(retta, dati_puliti["IscrittiScuoleSuperiori"])

# riportiamo il grafico dei dati
plt.plot( dati_puliti["IscrittiScuoleSuperiori"],dati_puliti["ClassiScuoleSuperiori"],'o' )
# riportiamo la nostra stima, come cerchi rossi
plt.plot(dati_puliti["IscrittiScuoleSuperiori"], stima_classi, 'or')