In [3]:
import numpy as np



---


# **COVARIANZA**


---



La covarianza da una descrizione quantitativa (assoluta) della relazione lineare tra due variabili *x* e *y*.
\
Nello specifico, lacovraiza permette di misurare lo scostamenteo delle due variabili dai rispettivi valori medi e in base al segno se e quanto sono concordi.

\begin{align}
        covarianza = σ_{x,y}=  { \sum_{i=1}^n {(x_i - \mu_x) (y_i - \mu_y)}  \over n } 
\end{align}

**python**

In [5]:
def covarianza(x: np.array, mu_x: float, y: np.array, mu_y: float) -> float:
  assert x.size == y.size, "nel calcolo della covarianza gli array x e y devono avere la stessa lunghezza"
  return ((x - mu_x) * (y - mu_y)) / x.size



\

---


# **COEFFICIENTE DI CORRELAZIONE**


---



La correlazione (*r*) determina una raprresentazione quantitativa (relativa) dell'intesita della rellazione tra due variabili *x* e *y*.

A differenza della covarianza non dipende da alcuna unità di misura. Il valore *r* ottenuto giace in un intervallo tra -1 e 1 compresi.

Si calcola dividendo la covarianza per le rispettive deviazioni standard.


* r vicino a zero = correlazione debole
* r positivo = correlazione positiva, le variabili dei due insiemi tendona ad aumentare in parallelo
* r negativo = correlazione negativa, rapporto inversamente proporzionale. Se una variabile aumenta l'altra diminuisce.
* r assume valori vicini a 1 e -1= correlazione perfetta

\begin{align}
        correlazione = 
        r = 
        {σ_{x,y} \over{σ_x \sigma_y}} = 
        { \sum{(x_i - \mu_x) (y_i - \mu_y)} 
         \over{\sqrt{ \sum(x_i - \mu_x)^2 \sum(y_i - \mu_y)^2 }} } 
\end{align}

**python**

In [17]:
def correlazione(x: np.array, mu_x: float, y: np.array, mu_y: float) -> float:
  cov = covarianza(x, mu_x, y, mu_y)
  return (cov / np.sqrt( np.power(x - mu_x, 2) * np.power(y - mu_y, 2) ))[0]

**visualizzazione**

Un modo efficiente per rappresentare la correlazione visivamente è attraverso il grafico di dispersione (scatter plot), mettendo in relazione le variabili appartenenti ai due insiemi in esame.

In [22]:
import matplotlib.pyplot as plt


def grafico_confronto(x: np.array, y: np.array, c: float):
  plt.scatter(x, 
            y, 
            color = "blue", 
            s     = 80, 
            alpha = 0.7, 
            label = "correlazione: " + str(c))
                         


  plt.title("grafico di dispersione") 
  plt.xlabel('asse x') 
  plt.ylabel('asse y')    
  plt.legend(bbox_to_anchor=(1.42, 1.03))            
  plt.show()

In [None]:

x = np.array([14, 19, 12,  9, 15,  6, 21, 14, 12, 15, 14, 11,  7,  6, 15, 15, 10, 16, 16, 10])
y = np.array([8,   4,  4, 14,  8, 14, 10, 14, 14,  4, 10, 10, 16, 18,  6,  8, 10,  8, 14, 12])

c:float =  correlazione(x, (np.sum(x) / x.size), 
                  y, (np.sum(y) / y.size))

grafico_confronto(x, y, c)



---


## **Correlazione non significa causazione**


---

Si osserva che alle variazioni degli elementi di un insieme X corrispondono le variazioni degli elementi di un insieme Y. Le variabili mostrano quindi una forte correlazione.
\
Significa che X ha cauato Y ?
\
NO
\
Signivia che Y ha causato X ?
\
NO

La correlazione, in definitiva, non ci dice nulla sul significato di una relazione, ci dice solo che la correlazione esiste.




---


## **Il paradosso di Simpson**


---



In statistica, il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione nell'analisi (variabili nascoste). È alla base di frequenti errori nelle analisi statistiche nell'ambito delle scienze sociali e mediche, ma non solo (*fonte Wikipedia*).

**esmpio**

Dati:
* Occupati con e senza diploma campionati tra giovani e vecchi
* Tasso di disoccupaione

In [None]:
import pandas as pd

# dataframe occupati
lavoratori = pd.DataFrame({
    "lavoratori" :["giovani", "anziani", "totale"],
    "senza diploma" : [20, 120, 140], 
    "con diploma" : [80, 30, 110],
    "totale": [100, 150, 250]
})


# dataframe tasso di disoccupazione
tasso_di_disoccupazione = pd.DataFrame({
    "tasso di disoccupazione" : ["giovani", "anziani"],
    "senza diploma" : [30, 5],
    "con diploma" : [15, 3.33]
 })
display(lavoratori)
display(tasso_di_disoccupazione)


Osservazioni:
* Per motivi generazionali i diplomati anziani sono in numero minore rispetto ai giovani.
* Per motivi legati al mercato del lavoro il tasso di disoccupazione è più elevato tra i giovani.
* La disoccupazione è circa il doppio tra i non diplomati

Dai dati in possesso possiamo ricavare il numeo di disoccupati

In [None]:
import math

dis_giovani_no_diploma = int( math.ceil((30.0 / 100.0) * 20) )
dis_giovani_diploma    = int( math.ceil((15.0 / 100.0) * 80) )
dis_giovani = dis_giovani_no_diploma + dis_giovani_diploma

dis_anziani_no_diploma = int( math.ceil((5.0 / 100.0) * 120) )
dis_anziani_diploma    = int( math.ceil((3.33 / 100.0) * 30) )
dis_anziani = dis_anziani_no_diploma + dis_anziani_diploma

dis_no_diploma = dis_giovani_no_diploma + dis_anziani_no_diploma
dis_diploma = dis_giovani_diploma + dis_anziani_diploma
dis_totale = dis_no_diploma + dis_diploma

disoccupati = pd.DataFrame({
       "disoccupati" : ["giovani", "anziani", "totale"],
       "senza diploma" : [dis_giovani_no_diploma, dis_anziani_no_diploma, dis_no_diploma], 
       "con diploma" :   [dis_giovani_diploma,    dis_anziani_diploma,    dis_diploma],
       "totale":         [dis_giovani,            dis_anziani,            dis_totale]
})
display(disoccupati)

Vogliamo ora calcoalare il tasso di disoccupatione per i non diplomati

In [48]:

print("percentuale disoccupati senza diploma: ",  (12.0 / 140.0) * 100, "%")
print("percentuale disoccupati con diploma: ",  (13.0 / 110.0) * 100, "%")

percentuale disoccupati senza diploma:  8.571428571428571 %
percentuale disoccupati con diploma:  11.818181818181818 %


La percentuale di disoccupati con diploma, risulta quindi essere più alta in disaccordo con il dato sul tasso di disoccupazione.

Cosa ha generato l'errore:
* Il tasso di disoccupazione è maggiore nel gruppo che ha una mggiore percentuale di diplomati
* mancano due correlazioni fondamentali: tra disoccupazione ed età e tra titolo di studio ed età.

La storia dietro al paradosso di Simpson + approfondimenti:
\

 https://e-l.unifi.it/pluginfile.php/832944/mod_resource/content/3/Statistica2019__paradosso_Simpson.pdf