# CONFIDENCE INTERVALS - INTERVALLI DI CONFIDENZA

**Dopo aver visto il Teorema del Limite Centrale e la sua importanza**, in quanto ci dice che la distribuzione della media campionaria è normale a patto che l'ampiezza del campione sia sufficientemente grande (>= 30) e questo avviene indipendentemente dalla distribuzione della popolazione,

**Quello che vogliamo fare adesso è costruire degli intervalli di confidenza che ci consentano di stabilire con quanta sicurezza possiamo affermare che il parametro della popolazione che vogliamo valutare (per esempio la media della popolazione) ricada proprio all'interno di questi intervalli.**

<mark><u>Questi intervalli di confidenza verranno costruiti sulla base di campioni estratti dalla popolazione iniziale</u> in modo da capire con quanta sicurezza il reale parametro della popolazione (es:media) sia contenuto all'interno dei limiti dell'intervallo di confidenza del campione.</mark>

<u>Solitamente l'intervallo di confidenza più utilizzato è quello del 95%.</u>

<mark><u>**Per calcolare i limiti dell'intervallo servono 4 valori:**</u></mark>

<ul>
    
<li>La media del campione </li>

<li>L'ampiezza del campione (grandezza)</li>

<li>La deviazione standard della popolazione (o del campione in caso non fosse disponibile)</li>

<li>Il coefficiente di confidenza</li>
    
</ul>

<u>Le formule che calcolano i valori del limite inferiore e superiore degli intervalli di confidenza sono le seguenti:</u>

<img src="https://cdn.educba.com/academy/wp-content/uploads/2019/12/Confidence-Interval-Formula.jpg" alt="350" width="450" align="left"/>



***Praticamente i limiti (i valori) dell'intervallo di confidenza vengono calcolati facendo la media del campione X più o meno il coefficiente di confidenza Z che moltiplica l'errore standard del campione.***

<img src="https://www.six-sigma-material.com/images/CommonCLZvalues.png" alt="350" width="300" align="left"/>

<img src="https://analystprep.com/cfa-level-1-exam/wp-content/uploads/2019/10/page-159.jpg" alt="350" width="700" align="left"/>


 

**Un'area di probabilità del 95% è compresa fra -1.96 e +1.96 deviazioni standard.**

<img src="https://miro.medium.com/max/1400/1*OTQHk3rsuzwdidO9zgSOfA.png" alt="350" width="550" align="left"/>

In [49]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [50]:
#Let'use Scipy

import scipy.stats as stats

# ESEMPIO 1: AFFITTO APPARTAMENTO A BOSTON
    
<u>You want to rent an unfurnished one-bedroom apartment in Boston
next year.</u> 

The mean monthly rent for a random sample of **60** apartments
advertised on Airbnb is **$1000.**

Assume a population standard deviation of **$200**. Construct a **95%**
confidence interval.    

In [52]:
sample_mean= 1000 #media del campione
sample_size=60 #grandezza del campione (>=30)
sd=200 #deviazione standard della popolazione
confidence_value= 0.95 #95%

#Let's calculate the confidence interval:

confidence_interval= stats.norm.interval(alpha=0.95, loc=sample_mean, scale=(sd/np.sqrt(sample_size)))
confidence_interval

(949.3939475247336, 1050.6060524752663)

<mark>We are 95% confident that the interval (949.39, 1050.61)
covers the true mean monthly rent of Boston apartments listed on
Airbnb.</mark>

In [53]:
#Manually:

confidence_interval= ( (1000 - 1.96*(200/np.sqrt(60))), (1000 + 1.96*(200/np.sqrt(60))) ) 
confidence_interval

(949.3930176095564, 1050.6069823904436)

# ESEMPIO 2: Acquisti online
(Tratto dal Libro 'Finalmente ho capito la Statistica')

<u>**Supponiamo di voler stimare la spesa media dei singoli ordini di acquisto effettuati dagli utenti sul nostro sito partendo da un campione.**</u>

Sappiamo che la deviazione standard della popolazione è pari a **52.50€**

Dopo aver estratto un campione casuale di **900** utenti otteniamo che la spesa media del campione è di **114.75€**.

Decidiamo di scegliere un un livello di confidenza pari al **95%**.

In [56]:
sample_mean= 114.75 #media del campione
sample_size=900 #grandezza del campione (>30)
sd=52.50 #deviazione standard della popolazione
confidence_value= 0.95 #95%

#Let's calculate the confidence interval:

confidence_interval= stats.norm.interval(alpha=0.95, loc=sample_mean, scale=(sd/np.sqrt(sample_size)))
confidence_interval #111.32 (limite inferiore) 118.18 (limite superiore)

(111.3200630270549, 118.1799369729451)

<mark>Esiste quindi il 95% di probabilità che ogni intervallo di confidenza calcolato su un campione estratto dalla stessa popolazione contenga l'effettiva media della popolazione.</mark>

## Andiamo a capire cosa vuol dire che siamo confidenti nel dire che il 95% delle volte l'intervallo di confidenza calcolato conterrà l'effettivo parametro della popolazione (es:media):

In [63]:
#Vediamolo con un esempio:

np.random.seed(123456)

#Estraiamo in modo casuale 10000 numeri dal range [0,10]
popolazione= np.random.randint(0, 10+1,10000)

#Calcoliamo media e deviazione standard:

mean= popolazione.mean()
sd= popolazione.std()

print('Media della popolazione: ', mean)
print('Deviazione Standard della popolazione: ', sd)

Media della popolazione:  5.0267
Deviazione Standard della popolazione:  3.1694774190708475


In [73]:
np.random.seed(123456)

#Scegliamo 100 numeri casuali dalla nostra popolazione:

sample_size=100

sample= np.random.choice(a=popolazione, size=sample_size)

In [74]:
#Andiamo a calcolare la media del campione estratto:

sample_mean= sample.mean()
sample_mean

5.34

In [76]:
#Calcoliamo l'intervallo di confidenza:

confidence_interval= stats.norm.interval(alpha=0.95, loc=sample_mean, scale=(sd/np.sqrt(sample_size)))
confidence_interval

(4.718793840880817, 5.9612061591191825)

In [77]:
#Creiamo la funzione MakeConfidenceInterval:

def MakeConfidenceInterval():
    
    sample_size=100
    sample= np.random.choice(a=popolazione, size= sample_size)
    sample_mean= sample.mean()
    confidence_interval= stats.norm.interval(alpha=0.95, loc=sample_mean, scale=(sd/np.sqrt(sample_size)))
    
    return confidence_interval


In [78]:
#Andiamo a verificare che effettivamente il 95% delle volte l'intervallo di confidenza 
#contiene l'effettiva media della popolazione:

times_in_interval=0

for i in range(10000):
    interval= MakeConfidenceInterval()
    if 5.0267 >= interval[0] and 5.0267 <= interval[1]:
        times_in_interval+=1
        
print(times_in_interval /10000)

0.9533


<mark>**Abbiamo verificato che esattamente il 95% delle volte l'intervallo di confidenza contiene effettivamente la reale media della popolazione!**</mark>

**N.B:** <u>**Negli esempi proposti abbiamo sempre avuto già a disposizione la deviazione standard della popolazione di partenza ma chiaramente la maggior parte delle volte non ne saremo a conoscenza anche perchè altrimenti molto probabilmente conosceremmo già anche la media della popolazione stessa.**</u>

<mark>**In questo caso dobbiamo utilizzare la deviazione standard del campione e mantenere lo stesso procedimento visto (anche se chiaramente ci possiamo aspettare delle stime meno precise)**</mark>

<img src="https://media.istockphoto.com/vectors/congratulations-greeting-sign-congrats-graduated-vector-id1148641884?k=20&m=1148641884&s=170667a&w=0&h=UZvEyiD5nxDJiLz5n0i1jdvWn-MR6wt1nomiPV1wSDE=" alt="400" width="500" align="left"/>