# Single Mean - Confidence Interval with Z Interval

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

In [2]:
def sample_creator(n, mean, std):
    sample = stats.norm.rvs(loc=0, scale=std, size=n)
    sample = sample - np.mean(sample)
    sample = sample * (std/sample.std(ddof=1))
    return sample + mean

---

Utilizzato per costruire un *confidence interval* incentrato sulla media del *sample*, a patto che siano verificate le seguenti condizioni:

- La deviazione standard della popolazione $\sigma$ è nota
- Il *sample size* supera le 30 unità.

Se $\sigma$ non è nota o il *sample* è troppo piccolo, è necessario utilizzare il *t-interval*.

$$\large CI: \bar{x}\pm z^*\frac{\sigma}{\sqrt{n}}$$

---

Per arrivare alla formula di cui sopra, si parte analizzando una delle proprietà fondamentali della *standard normal distribution*:

$$\large P(-z_{\alpha/2}<Z<z_{\alpha/2})=1-\alpha$$

Dove $Z$ è la standardizzazione della *random variable* $\bar{X}$ che utilizziamo per stimare il *population parameter* $\mu$:

$$\large Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$$

Invece $z_{\alpha/2}$ è quel *critical value* della *standard normal* che lascia alla propria destra un'area pari proprio ad $\alpha/2$.

Nel caso del comune  95% CI, si trova che la relazione precedente è soddisfatta dal *critical value* 1.96:

$$\large P(-1.96<Z<1.96)=0.95$$

Questo vuol dire che 1.96 è quel valore che lascia alla propria destra un'area pari a 0.025.

Combiniamo il primo risultato con la formula di Z:

$$\large P(-z_{\alpha/2}<\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}<z_{\alpha/2})=1-\alpha$$

Vogliamo isolare $\mu$:

$$\large P\left(\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}
<\mu<\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha$$

Ecco qua la formula del *confidence interval* sulla *single mean*!

---

*Critical z-score* per un **90%CI**:

In [3]:
stats.norm.ppf(q = 0.95)

1.6448536269514722

*Critical z-score* per un **95%CI**:

In [4]:
stats.norm.ppf(q = 0.975)

1.959963984540054

*Critical z-score* per un **98%CI**:

In [5]:
stats.norm.ppf(q = 0.99)

2.3263478740408408

*Critical z-score* per un **99%CI**:

In [6]:
stats.norm.ppf(q = 0.995)

2.5758293035489004

---

**\[Esempio\]** A 50 studenti è stato chiesto quante relazioni abbiano avuto. La *sample mean* è 3.2, con *standard deviation* 1.74. Creare un 95% *CI* per stimare il numero medio di relazioni dell'intera popolazione.

In [7]:
def confint_z_single_mean(cl, sample):
    crit_value = stats.norm.ppf(q = 1 -((1 - cl)/2), loc = 0, scale = 1)
    std_error = sample.std(ddof=1)/np.sqrt(len(sample))
    lower_bound = sample.mean() - crit_value * std_error
    upper_bound = sample.mean() + crit_value * std_error
    return lower_bound, upper_bound         

In [8]:
n = 50
xbar = 3.2
s = 1.74

sample = sample_creator(n, xbar, s)
sample.mean(), sample.std()

(3.2000000000000006, 1.72251211897043)

In [9]:
confint_z_single_mean(0.95, sample)

(2.7177054691263125, 3.6822945308736887)

Siamo sicuri al 95% che il numero di relazioni avute dagli studenti è, mediamente, fra 2.71 e 3.68.

---