# Single Mean - Confidence Interval with T Interval

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

In [2]:
def sample_creator(n, mean, std):
    sample = stats.norm.rvs(loc=0, scale=std, size=n)
    sample = sample - np.mean(sample)
    sample = sample * (std/sample.std(ddof=1))
    return sample + mean

---

Quando vogliamo fare inferenza su una singola media e disponiamo di un sample poco numeroso o non conosciamo la deviazione standard della popolazione, dobbiamo utilizzare la *t-distribution*.

Se il *sample size* non è particolarmente esteso, il calcolo dello *standard error* non è così affidabile. La maggiore *probability mass* sulle code della *t-distribution* implica che sia molto più probabile che delle osservazioni cadano a più di due deviazioni standard dalla media.

Di conseguenza, i *confidence interval* costruiti con la *t-distribution* saranno più ampi, e quindi più conservativi. Ma è proprio questo spessore extra sulle code che aiuta a mitigare gli effetti di una stima meno affidabile dello *standard error*.

$$\large CI:\bar{x}\pm t_{df}^*\;\frac{s}{\sqrt{n}}$$

L'unica differenza con lo *z-interval* è nel *critical t-score*, che per essere individuato necessita della specifica dei *degrees of freedom* da associare alla *t-distribution*. In questo caso i *df* vanno posti uguale al *sample size* meno uno, in quanto stiamo stimando lo *standard error* della *sampling distribution* utilizzando la *sample standard deviation*.

$$\large df=n-1$$

---

*Critical t-score* per un **90%CI**:

In [3]:
stats.t.ppf(q = 0.95, df = 24)

1.7108820799094275

*Critical z-score* per un **95%CI**:

In [4]:
stats.t.ppf(q = 0.975, df = 24)

2.0638985616280205

*Critical z-score* per un **98%CI**:

In [5]:
stats.t.ppf(q = 0.99, df = 24)

2.4921594731575762

*Critical z-score* per un **99%CI**:

In [6]:
stats.t.ppf(q = 0.995, df = 24)

2.796939504772804

---

**\[Esempio\]** Un sample di 22 soggetti ha pranzato mentre giocava al pc. Sono stati calcolati i grammi di biscotti consumati come snack in seguito al pranzo. La sample mean è 52.1g, con deviazione standard 45.1g. Calcolare un 95% CI per sul consumo medio di biscotti di chi pranza distraendosi.

In [7]:
def confint_t_single_mean(cl, sample):
    crit_value = stats.t.ppf(q = 1- ((1 - cl)/2), df = len(sample) - 1)
    std_error = sample.std(ddof=1) / np.sqrt(len(sample))
    lower_bound = sample.mean() - crit_value * std_error
    upper_bound = sample.mean() + crit_value * std_error
    return lower_bound, upper_bound

In [8]:
n = 22
xbar = 52.1
std = 45.1

sample = sample_creator(n, xbar, std)
sample.mean(), sample.std()

(52.1, 44.06307978341959)

In [9]:
confint_t_single_mean(0.95, sample)

(32.10378021910188, 72.09621978089812)

---