# Confidence Interval for Two Paired Means

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

In [2]:
def sample_creator(n, mean, std):
    sample = stats.norm.rvs(loc=0, scale=std, size=n)
    sample = sample - np.mean(sample)
    sample = sample * (std/sample.std(ddof=1))
    return sample + mean

---

Quando due insiemi di osservazioni non sono indipendenti tra loro, si dicono **paired**. Per analizzare dati del genere, si è soliti concentrarsi sulla *differenza* di ogni coppia di osservazioni. Ci si può ricondurre così alle tecniche di inferenza su una singola *mean*.

$$\large CI:\bar{x}\pm t_{df}^*\;\frac{s}{\sqrt{n}}$$

$$\large df=n-1$$

---

**[Esempio]** Abbiamo i risultati dei test di lettura e scrittura di 200 studenti. Si chiede di costruire un 95% CI sulla differenza di score in lettura e in scrittura degli studenti. Si evidenzia come la media della differenza _read-write_ sia -0.545, con deviazione standard 8.887.

In [3]:
def confint_t_single_mean(cl, sample):
    crit_value = stats.t.ppf(q = 1- ((1 - cl)/2), df = len(sample) - 1)
    std_error = sample.std(ddof=1) / np.sqrt(len(sample))
    lower_bound = sample.mean() - crit_value * std_error
    upper_bound = sample.mean() + crit_value * std_error
    return lower_bound, upper_bound

In [4]:
n = 200
xbar = -0.545
std = 8.887

sample = sample_creator(n, xbar, std)
sample.mean(), sample.std()

(-0.5449999999999998, 8.864754658477581)

In [5]:
confint_t_single_mean(0.95, sample)

(-1.7841889227350665, 0.6941889227350669)

---