# Hypothesis Testing for Two Paired Means

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

In [2]:
def sample_creator(n, mean, std):
    sample = stats.norm.rvs(loc=0, scale=std, size=n)
    sample = sample - np.mean(sample)
    sample = sample * (std/sample.std(ddof=1))
    return sample + mean

---

Quando due insiemi di osservazioni non sono indipendenti tra loro, si dicono **paired**. Per analizzare dati del genere, si è soliti concentrarsi sulla *differenza* di ogni coppia di osservazioni. Ci si può ricondurre così alle tecniche di inferenza su una singola *mean*.

Uno dei vantaggi di impostare un esperimento in formato *paired* è che si tende a ridurre la variabilità dei risultati, specialmente se le due misurazioni sono effettuate sullo stesso individuo.

Nella maggior parte dei casi, l'ipotesi nulla sarà basata sulla *non* differenza in media fra i due *sample*, cioè $H_0:\mu_{diff}=0$.

La *test statistic* da utilizzare è il *t-score*:

$$\large T=\frac{\bar{x}-\mu_{null}}
{\left( \frac{s}{\sqrt{n}} \right)}$$

$$\large df = n-1$$

---

**[Esempio]** Abbiamo i risultati dei test di lettura e scrittura di 200 studenti. Si chiede di costruire un 95% CI sulla differenza di score in lettura e in scrittura degli studenti. Si evidenzia come la media della differenza _read-write_ sia -0.545, con deviazione standard 8.887.

In [3]:
n = 200
mean = -0.545
std = 8.887

sample = sample_creator(n, mean, std)
sample.mean(), sample.std()

(-0.5450000000000002, 8.864754658477583)

In [4]:
h0 = 0

test_statistic, p_value = stats.ttest_1samp(
    a = sample,
    popmean = h0)

test_statistic, p_value

(-0.8672739861520613, 0.3868364741993471)

---