# Hypothesis Testing for Two Proportions

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

---

Adesso analizziamo l'*hypothesis testing* incentrato sulla differenza fra due *proportions*. Il problema qui è che l'ipotesi nulla afferma soltanto che le proporzioni fra i due gruppi sono uguali, quindi non abbiamo a disposizione un *null value* per calcolare lo *standard error* e la *success/failure*. La *best guess* in questo caso è la **pooled proportion**:

$$\large Pooled = \frac{\#\;successes_1+\#\;successes_2}{n_1+n_2}$$

$$\large SE=\sqrt{\frac{\hat{p}_{pool}(1-\hat{p}_{pool})}{n_1}+
\frac{\hat{p}_{pool}(1-\hat{p}_{pool})}{n_2}}$$

E' con questa *proportion* che verificheremo la *success/failure* e calcoleremo lo *standard error*. A questo punto è possibile descrivere l'andamento della *sampling distribution* come una normale centrata su zero (ipotesi nulla) e con *standard error* calcolabile con la stessa formula usata per il *CI*. L'ultimo step è il calcolo della *point estimate* (la differenza fra le *proportions* dei due *sample*) e il calcolo del corrispondente *p-value*.

---

**\[Esempio\]**

In [2]:
succ_1 = 61
succ_2 = 34
n_1 = 122
n_2 = 90

test_statistic, p_value = sm.stats.proportions_ztest(
    count = np.array([succ_1, succ_2]),
    nobs = np.array([n_1, n_2]),
    alternative = "two-sided")

test_statistic, p_value

(1.7687422205722934, 0.07693690298928134)

---