# Confidence Interval for Two Proportions

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

---

Lavorare con due proporzioni vuol dire avere a che fare non più con una, ma con due variabili categoriche binarie, il cui significato è identico ma che appartengono a popolazioni indipendenti fra loro. Una di esse sarà scelta come *explanatory variable* o *grouping variable*, mentre l'altra sarà la *response variable*.

Nell'inferenza tramite *confidence interval*, la struttura non cambia. Possiamo sempre sfruttare il *CLT* sulle *proportions*, valido anche quando lavoriamo con le differenze, affermando che l'andamento della *sampling distribution* sarà normale.

$$\large (\hat{p}_1-\hat{p}_2)\pm z^*\;SE_{(\hat{p}_1-\hat{p}_2)}$$

La novità è lo *standard error* per la differenza fra due proporzioni:

$$\large SE=\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+
\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$$

Le condizioni per la costruzioni del *CI* sono:

- **Independence within groups**: gli elementi dei sample di ciascun gruppo devono essere indipendenti fra loro, quindi è necessario applicare il *random sampling/assignment* e assicurarsi che entrambi i *sample* siano inferiori rispetto al 10% della corrispondente popolazione.


- **Independence between groups**: le osservazioni dei due gruppi devono essere indipendenti fra loro, cioè non devono essere *paired*.


- **Success/failure**: ognuno dei due sample deve rispettare la *success/failure* del *CLT*, cioè:
   - $n_1p_1\geq 10$
   - $n_2p_2\geq 10$
   - $n_1(1-p_2)\geq 10$
   - $n_2(1-p_2)\geq 10$

---

**\[Esempio\]**

In [2]:
def confint_z_two_props(cl, phat_1, n_1, phat_2, n_2):
    crit_value = stats.norm.ppf(q = 1 -((1 - cl)/2), loc = 0, scale = 1)
    std_1 = (phat_1 * (1-phat_1))/n_1
    std_2 = (phat_2 * (1-phat_2))/n_2
    std_error = np.sqrt(std_1 + std_2)
    lower_bound = (phat_1 - phat_2) - crit_value * std_error
    upper_bound = (phat_1 - phat_2) + crit_value * std_error
    return lower_bound, upper_bound  

In [3]:
n_1 = 83
n_2 = 1028
phat_1 = 0.71
phat_2 = 0.25

confint_z_two_props(0.95, phat_1, n_1, phat_2, n_2)

(0.3588553015860909, 0.561144698413909)

---