# Confidence Interval for a Single Proportion

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

---

<a id="ci-single-prop"></a>
## Confidence Interval for a Single Proportion

La costruzione di un **confidence interval** per una *proportion* segue la stessa struttura degli altri.

$$\large \hat{p}\pm z^*SE_{\hat{p}}$$

Lo *standard error* va calcolato con la stessa formula del *CLT*:

$$\large SE_{\hat{p}} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

Per determinare il *sample size* necessario a produrre un certo *margin of error*, se non si ha a disposizione una $\hat{p}$ relativa a studi passati, è meglio usare la soluzione più conservativa, cioè $\hat{p}=0.5$, che nei calcoli porterà al *sample size* più largo possibile per quello specifico *margin of error*.

Una regola generale per stabilire se sia possibile costruire dei *CI* sfruttando la distribuzione normale è costituita da due condizioni:

$$\large n\hat{p}\geq 15\;\;\; n(1-\hat{p})\geq 15$$

---

**\[Esempio\]** 

In [2]:
def confint_z_single_prop(cl, phat, n):
    crit_value = stats.norm.ppf(q = 1 -((1 - cl)/2), loc = 0, scale = 1)
    std_error = np.sqrt((phat*(1-phat))/n)
    lower_bound = phat - crit_value * std_error
    upper_bound = phat + crit_value * std_error
    return lower_bound, upper_bound   

In [3]:
n = 670
phat = 0.85

confint_z_single_prop(0.95, phat, n)

(0.8229625467164996, 0.8770374532835004)

---

**[Esempio]** In un sondaggio di 1000 persone, 430 affermano di approvare il lavoro svolto dal presidente. Ci serve un 95% CI sulla proporzione della popolazione che approva l'operato del presidente.

In [4]:
n = 1000
phat = 430/1000

confint_z_single_prop(cl = 0.95, phat = phat, n = n)

(0.3993154508432643, 0.4606845491567357)

---