# Pruebas de hipotesis

En la clase vimos que las pruebas de hipotesis son herramientas criticas para determinar el posible valor de un parametro.

Sabemos que la base de nuestra prueba tiene dos atributos:

**Hipotesis Nula: $H_0$**

**Hipotesis Alternativa: $H_a$**

Las pruebas que vamos a discutir son las siguientes:
* Una proporcion poblacional
* Diferencia en proporciones poblacionales
* Una media poblacional
* Diferencia en medias poblacionales

En este tutorial, vamos a introducir algunas funciones que son extremadamente utiles para calcular la t-statistic y el p-value para una prueba de hipotesis.

Rapidamente, la forma de calcular una estadistica de prueba para las pruebas listadas arriba es la siguiente:

$$\frac{Mejor\ Estimacion - Estimacion\ Hipotetica}{Error\ Estandar\ de la\ Estimacion}$$ 

Vamos a usar algunos ejemplos de la clase y usar funciones de python para facilitar nuestras pruebas.

In [1]:
import statsmodels.api as sm
import numpy as np
import pandas as pd

### Una Proporcion poblacional

#### Pregunta de investigacion 

En años anteriores 52% de padres creía que los electrónicos y las redes sociales eran la causa de la falta de sueño de sus adolescentes. Hay más padres hoy que creen que la falta de sueño de sus adolescentes se debe a los electrónicos y redes sociales?


**Poblacion**: Padres con adolescentes (13-18 años)

**Parametro de Interes**: p  
**Hipotesis Nula:** p = 0.52  
**Hipotesis Alternativa:** p > 0.52 (notar que esta es una prueba de un lado)

1018 Padres

56% cree que los electrónicos y las redes sociales eran la causa de la falta de sueño de sus adolescentes.

In [2]:
n = 1018
pnull = .52
phat = .56
sm.stats.proportions_ztest(phat * n, n, pnull, alternative='larger')

(2.571067795759113, 0.005069273865860533)

### Diferencia en proporciones poblacionales

#### Pregunta de investigacion

Existe una diferencia significativa entre las proporciones poblacionales de padres de hijos negros y padres de hijos hispanicos que reportan que sus hijos han recibido alguna clase de natacion?

**Poblacion**: Todos los padres de ninios negros de 6-18 anios y todos los padres de ninios hispanos de 6-18 anios

**Parametro de interes**: p1 - p2, donde p1 = negro y p2 = hispano  
**Hipotesis Nula:** p1 - p2 = 0  
**Hipotesis Alternativa:** p1 - p2 $\neq$ = 0  

247 Padres de ninios negros
36.8% de padres reportan que su hijo ha recibido alguna clase de natacion.

308 Padres de ninios hispanos
38.9% de padres reportan que su hijo ha recibido alguna clase de natacion.

In [6]:
n1 = 247
p1 = .37

n2 = 308
p2 = .39

population1 = np.random.binomial(1, p1, n1)
population2 = np.random.binomial(1, p2, n2)

sm.stats.ttest_ind(population1, population2)

(0.37233055096826484, 0.7097893986279662, 553.0)

### One Population Mean

#### Research Question 

Es la distancia promedio de una paradilla (en pulgadas) para adultos mas de 80 pulgadas?

**Poblacion**: Todos los adultos

**Parametro de interes**: $\mu$, media poblacional de la distancia de una paradilla.   
**Hipotesis Nula:** $\mu$ = 80   
**Hipotesis Alternativa:** $\mu$ > 80

25 Adultos

$\mu = 82.46$

$\sigma = 15.06$

In [7]:
df = pd.read_csv("Cartwheeldata.csv")
df.head()

Unnamed: 0,ID,Age,Gender,GenderGroup,Glasses,GlassesGroup,Height,Wingspan,CWDistance,Complete,CompleteGroup,Score
0,1,56,F,1,Y,1,62.0,61.0,79,Y,1,7
1,2,26,F,1,Y,1,62.0,60.0,70,Y,1,8
2,3,33,F,1,Y,1,66.0,64.0,85,Y,1,7
3,4,39,F,1,N,0,64.0,63.0,87,Y,1,10
4,5,27,M,2,N,0,73.0,75.0,72,N,0,4


In [8]:
n = len(df)
mean = df["CWDistance"].mean()
sd = df["CWDistance"].std()
(n, mean, sd)

(25, 82.48, 15.058552387264852)

In [9]:
sm.stats.ztest(df["CWDistance"], value = 80, alternative = "larger")

(0.8234523266982029, 0.20512540845395266)

### Diferencia en medias poblacionales

#### Pregunta de investigacion

Considerando a los adultos en la data de NHANES, tienen los hombres niveles significativamente mas altos de BMI promedio (media) que las mujeres?

**Poblacion**: Adultos en la data de NHANES  
**Paramametro de interes**: $\mu_1 - \mu_2$, Body Mass Index.  
**Null Hypothesis:** $\mu_1 = \mu_2$  
**Alternative Hypthosis:** $\mu_1 \neq \mu_2$

2976 Females   
$\mu_1 = 29.94$  
$\sigma_1 = 7.75$  

2759 Males  
$\mu_2 = 28.78$  
$\sigma_2 = 6.25$  

$\mu_1 - \mu_2 = 1.16$

In [10]:
url = "nhanes_2015_2016.csv"
da = pd.read_csv(url)
da.head()

Unnamed: 0,SEQN,ALQ101,ALQ110,ALQ130,SMQ020,RIAGENDR,RIDAGEYR,RIDRETH1,DMDCITZN,DMDEDUC2,...,BPXSY2,BPXDI2,BMXWT,BMXHT,BMXBMI,BMXLEG,BMXARML,BMXARMC,BMXWAIST,HIQ210
0,83732,1.0,,1.0,1,1,62,3,1.0,5.0,...,124.0,64.0,94.8,184.5,27.8,43.3,43.6,35.9,101.1,2.0
1,83733,1.0,,6.0,1,1,53,3,2.0,3.0,...,140.0,88.0,90.4,171.4,30.8,38.0,40.0,33.2,107.9,
2,83734,1.0,,,1,1,78,3,1.0,3.0,...,132.0,44.0,83.4,170.1,28.8,35.6,37.0,31.0,116.5,2.0
3,83735,2.0,1.0,1.0,2,2,56,3,1.0,5.0,...,134.0,68.0,109.8,160.9,42.4,38.5,37.7,38.3,110.1,2.0
4,83736,2.0,1.0,1.0,2,2,42,4,1.0,4.0,...,114.0,54.0,55.2,164.9,20.3,37.4,36.0,27.2,80.4,2.0


In [11]:
females = da[da["RIAGENDR"] == 2]
male = da[da["RIAGENDR"] == 1]

In [12]:
n1 = len(females)
mu1 = females["BMXBMI"].mean()
sd1 = females["BMXBMI"].std()

(n1, mu1, sd1)

(2976, 29.93994565217392, 7.753318809545674)

In [13]:
n2 = len(male)
mu2 = male["BMXBMI"].mean()
sd2 = male["BMXBMI"].std()

(n2, mu2, sd2)

(2759, 28.778072111846942, 6.2525676168014614)

In [14]:
sm.stats.ztest(females["BMXBMI"].dropna(), male["BMXBMI"].dropna())

(6.1755933531383205, 6.591544431126401e-10)