# Inferencia Estadística II


In [None]:
# Requerimientos
!pip install seaborn -q # Para visualización y datasets
!pip install scipy -q # Para analísis estadísticos
!pip install numpy -q # Para cálculos científicos
!pip install pandas -q # Para almacenamiento y trabajo con datos
!pip install matplotlib -q # Para visualización
!pip install statsmodels -q # Para analísis estadísticos
!pip install rdatasets -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.8/44.8 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.1/50.1 MB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25h

## Poder Estadístico

Para poder calcular el poder estadístico de una prueba, es necesario calcular el valor-p (p-value) de la preuba realizada. Para esto, los paquetes de análisis estadístico disponibles en python poseen la opción de poder calcularlo. Volviendo al ejemplo de pasado, de los datos de sueño, podemos calcular el poder estadístico de la prueba.

In [None]:
import rdatasets # utilizamos este paquete para obtener datos desde R
dataset = rdatasets.data("openintro","student_sleep")
horas_sueno = dataset['hours']

Usando una prueba estadística de media, asumiendo normalidad e independencia, también conocido como z-test, podemos evaluar el poder de la prueba al ver la media de la población.

In [None]:
from statsmodels.stats.weightstats import ztest
promedio_nacional = 7
statistic, pvalue = ztest(horas_sueno, value = promedio_nacional,
                                   alternative = 'larger')
print(f'Estadístico de la prueba: {statistic:.3f}')
print(f'Valor-p de la prueba: {pvalue:.3f}')

Estadístico de la prueba: 2.516
Valor-p de la prueba: 0.006


Ahora, podemos rechazar la hipótesis nula $H_0$, pero el poder estadístico de dicha conclusión es necesaria poder calcularla. Para esto, es posible calcular el poder estadístico de esta prueba:

In [None]:
import statsmodels.stats.power as smp

power = smp.zt_ind_solve_power(effect_size = 0.8, # tamaño del efecto proveniendte de Cohen's d
                       nobs1 = len(horas_sueno), # tamaño de la muestra
                       alpha = 0.05, # nivel de significancia
                       alternative = 'larger', # hipótesis alternativa
                       )

print(f'Poder estadístico: {power*100:.2f}%')

Poder estadístico: 100.00%


De esta forma, el test tiene un gran poder estadístico.

## Distribución t

La distribución t se utiliza en el caso de no tener suficientes datos (n<30) para obtener la disviación estándar de la población. A su vez, es útil en casos de tener una distribución casi normal.

En este caso, en vez de un z-test, se realiza un t-test. Para realizarlo se realiza el mismo procedimiento anterior.

In [None]:
from scipy.stats import ttest_1samp # el t-test de statsmodels funciona diferente
promedio_nacional = 7
statistic, pvalue = ttest_1samp(horas_sueno,  promedio_nacional,
                                   alternative = 'greater')
print(f'Estadístico de la prueba: {statistic:.3f}')
print(f'Valor-p de la prueba: {pvalue:.3f}')
# y el poder estadistico

power = smp.tt_ind_solve_power(
    effect_size = 0.8, # tamaño del efecto proveniendte de Cohen's d
    nobs1 = len(horas_sueno), # tamaño de la muestra
    alpha = 0.05, # nivel de significancia
)
print(f'Poder estadístico: {power*100:.2f}%')


Estadístico de la prueba: 2.516
Valor-p de la prueba: 0.007
Poder estadístico: 100.00%


## Comparación de Promedios