In [None]:
Confidence Interval



## Cálculo del Intervalo de Confianza
Para construir un intervalo de confianza del 90% alrededor de la media poblacional, se utilizan los percentiles de la distribución normal estándar. Específicamente, se toman los valores correspondientes a los percentiles 5% y 95% (denotados como F(0.05) y F(0.95)), y se multiplican por el error estándar de la media para obtener los límites inferiores y superiores del intervalo de confianza.

## Error Estándar de la Media (SEM)
Es la desviación estándar de la distribución de las medias muestrales. Se calcula dividiendo la desviación estándar de la población por la raíz cuadrada del tamaño de la muestra. Cuanto mayor sea el tamaño de la muestra, menor será el error estándar y más precisa será la estimación.



Es posible simplificar el cálculo utilizando la distribución de Student scipy.stats.t. Tiene una función para el intervalo de confianza, interval(), que toma:

- alpha: nivel de significación
- df: número de grados de libertad (igual a n - 1)
- loc (de localización): la distribución media igual a la estimación media. Para la muestra, se calcula del modo siguiente: sample.mean()
- scale: el error estándar de la distribución igual a la estimación del error estándar. Se calcula de la siguiente manera: sample.sem().

In [1]:
import pandas as pd
from scipy import stats as st

sample = pd.Series([
    439, 518, 452, 505, 493, 470, 498, 442, 497, 
    423, 524, 442, 459, 452, 463, 488, 497, 500,
    476, 501, 456, 425, 438, 435, 516, 453, 505, 
    441, 477, 469, 497, 502, 442, 449, 465, 429,
    442, 472, 466, 431, 490, 475, 447, 435, 482, 
    434, 525, 510, 494, 493, 495, 499, 455, 464,
    509, 432, 476, 438, 512, 423, 428, 499, 492, 
    493, 467, 493, 468, 420, 513, 427])

print('Media:', sample.mean())

confidence_interval = st.t.interval(0.95,df=sample.count()-1,loc=sample.mean(), scale= sample.sem())

print('Intervalo de confianza del 95 %:', confidence_interval)

Media: 470.5285714285714
Intervalo de confianza del 95 %: (463.357753651609, 477.6993892055338)


La función sample.sem() se refiere al método para calcular el error estándar de la media (SEM) a partir de una muestra de datos. La SEM es una medida de cuánto varía la media muestral de una muestra a otra. Es especialmente útil cuando estamos tratando de estimar la precisión de la media muestral como una estimación de la media poblacional.

## Bootstrapping

El bootstrapping es una técnica de remuestreo que se utiliza en estadística para estimar la distribución de una estadística de interés (como la media, la mediana, la varianza, etc.) a partir de una muestra de datos. Esta técnica es particularmente útil cuando no se conocen las distribuciones teóricas de los datos o cuando se dispone de una muestra pequeña.

El proceso básico del bootstrapping implica lo siguiente:

- Tomar una muestra de datos con reemplazo de la muestra original. Esto significa que los elementos de la muestra original se pueden seleccionar más de una vez y también pueden no ser seleccionados en absoluto en la muestra de bootstrap resultante.
- Calcular la estadística de interés (por ejemplo, la media, la mediana, etc.) para cada muestra de bootstrap generada en el paso anterior.
- Repetir los pasos 1 y 2 muchas veces (generalmente miles de veces) para obtener una distribución empírica de la estadística de interés.
- Utilizar esta distribución empírica para estimar intervalos de confianza, realizar pruebas de hipótesis u otros análisis estadísticos.

El bootstrapping es una técnica poderosa y flexible que se puede aplicar a una amplia variedad de problemas en estadística y ciencia de datos. Permite obtener estimaciones precisas de la incertidumbre asociada con una estadística de interés sin hacer suposiciones fuertes sobre la distribución de los datos subyacentes.