Su objetivo es analizar los datos que son el resultado de un estudio que examinó las diferencias en una serie de variables de sueño entre los niños pequeños que duermen siestas y los que no duermen siestas. Algunas de estas variables de sueño incluyeron: hora de acostarse (hora de apagado de las luces en tiempo decimal), hora de inicio del sueño nocturno (en tiempo decimal), hora de despertar (hora de finalización del sueño en tiempo decimal), duración del sueño nocturno (intervalo entre el inicio y el final del sueño). en minutos) y Duración total del sueño de 24 horas (en minutos). Nota: El tiempo decimalizado es la representación de la hora del día usando unidades relacionadas decimalmente.

Los 20 participantes del estudio eran niños pequeños sanos, con un desarrollo normal, sin problemas de sueño ni de comportamiento. Estos niños se clasificaron como siestas o no siestas según el informe de los padres sobre los patrones de sueño habituales de los niños. Luego, los investigadores verificaron el estado de la siesta con datos de actigrafía (un método no invasivo para monitorear los ciclos de actividad/descanso humano mediante el uso de un sensor en la muñeca) y diarios de sueño durante los 5 días anteriores a las evaluaciones del estudio.

Está específicamente interesado en los resultados de Hora de acostarse y Duración total del sueño de 24 horas.

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import t, norm
pd.set_option('display.max_columns', 30) # set so can see all columns of the DataFrame

In [2]:
df = pd.read_csv("nap_no_nap.csv") 
df.head(5)

Unnamed: 0,id,sex,age (months),dlmo time,days napped,napping,nap lights outl time,nap sleep onset,nap midsleep,nap sleep offset,nap wake time,nap duration,nap time in bed,night bedtime,night sleep onset,sleep onset latency,night midsleep time,night wake time,night sleep duration,night time in bed,24 h sleep duration,bedtime phase difference,sleep onset phase difference,midsleep phase difference,wake time phase difference
0,1,female,33.7,19.24,0,0,,,,,,,,20.45,20.68,0.23,1.92,7.17,629.4,643.0,629.4,-1.21,-1.44,6.68,11.93
1,2,female,31.5,18.27,0,0,,,,,,,,19.23,19.48,0.25,1.09,6.69,672.4,700.4,672.4,-0.96,-1.21,6.82,12.42
2,3,male,31.9,19.14,0,0,,,,,,,,19.6,20.05,0.45,1.29,6.53,628.8,682.6,628.8,-0.46,-0.91,6.15,11.39
3,4,female,31.6,19.69,0,0,,,,,,,,19.46,19.5,0.05,1.89,8.28,766.6,784.0,766.6,0.23,0.19,6.2,12.59
4,5,female,33.0,19.52,0,0,,,,,,,,19.21,19.65,0.45,1.3,6.95,678.0,718.0,678.0,0.31,-0.13,5.78,11.43


In [3]:
# 0 = no dormilon y 1 = dormilon 
df.shape

(20, 25)

## Pruebas de hipótesis
Veremos dos pruebas de hipótesis, cada una con $\alpha = .05$:


1. ¿La hora promedio de acostarse para los niños pequeños que toman siesta es más tarde que la hora promedio de acostarse para los niños pequeños que no toman siesta?


$$H_0: \mu_{siesta}=\mu_{no\ siesta}, \ H_a:\mu_{siesta}>\mu_{no\ siesta}$$
O equivalente:
$$H_0: \mu_{siesta}-\mu_{sin\ siesta}=0, \ H_a:\mu_{siesta}-\mu_{sin\ siesta}>0$$


2. La duración promedio del sueño de 24 horas (en minutos) para los niños pequeños que duermen la siesta es diferente de la de los niños pequeños que no duermen la siesta.


$$H_0: \mu_{siesta}=\mu_{no\ siesta}, \ H_a:\mu_{siesta}\neq\mu_{no\ siesta}$$
O equivalente:
$$H_0: \mu_{siesta}-\mu_{sin\ siesta}=0, \ H_a:\mu_{siesta}-\mu_{sin\ siesta} \neq 0$$

Primero aísle la "hora de acostarse" en dos variables: una para los niños pequeños que duermen la siesta y otra para los niños pequeños que no duermen la siesta.

In [4]:
df.columns

Index(['id', 'sex', 'age (months)', 'dlmo time', 'days napped', 'napping',
       'nap lights outl time', 'nap sleep onset', 'nap midsleep',
       'nap sleep offset', 'nap wake time', 'nap duration', 'nap time in bed',
       'night bedtime', 'night sleep onset', 'sleep onset latency',
       'night midsleep time', 'night wake time', 'night sleep duration',
       'night time in bed', '24 h sleep duration', 'bedtime phase difference',
       'sleep onset phase difference', 'midsleep phase difference',
       'wake time phase difference'],
      dtype='object')

In [9]:
nap_bedtime = df.loc[df.napping==1,["night bedtime"]]
nap_bedtime.size

15

In [10]:
no_nap_bedtime = df.loc[df.napping==0,["night bedtime"]]
no_nap_bedtime.size

5

Ahora encuentre la hora de acostarse promedio de muestra para nap y no_nap.

In [11]:
nap_mean_bedtime = nap_bedtime.mean().values
no_nap_mean_bedtime = no_nap_bedtime.mean().values
nap_mean_bedtime

array([20.304])

Pregunta: ¿Cuál es la diferencia muestral de la hora media de acostarse para los que duermen la siesta menos los que no duermen la siesta?

In [13]:
mean_bedtime_diff = nap_mean_bedtime - no_nap_mean_bedtime
mean_bedtime_diff

array([0.714])

Pregunta: ¿Cuál es la diferencia muestral de la hora media de acostarse para los que duermen la siesta menos los que no duermen la siesta? Ahora encuentre la desviación estándar de la muestra para $X_{siesta}$ y $X_{no\ siesta}$.

In [14]:
nap_s_bedtime = nap_bedtime.std(ddof=1).values
no_nap_s_bedtime = nap_bedtime.std(ddof=1).values
(nap_s_bedtime, no_nap_s_bedtime)

(array([0.591062]), array([0.591062]))

Pregunta: ¿Cuál es la diferencia muestral de la hora media de acostarse para los que duermen la siesta menos los que no duermen la siesta? Ahora encuentre la desviación estándar de la muestra para $X_{siesta}$ y $X_{no\siesta}$.# La función np.std se puede usar para encontrar la desviación estándar. El
#### El parámetro ddof debe establecerse en 1 para obtener la desviación estándar de la muestra.
#### Si no es así, utilizará la desviación estándar de la población que
#### no es el estimador correcto**Pregunta**: ¿Cuál es el s.e.$(\bar{X}_{nap} - \bar{X}_{no\ nap})$?

Esperamos que la variación en el tiempo de sueño de los niños pequeños que duermen la siesta y los niños pequeños que no duermen la siesta sea la misma. Así que usamos un error estándar combinado.

Calcule el error estándar combinado de $\bar{X}_{nap} - \bar{X}_{no\ nap}$ usando la fórmula a continuación.

$s.e.(\bar{X}_{siesta} - \bar{X}_{no\ siesta}) = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2} {n_1+n_2-2}(\frac{1}{n_1}+\frac{1}{n_2})}$

In [15]:
pooled_se = np.sqrt(((nap_bedtime.size - 1)*nap_s_bedtime**2 +(no_nap_bedtime.size-1)*no_nap_s_bedtime**2)/(nap_bedtime.size + no_nap_bedtime.size - 2) * (1/nap_bedtime.size + 1/no_nap_bedtime.size))
pooled_se

array([0.3052231])

**Pregunta**: Dado nuestro tamaño de muestra de $n$, ¿cuántos grados de libertad ($df$) hay para la distribución asociada de $t$?

**RTA** Es n (20) - 2 = 18

Ahora calcula la t
  -Estadístico de prueba para nuestra primera prueba de hipótesis usando

s.e. agrupados( X¯nap−X¯no nap
  )
X¯siesta−X¯no siesta
 
μ0, siesta−μ0, sin siesta=0
  , la diferencia de medias de la población bajo la hipótesis nula

In [16]:
tstat = (nap_mean_bedtime - no_nap_mean_bedtime) / pooled_se


**Pregunta**: ¿Cuál es el valor p para la primera prueba de hipótesis?

In [17]:
print(2 * (norm.cdf(-abs(tstat))))
print( 2 * t.sf(np.abs(tstat), df=18))


[0.01932134]
[0.03105167]


In [18]:
pvalue1 = 2*(1 - t.cdf(tstat, df=18))

Para obtener una discusión sobre las funciones de densidad de probabilidad (PDF) y las funciones de distribución acumulativa (CDF), consulte:

https://integratedmlai.com/normal-distribution-an-introductory-guide-to-pdf-and-cdf/

Para encontrar el valor p, podemos usar la CDF para la distribución t:
```
t.cdf(tstat, df)
```
Que para $X \sim t(df)$ devuelve $P(X \leq tstat)$.

Debido a la simetría de la distribución $t$, tenemos que
```
1 - t.cdf(tstat, df)
```
devuelve $P(X > tstat)$

La función `t.cdf(tstat, df)` le dará el mismo valor que encontrar la probabilidad de una cola de `tstat` en una tabla t con los grados de libertad especificados.

Utilice la función `t.cdf(tstat, df)` para encontrar el valor p para la primera prueba de hipótesis.

**Pregunta**: ¿Cuáles son el estadístico t y el valor p para la segunda prueba de hipótesis?

Calcule las estadísticas de prueba $t$ y el valor p correspondiente usando la función `scipy` `scipy.stats.ttest_ind(a, b, equal_var=True)` y verifique con su respuesta.

In [19]:
from scipy.stats import ttest_ind

ttest_ind(nap_bedtime, no_nap_bedtime)

Ttest_indResult(statistic=array([2.41063818]), pvalue=array([0.02683408]))

In [20]:
# buscando la variable de la segunda hipotesis 

df.columns

Index(['id', 'sex', 'age (months)', 'dlmo time', 'days napped', 'napping',
       'nap lights outl time', 'nap sleep onset', 'nap midsleep',
       'nap sleep offset', 'nap wake time', 'nap duration', 'nap time in bed',
       'night bedtime', 'night sleep onset', 'sleep onset latency',
       'night midsleep time', 'night wake time', 'night sleep duration',
       'night time in bed', '24 h sleep duration', 'bedtime phase difference',
       'sleep onset phase difference', 'midsleep phase difference',
       'wake time phase difference'],
      dtype='object')

In [21]:
nap_bedtime = df.loc[df.napping==1,["24 h sleep duration"]]
no_nap_bedtime = df.loc[df.napping==0,["24 h sleep duration"]]
ttest_ind(nap_bedtime, no_nap_bedtime, equal_var=True)

Ttest_indResult(statistic=array([1.48112482]), pvalue=array([0.1558665]))

**Pregunta**: ¿`scipy.stats.ttest_ind` devuelve valores para una prueba unilateral o bilateral?

In [22]:
# help(ttest_ind)

# Bilateral, alternative='two-sided' o DOS COLAS 

**Pregunta**: ¿Puedes pensar en una forma de recuperar los resultados que obtuviste usando `1-t.cdf` del valor p dado por `scipy.stats.ttest_ind`?

Utilice la función `scipy` `scipy.stats.ttest_ind(a, b, equal_var=True)` para encontrar la estadística de prueba $t$ y el valor p correspondiente para la segunda prueba de hipótesis.

In [23]:
t, pvalue2 = ttest_ind(nap_bedtime, no_nap_bedtime, equal_var=True) 
pvalue2/2

array([0.07793325])

**Pregunta**: Para $\alpha=.05$, ¿rechaza o no rechaza la primera hipótesis? ¿La hora promedio de acostarse para los niños pequeños que toman siesta es más tarde que la hora promedio de acostarse para los niños pequeños que no toman siesta?

**Pregunta**: Para $\alpha=.05$, ¿rechaza o no rechaza la segunda hipótesis? La duración promedio del sueño de 24 horas (en minutos) para los niños pequeños que duermen la siesta es diferente de la de los niños pequeños que no duermen la siesta.

In [25]:
(pvalue1, pvalue2)

(array([0.03105167]), array([0.1558665]))

Para la primera hipótesis, se encontró evidencia estadística significativa para rechazar la hipótesis nula y aceptar la hipótesis alternativa de que existe una diferencia en la hora promedio de acostarse entre los niños que toman siesta y aquellos que no la toman. Concretamente, se observó que los niños que toman siesta se acuestan más tarde en promedio que los que no toman siesta.

En cuanto a la segunda hipótesis, no se encontraron pruebas estadísticas suficientes para rechazar la hipótesis nula. Por lo tanto, no se puede concluir que exista una diferencia en la duración del sueño de 24 horas entre los niños que toman siesta y los que no la toman.

In [28]:
nap_bedtime = df.loc[df.napping==1,["night bedtime","24 h sleep duration"]]
nap_bedtime.size
no_nap_bedtime = df.loc[df.napping==0,["night bedtime","24 h sleep duration"]]
no_nap_bedtime.size

10

In [29]:
no_nap_bedtime

Unnamed: 0,night bedtime,24 h sleep duration
0,20.45,629.4
1,19.23,672.4
2,19.6,628.8
3,19.46,766.6
4,19.21,678.0


In [42]:
print("h1",ttest_ind(no_nap_bedtime["night bedtime"],nap_bedtime["night bedtime"], equal_var=True) )
print("h2",ttest_ind(no_nap_bedtime["24 h sleep duration"],nap_bedtime["24 h sleep duration"], equal_var=True) )

h1 Ttest_indResult(statistic=-2.4106381824626966, pvalue=0.026834082877686044)
h2 Ttest_indResult(statistic=-1.4811248223284985, pvalue=0.1558664953018476)


In [45]:
_,p=ttest_ind(no_nap_bedtime["night bedtime"],nap_bedtime["night bedtime"], equal_var=True)
p/2

0.013417041438843022

In [44]:
from scipy.stats import ttest_ind

nap_bedtime = df[df['napping']==1]
no_nap_bedtime = df[df['napping']==0]

t_stat, p_value = ttest_ind(no_nap_bedtime['night bedtime'], equal_var=True)
print(f"p-value: {p_value:.4f}")


TypeError: ttest_ind() missing 1 required positional argument: 'b'

In [41]:
print(2 * (norm.cdf(-abs(2.41))))

0.01595252052146745
