# Gerardo de Miguel González

## Práctica 3 de Estadística para Data Science

### Problema 1 

*Estamos esperando un tren que llegará en los próximos 100 minutos pero desconocemos el momento exacto. Definimos la variable aleatoria X = “tiempo de espera en minutos”.*

Realiza las siguientes tareas:

i) Considera que X es una variable aleatoria uniforme en el intervalo [0, 100]. ¿Cuánto vale
E(X) y Var(X)?

**::GMG::** Apuntes de estadísica (pdf) *4.2. Distribución Uniforme continua* pp.26-27. Ver también: https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Properties

$f(x)=  \begin{cases} 
      \frac{1}{b-a} & a\leq x\leq b \\
      0 & otherwise \\
   \end{cases}$

$E(X) = \frac{b+a}{2}$

$Var(X) = \frac{(b-a)^2}{12}$

Comandos de R: `dunif` (pdf), `punif` (CDF), `qunif` ($CDF^{-1}$), `runif` (sim)

In [10]:
#::GMG:: El tiempo de espera es una variable aleatoria uniforme continua en el intervalo [0,100]
#        X ~ U (a,b)
a <- 0
b <- 100
# El tiempo medio de espera y la varianza, en minutos y minutos al cuadrado
paste('E(X) =', (b+a)/2, 'minutos')
paste('Var(X)  =', round((b-a)^2/12,3), 'minutos^2')

In [13]:
#::GMG::Según la definición de E(X)
f <- function(x) {1/(b-a)}
E.x <- integrate(f = function (x) {x*f(x)},
                 lower = a, 
                 upper = b
                )
paste('E(X) =', E.x$value, 'minutos')

In [14]:
#::GMG::Según la definición de Var(X) = E(X^2) - E(X)^2
E.x.2 <- integrate(f = function (x) {x^2*f(x)},
                   lower = a, 
                   upper = b
                 )
Var.x = E.x.2$value - E.x$value^2
paste('Var(X)  =', round(Var.x,3), 'minutos^2')

In [15]:
#::GMG:: Usando la función de R para la pdf de X ~ U (a,b)
# https://www.rdocumentation.org/packages/stats/versions/3.5.1/topics/Uniform
E.x.alt <- integrate(f = function (x) {x*dunif(x,a,b)},
                 lower = a, 
                 upper = b
                )
paste('E(X) =', E.x.alt$value, 'minutos')

In [16]:
E.x.2.alt <- integrate(f = function (x) {x^2*dunif(x,a,b)},
                   lower = a, 
                   upper = b
                 )
Var.x.alt = E.x.2.alt$value - E.x.alt$value^2
paste('Var(X)  =', round(Var.x.alt,3), 'minutos^2')

ii) Simula los tiempos de espera de una muestra aleatoria de personas con tamaño muestral
n = 30 y calcula la media muestral, $\bar{X}$ y la varianza muestral $S^2$.

In [18]:
#::GMG::Para simular los tiempos de espera uso runif directamente ya que tenemos
#       todos los datos
# Fijamos un seed para poder repetir el experimento
set.seed(1)
X <- runif(n = 30,min = a, max = b)

In [27]:
#::GMG::La media muestral t la varianza muestral se pueden calcular con R mean() y var()
paste('Media muestral (n = 30):', round(mean(X),3), 'minutos')
paste('Varianza muestral (n = 30):', round(var(X),3), 'minutos^2')

iii) ¿Cuanto valen E($\bar{X}$) y Var($\bar{X}$) para n = 30? Y si aumentaramos a n = 100?

**::GMG** Apuntes de estadística *5.3. Media muestral* y *5.4 Teorema central del límite* pp. 34

In [28]:
#::GMG::La media muestral es una variable aleatoria con su E() y Var()
# E(mean(X)) = E(X) y Var(mean(X)) = Var(X)/n
paste('Esperanza Matemática (n = 30):', E.x$value)
paste('Varianza Matemática (n = 30):',round(Var.x/30,3))

In [30]:
#::GMG::Para el caso de una muestra de tamaño 100
set.seed(1)
X.100 <- runif(n = 100,min = a, max = b)
paste('Media muestral (n = 100):', round(mean(X.100),3), 'minutos')
paste('Varianza muestral (n = 100):', round(var(X.100),3), 'minutos^2')
paste('Esperanza Matemática (n = 100):', E.x$value)
paste('Varianza Matemática (n = 100):',round(Var.x/100,3))

iv) Simula 500 muestras aleatorias de tamaño = 30 de la variable X. Recomendación: Introduce las muestras en una matriz de 30 filas y 500 columnas.

In [31]:
set.seed(1)
tamaño <- 30
muestras <- 500
M.x.30 <- matrix(data = runif(n = tamaño*muestras, min = a, max = b), 
                 nrow = 30, ncol = 500, byrow = TRUE)
dim(M.x.30)

v) Calcula las 500 medias muestrales, es decir $\bar{X}_1$, $\bar{X}_2$, ... $\bar{X}_{500}$. Recomendación: Utiliza el comando `colMeans`.

In [33]:
media.M.30 <- colMeans(M.x.30)
str(media.M.30)

 num [1:500] 48.4 54.9 48.3 50.3 50.3 ...


vi) Calcula la media y varianza de las 500 medias muestrales y comparalas con los valores
obtenidos en el tercer apartado.

vii) Repite los tres pasos anteriores para 500 muestras aleatorias de tamaño n = 100.

viii) Representa las 500 medias de tamaño n = 30 y las 500 medias de tamaño n = 100 mediante
dos histogramas en una gráfica de dos paneles.

ix) Superpón a cada histograma la función densidad normal con μ = E(X) y $σ^2$ = Var(X)/n.

x) Comenta el resultado.