<img src="logo.png">

In [None]:
library(tidyverse)
library(MASS)

# Inferencia Estadística

En la práctica, los datos que vamos a tener conforman una muestra. La Inferencia Estadística se basa en obtener información sobre la población, a partir de esos datos muestrales. Usualmente no sabremos cuál es la distribución de nuestros datos. En el caso multivariante vamos a tener más de una variable, con lo cual, se dificulta más el proceso. 

El promedio, o la media, de una muestra no tiene por qué coincidir con la media poblacional. Eso es porque es una estimación puntual. No sabemos cuán lejos o cerca está de la media poblacional.

¿Y si queremos tener más seguridad sobre el valor real del parámetro poblacional?

* Podríamos usar estimadores muestrales con buenas propiedades que nos aseguren que esa estimación puntual está bastante cerca de ese valor poblacional.


* Podríamos dar un rango de valores en el que, con una determinada “confianza” el valor real poblacional va a estar incluido en ese intervalo. Eso sería obtener un “intervalo de confianza” para el parámetro que estamos estimando.


* Otra idea es contrastar una hipótesis en base a la información muestral que tenemos.

## Estadísticos muestrales

Supogamos que $X=(X_1,X_2,...,X_p)$ es una variable aleatoria multivariante, de la cual tenemos una *muestra de tamaño $n$*. Esto significa que tenemos una tabla de $n$ filas (registros), donde cada fila representa un individuo (u observación) que estuadiamos. El alumno $i$ lo denotamos por $\boldsymbol{x_i}=(x_{i1},x_{i2},...,x_{ip})$ (cada $x_{ik}$ representa el valor observado de la característica $k$ en el individuo $i$). Llamemos $\boldsymbol{X}$ a la matriz de datos.

Si no sabemos la distribución de $X$, podemos usar alguna función de la muestra para obtener información sobre las propiedades de la distribución en la población.

Esas funciones de la muestra son los estadísticos muestrales:
* Los estadísticos van a ser también variables aleatorias con su propia distribución.
* Necesitamos su distribución para saber la relación entre el estadístico y su contraparte poblacional.

# Teorema Central del Límite

## Caso univariante

Tomemos $n$ variables aleatorias univariantes $X_1,X_2,...,X_n$, independientes entre sí, todas con la misma distribución, la misma media $\mu$ y la misma varianza $\sigma^2$. Si $n$ es suficientemente grande ($n\ge 30$), entonces $$\frac{X_1+X_2+...+X_n}{n}$$ es aproximadamente una normal con media $\mu$ y varianza $\frac{\sigma^2}{n}$.

En cristiano: si tomas una característica de una población, y de esa población te tomas una muestra de tamaño $n$, entonces, si el valor de la característica de un individuo no afecta el valor de la característica en ningún otro de tu muestra, se cumplirá que el valor promedio de la característica en toda tu muestra es una normal. 

**Ejemplo univariante**

Supongamos que en una población de gente que paga una renta de vivienda, la renta sigue una distribución uniforme en entre 4,000 y 10,000 al mes. Veamos que si tomamos muestras de tamaño $n=100$, el pago promedio de las rentas de cada muestra sigue una distribución normal. 

In [None]:
# Tomaremos 1000 muestras de tamaño 100; 
# cada una de ellas de una distribución uniforme U(4000,10000)

x = replicate(2000,runif(n=100,min=2,max=3))
x = data.frame(x)

ggplot(data=x) +
    geom_density(mapping=aes(x=X3))

In [None]:
Medias = data.frame(medias=colMeans(x))

In [None]:
ggplot(data=Medias) +
   geom_density(aes(x=medias)) 

¿Para qué nos sirve esto?

Supongamos que tenemos 200 viviendas y queremos el porcentaje de viviendas cuyo promedio de renta mensual no supera los 2,300. Como las rentas mensuales siguen una distribución uniforme, entonces el promedio de rentas mensuales no siguen una distribución fácil de describir, por lo que el cálculo no se puede hacer directamente.

Sin embargo, gracias a este teorema, sabemos que el promedio es una normal con media $\mu=2.5$ y $sd=0.1$.

Por lo tanto $P(promedio < 2.3)$ es fácilmente calculable:

In [None]:
100*pnorm(2.3,mean=2.5,sd=0.1)