# Fundamentos de Estadística

El objetivo fundamental de la estadística es proveer conclusiones respecto a una **población** determinada a partir de **muestras**

## Estimación Puntual

Una estimación puntual es el "mejor pronóstico" sobre algún valor de interés. La cantidad de interés puede ser el parámetro de un modelo, una distribución acumulada $F$, una distribución de probabilidad $f$, una función de regression $r(x)$, o la predicción del valor futuro de una variable $Y$.

Por convención, $\theta$ representa un parámetro fijo desconocido y $\hat\theta_n$ representa su estimación puntual. Es importante notar que $\hat\theta_n$ depende de los datos y por lo tanto es una variable aleatoria.

Observe que una estimación puntual se obtiene a partir de una función $T(X_1, ..., X_n)$, conocida como  **estimador** o **estadístico**. Dicha función depende de los valores de una muestra aleatoria $\{X_1, ..., X_n\}$ para calcular el valor puntual:

$$\hat\theta_n = T(X_1, ..., X_n)$$

## Momentos Muestrales

Sea $X_1, ..., X_n$ una muestra aleatoria de tamaño $n$, entonces definimos la **media muestral** como:

$$\bar{X_n} = \frac{1}{n} \sum_{i = 1}^n X_i$$

La **varianza muestral** está definida por:

$$S_n^2 = \frac{1}{n-1} \sum_{i = 1}^n (X - \bar{X_n})^2$$

<div class="alert alert-block alert-info">
<b>TEOREMA:</b>
<p>
    
Si $X_1, ..., X_n$ son iid, entonces

$$E(\bar{X_n}) = \mu, \hspace{10pt} V(\bar{X_n}) = \frac{\sigma^2}{n}, \hspace{5pt} \text{y} \hspace{5pt} E(S_n^2) = \sigma^2$$

donde $E(X_i) = \mu$ y $V(X_i) = \sigma^2$ para todo $i = 1, ..., n$.
</div>

## Propiedades de los Estimadores

Decimos que un estimador es **insesgado** si 

$$E(\hat\theta_n) = \theta$$

Podemoslos definir también el sesgo de un estimador como 

$$\texttt{bias}(\hat\theta_n) = E(\hat\theta_n) - \theta$$

Un requisito razonable para un estimador es que converga al valor del parámetro de interés si aumentamos el tamaño muestral.

La distribución de $\hat\theta_n$ se conoce como **distribución muestral** y la desviación estandar de $\hat\theta_n$ se llama **error estándar** y se denota por $\texttt{se}$

$$\texttt{se} = \sqrt{V(\hat\theta_n)}$$

Comunmente, desconocemos la distribución muestral y, por lo tanto, $\texttt{se}$ es desconocido. Sin embargo, es usual que podamos estimar el error estandar. A esta estimación la denotamos por $\hat{\texttt{se}}$

Un estimador insesgado $\hat\theta_1$ es más **eficiente** que otro estimador insesgado $\hat\theta_2$ si

$$V(\hat\theta_1) < V(\hat\theta_2)$$

Para evaluar la calidad del una estimación puntual algunas veces usamos el **error cuadrático medio**, o $\text{MSE}$, que se define como

$$\text{MSE} = E_\theta (\hat\theta_n - \theta)^2 = \texttt{bias}^2(\hat\theta_n) + V_\theta(\hat\theta_n)$$

## Ley de los Grandes Números

Una secuencia de variables aleatorias $\{X_n\}$ **converge en probabilidad** a una constante $c$ si

$$\lim_{n \to \infty} \mathbb{P}(|X_n - c| > \epsilon) = 0, \text{ para } \epsilon > 0$$

Para abreviar decimos que $X_n \overset{p}{\to} c$

<div class="alert alert-block alert-info">
<b>Ley de los Grandes Números:</b>
<p>

Sea una $\{X_i\}_{i = 1}^n$ una secuencia de variables iid tal que $E(X_i) = \mu < \infty$, entonces 

$$ \frac{1}{n} \sum_{i = 1}^n X_i = \bar{X_n} \overset{p}{\to} \mu$$
</div>

## Teorema del Limite Central

El resultado anterior es muy poderoso. Otro resultado fundamental en estadística y en econometría es el teorema del límite central 

<div class="alert alert-block alert-info">
<b>TEOREMA:</b>
<p>

Sea una $\{X_i\}_{i = 1}^n$ una secuencia de variables iid tal que $E(X_i) = \mu < \infty$ y $V(X_i) = \sigma^2 < \infty$. Definamos 

$$Z_n = \frac{\sum_{i = 1}^n X_i - n\mu}{\sigma \sqrt n} = \frac{\bar X - \mu}{\sigma/\sqrt n}$$

Entonces la función de distribución de $Z_n$ converge hacia la función de distribución de una variable normal estandar cuando $n \to \infty$, es decir, 

$$\lim_{n \to \infty} P(Z_n \leq z) = \Phi(z) = \int_\infty^z \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx$$

</div>

Decimos entonces que un estimador puntual es **consistente** si 

$$\hat\theta_n \overset{p}{\to} \theta$$

Un estimador es **asintóticamente normal** si 

$$\frac{\hat\theta_n - \theta}{\texttt{se}} \to N(0, 1)$$

<div class="alert alert-block alert-info">
<b>TEOREMA:</b>
<p>

Si $\texttt{bias} \overset{n \to \infty}{\longrightarrow} 0$ y $\texttt{se} \overset{n \to \infty}{\longrightarrow} 0$, entonces $\hat\theta_n$ es consistente. Es decir, $\hat\theta_n \overset{p}{\to} \theta$
</div>

## Intervalos de Confianza

Un **intervalo de confianza** a un nivel del $1 - \alpha$ para un parámetro $\theta$ es un conjunto $C_n = (a, b)$ donde $a = a(X_1, ... , X_n)$ y $b = b(X_1, ..., X_n)$ son funciones de los datos tal que

$$\mathbb{P}_\theta (\theta \in C_n) \geq 1 − \alpha, \text{ para todo } \theta \in \Theta$$

En otras palabras, $(a, b)$ contiene a $\theta$ con probabilidad $1 - \alpha$. La tasa de **convergencia** del intervalo es $1 - \alpha$.

<div class="alert alert-block alert-info">
<b>TEOREMA:</b>
<p>

Suponga que $\hat\theta_n \sim N (\theta, \texttt{se}^2)$. Sea $Z \sim N(0, 1)$, $\Phi$ su distribución acumulada, y $z_{\alpha/2} = \Phi^{-1}\left(1 - \frac{\alpha}{2}\right)$. De esta manera, $\mathbb{P}(Z > z_{\alpha/2}) = \alpha/2$ y $\mathbb{P}(-z_{\alpha/2} < Z < z_{\alpha/2}) = 1 - \alpha$.
    
Sea
    
$$C_n = (\hat\theta_n - z_{\alpha/2} \cdot \texttt{se} \text{ } , \text{ } \hat\theta_n + z_{\alpha/2} \cdot \texttt{se})$$

Entonces, 

$$\mathbb{P}_\theta(\theta \in C_n) \to 1 - \alpha$$
</div>

**Demostración**. 

Sea $Z_n = \frac{(\hat\theta_n - \theta)}{\texttt{se}}$, luego $Z_n \sim N(0, 1)$. 

De esta manera,

\begin{align*}
    \mathbb{P}_\theta (\theta \in C_n) & = \mathbb{P} \left(\hat\theta_n - z_{\alpha/2} \cdot \texttt{se} < \theta < \hat\theta_n + z_{\alpha/2} \cdot \texttt{se} \right) \\
     & = \mathbb{P} \left( - z_{\alpha/2} < \frac{(\hat\theta_n - \theta)}{\texttt{se}} < z_{\alpha/2} \right) \\
     & = \mathbb{P} \left( - z_{\alpha/2} < Z_n < z_{\alpha/2} \right) \to \mathbb{P} \left( - z_{\alpha/2} < Z < z_{\alpha/2} \right) = 1 - \alpha
\end{align*}

## Intervalo para Medias

Sea una $\{X_i\}_{i = 1}^n$ una secuencia de variables iid tal que $E(X_i) = \mu < \infty$ y $V(X_i) = \sigma^2 < \infty$.

Los resultados anteriores nos permiten concluir que $\bar{X_n} \sim N(\mu, \frac{\sigma^2}{n})$. Por lo tanto, sabemos que 

$$Z_n = \frac{\bar X_n - \mu}{\sigma/\sqrt n} \sim N(0, 1)$$

$$\mathbb{P} \left( - z_{\alpha/2} < Z_n < z_{\alpha/2} \right) = \mathbb{P} \left( - z_{\alpha/2} < \frac{\bar X_n - \mu}{\sigma/\sqrt n} < z_{\alpha/2} \right) \to 1 - \alpha$$

Así, podemos concluir que

$$ \mathbb{P} \left(\bar X_n - z_{\alpha/2} \cdot \sigma/\sqrt n < \mu < \bar X_n + z_{\alpha/2} \cdot \sigma/\sqrt n \right) \to 1 - \alpha$$

El resultado anterior nos dice que a partir de una muestra de tamañano $n$ podemos estimar que el parámetro desconocido $\mu$ se encuentra en el intervalo $(\bar X_n - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt n}, \bar X_n + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt n})$ con una confianza del $(1 - \alpha) 100\%$. Sin embargo, debemos conocer el parámetro $\sigma$.

Si no conocemos $\sigma$, podemos estimarlo usando $S_n^2$. En este caso, debemos definir

$$T_n = \frac{\bar X_n - \mu}{S/\sqrt n} \sim t_{n-1}$$

Luego, el intervalo de confianza para $\mu$ está dado por 

$$\left(\bar X_n - t_{\alpha/2,\text{ } n-1} \cdot \frac{S}{\sqrt n}, \bar X_n + t_{\alpha/2,\text{ } n-1} \cdot \frac{S}{\sqrt n} \right)$$

## Intervalo para Diferencia de Medias

El intervalo de confianza para la diferencia de medias $\mu_1 - \mu_2$ para dos poblaciones que se distrubuyen normal con varianzas $\sigma_1^2$ y $\sigma_2^2$ usando muestras aleatorias independientes está dado por

$$\left( (\bar X_1 - \bar X_2) - z_{\alpha/2} \cdot \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \hspace{4pt} , \hspace{4pt} (\bar X_1 - \bar X_2) + z_{\alpha/2} \cdot \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \right)$$

Si se desconocen los parámetros $\sigma_1^2$ y $\sigma_2^2$, el intervalo de confianza está dado por

$$\left( (\bar X_1 - \bar X_2) - t_{\alpha/2, n_1 + n_2 - 2} \cdot  S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \hspace{4pt} , \hspace{4pt} (\bar X_1 - \bar X_2) + t_{\alpha/2, n_1 + n_2 - 2} \cdot  S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \right)$$

donde 

$$S_p = \sqrt{\frac{(n_1-1) S_1^2 + (n_2-1) S_2^2}{n_1 + n_2 - 2}}$$

## Prueba de Hipótesis

Una **hipótesis estadística** es una afirmación o conjetura acerca de un parámetro poblacional desconocido. 

Para probar una hipótesis, iniciamos con una teoría o **hipótesis nula** ($H_0$) y nos preguntamos si los datos proveen suficiente evidencia para rechazar dicha teoría. En caso de rechar dicha hipótesis, decimos que se rechaza a favor de una **hipótesis alternativa** ($H_1$). Usalmente, escribimos

$$H_0 : \theta = \kappa$$
$$H_1 : \theta \neq \kappa$$

La hipótesis se prueba encontrando una **región de rechazo**, $R$, tal que 

$$\text{si } \hat\theta_n \in R \Rightarrow \text{ rechace } H_0$$
$$\text{si } \hat\theta_n \not\in  R \Rightarrow \text{ no rechace } H_0$$


Cuando realizamos pruebas de hipótesis podemos caer en dos tipos de errores:

|              | Aceptar $H_0$          | Rechazar $H_0$          |
|--------------|------------------------|-------------------------|
| $H_0$ verdad | Ok                     | Error tipo 1 ($\alpha$) |
| $H_0$ falsa  | Error tipo 2 ($\beta$) | Ok (poder)              |

Es dificil minimizar ambos errores al tiempo, asi que fijamos un nivel bajo para $\alpha$.

El **p-valor** es el nivel de significancia más pequeño al cual podemos rechazar la hypothesis nula.

## Hipotesis para Medias

Suponga que $X_i \sim N(\mu, \sigma^2)$ y queremos probar que $H_0 : \mu = \mu_0$ versus $H_1 : \mu \neq \mu_0$

Asumiendo que $\sigma$ es desconocido, usaremos el siguiente estadístico de prueba:

$$T = \frac{\bar X -  \mu_0}{S/\sqrt n} \sim t_{n-1}$$

A un nivel $\alpha$, la región de rechazo de la hipotesis nula está definida por $|T| \geq t_c$ donde el valor crítico es $t_c = t_{\alpha/2, \hspace{3pt} n-1}$ 

Observe que no rechazamos $H_0$ si

$$\mu_0 \in \left(\bar X_n - t_{\alpha/2,\text{ } n-1} \cdot \frac{S}{\sqrt n}, \bar X_n + t_{\alpha/2,\text{ } n-1} \cdot \frac{S}{\sqrt n} \right)$$

<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

Suponga que $\bar X = 5$ y $S^2 = 2$. ¿Podemos concluir que $\mu = 6$ con una muestra de 25 observaciones?

</div>

In [56]:
#Definir un nivel de significancia
alpha <- 0.05

#Valores dados
xbar <- 5.5
S <- sqrt(2)
n <- 25

#Estadístico de Prueba
T = (xbar - 6)/(S/sqrt(n)); print(paste("T = ", T))

#Region de no rechazo
tc <- qt(alpha/2, n-1) #Valor crítico
paste("Región de No Rechazo = [", round(tc, 3), " , ", -round(tc, 3), "]")

#P-valor
pval <- 2*pt(T, n-1); pval

#Region con p-valor
tc <- qt(pval/2, n-1) #Valor crítico
paste("Región de p-valor = [", round(tc, 3), " , ", -round(tc, 3), "]")

[1] "T =  -1.76776695296637"
