# Modelo de Regresión Lineal

La regresion es un método que nos permite estudiar la relación entre una variable de resultado $Y$ y una covariable o predictor $X$.

La función de regresión, $r(X)$, resume la relación entre $X$ y $Y$: 

$$
r(x) = \mathbb{E}(Y | X = x) = \int y f(y|x) dy.
$$ 

Nuestro objetivo es estimar $r(x)$ usando datos de la forma: 

$$
(Y_1, X_1), ..., (Y_n, X_n) \sim F_{X, Y}.
$$

Definamos el error $\varepsilon = Y - r(x)$. De esta manera, podemos escribir: 

$$
Y = r(x) + \varepsilon
$$

## Regresión Simple o Univariada

En su versión más simple, $X$ es unidimensional y asumimos que $r(x)$ es lineal. Así, 

$$r(x) = \beta_0 + \beta_1 x.$$

Inicialmente también asumiremos que $\mathbb{V}(\varepsilon | X = x) = \sigma^2$ no depende de $X$. 

<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

La función de demanda inversa establece la relación entre precios $P_i$ y cantidades $Q_i$. Esta relación la podemos estimar a partir de una modelo de la forma: 
    
$$P_i = \alpha + \beta \cdot Q_i + u_i$$

Quisieramos probar la siguiente hipótesis:
    
$$H_0: \beta < 0$$
    
$$H_1: \beta \geq 0$$

</div>

El modelo regresión lineal simple se define como: 

$$
Y_i = r(x) + \varepsilon_i = \beta_0 + \beta_1 X_i + \varepsilon_i
$$ 

$$\mathbb{E}(\varepsilon_i | X_i) = 0$$

$$\mathbb{V}(\varepsilon_i | X_i) = \sigma^2$$

Observe que los parámetros desconocidos en este modelo son el intercepto $\beta_0$, la pendiente $\beta_1$, y la varianza $\sigma^2$.

Note que a partir de los supuestos anteriores podemos determinar que:

$$\mathbb{E}(Y_i | X_i) = \mathbb{E}(\beta_0 + \beta_1 X_i | X_i) = \beta_0 + \beta_1 X_i$$

$$\mathbb{V}(Y_i | X_i) = \mathbb{V}(\varepsilon_i | X_i) = \sigma^2$$

## Mínimos Cuadrados Ordinarios (MCO)

Para estimar $\beta_0$ y $\beta_1$ podemos usar el método MCO, de manera formal: 

$$\{\hat\beta_0, \hat\beta_1\} = \operatorname*{arg\,min} \mathcal{L}(\beta_0, \beta_1)$$

donde $\mathcal{L}(\beta_0, \beta_1) = \sum_i {\varepsilon_i}^2 = \sum_i ({Y_i} - \beta_0 - \beta_1 X_i)^2$

Las condiciones de primer orden (CPO) de este problema estan dadas por: 

$$\frac{\partial\mathcal{L}}{\partial\beta_0} =  \sum_i (-2) \cdot ({Y_i} - \beta_0 - \beta_1 X_i) = 0$$

$$\frac{\partial\mathcal{L}}{\partial\beta_1} =  \sum_i (-2 X_i) \cdot ({Y_i} - \beta_0 - \beta_1 X_i) = 0$$

A partir de estas condiciones obtenemos los siguientes **estimadores**:

$$\hat\beta_0 = \overline Y - \hat\beta_1 \overline X$$

$$\hat\beta_1 = \frac{\sum_i (X_i - \overline X)(Y_i - \overline Y)}{\sum_i (X_i - \overline X)^2} = \frac{\mathbb{\hat Cov}(X, Y)}{\mathbb{\hat V}(X)}$$ 

De esta manera, la **linea ajustada** está dada por $\hat r(x) = \hat\beta_0 + \hat\beta_1 x$, y los **valores predichos** se definen como $\hat Y_i = \hat r(X_i)$

Definimos además el **residual** como $$\hat \varepsilon_i = Y_i - \hat Y_i = Y_i - \left(\hat\beta_0 + \hat\beta_1 X_i \right)$$

Un estimador insesgado de $\sigma^2$ es 

$$\hat \sigma^2 = \left(\frac{1}{n-2} \right) \sum_{i = 1}^{n} {\hat\varepsilon_i}^2$$