In [1]:
import pandas as pd, numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
from numpy.random import seed, randn
from ipywidgets import interact, IntSlider,FloatSlider

## Distintos tipos de variables en análisis de datos:


1. **Variables Categóricas (o Nominales):** Estas variables representan grupos o categorías que no tienen un orden inherente. Por ejemplo, el color de un coche (rojo, azul, verde) o el tipo de animal (perro, gato, pájaro). Las características de estas variables incluyen:
   - No tienen un orden lógico.
   - Se utilizan para clasificar o agrupar elementos.
   - Comúnmente se usan en análisis de frecuencia o para comparar subgrupos.

2. **Variables Ordinales:** Son aquellas que, al igual que las categóricas, representan categorías, pero con un orden o jerarquía definido. Un ejemplo sería la calificación en una encuesta (malo, regular, bueno, excelente). Características:
   - Tienen un orden claro.
   - La diferencia entre categorías no es necesariamente uniforme.
   - Se usan para entender rangos o jerarquías, como en encuestas de satisfacción.

3. **Variables de Intervalo:** Estas variables numéricas tienen un orden, y la distancia entre cada par de valores es la misma. Un ejemplo  es la temperatura en grados Celsius. Características:
   - Tienen un orden y una diferencia constante entre valores.
   - No tienen un verdadero cero (0 no significa ausencia del fenómeno).
   - Adecuadas para calcular diferencias y promedios.

4. **Variables de Razón (o Escala de Razón):** Son similares a las de intervalo, pero con la adición de un punto cero absoluto, lo que significa que 0 indica ausencia total del atributo. Ejemplos incluyen la edad, el ingreso, o el peso. Características:
   - Tienen todas las propiedades de las variables de intervalo más un cero absoluto.
   - Permiten una gama completa de operaciones estadísticas, incluyendo multiplicaciones y divisiones.

Otros ejemplos de variables de intervalo:

1. **Tiempo en un reloj de 12 o 24 horas:** 



2. **Fechas en el calendario (sin considerar años):** 

3. **Latitud y longitud geográfica:** Estas medidas indican ubicación, y aunque tienen un orden y una diferencia constante (grados, minutos, segundos), el punto de 0 grados (ya sea latitud o longitud) es un punto de referencia arbitrario, no una ausencia de ubicación.

In [2]:
## 

## Modelo de Regresión Lineal

Comencemos con el modelo de regresión lineal simple, donde sólo tenemos una variable explicativa (o predictora) $x$ y una variable respuesta $y$.

Nos interesa explicar o predecir $y$ mediante $x$ y **asumimos** que la relación entre ambas es de la forma:

$$
y = \beta_0 + \beta_1 x + \epsilon   \; \; \; \;...(1)
$$

donde $\beta_0$ y $\beta_1$ son los **coeficientes de regresión** y $\epsilon$ es un error.

Es decir, es una relación lineal y podemos aproximarla mediante una recta.

Por ejemplo:

1. $ingreso = \beta_0 + \beta_1 \times educacion + \epsilon$  
2. $ingreso = \beta_0 + \beta_1 \times educacion + \beta_2 \times $ingreso_padres$ + \beta_3 \times salud + \epsilon$ 

Normalmente, una relación / asociación de este tipo se ve de la siguiente forma:

<img src="relacion_lineal.png" alt="Alt text" style="width: 600px;"/>

y queremos encontrar una linea que "represente bien" esta forma en los datos.

Si para las variables $x$ y $y$ tomamos, por ejemplo, 100 observaciones, entonces tendríamos una tabla de datos de la siguiente forma:
x|y
-|-
$x_1$|$y_1$
$x_2$|$y_2$
$x_3$|$y_3$
...|...
$x_i$|$y_i$
...|...
$x_{100}$|$y_{100}$

donde $x_i$ es el valor de la variable explicativa (predictora o independiente) del individuo $i$, y $y_i$ el valor de la variable respuesta del individuo $i$

## ¿Qué quiere decir una línea que represente bien la relación en los datos?


+ Queremos aproximar $y$ dado $x$ de la siguiente manera: 

$$
 \hat y = \hat\beta_0 + \hat\beta_1 x
$$

donde $\hat y$ es  nuestro valor estimado (o predicho) y $\hat\beta_0$ y $\hat\beta_1$ son nuestros coeficiente óptimos (bajo qué métrica??)

En este modelo tenemos UNA SOLA variable predictora (feature, 'independent', 'regressor')

NOTA: Estamos asumiendo que los datos $y$ 'se generan' de la forma $\beta_0 + \beta_1 x + \epsilon$ , pero desconocemos los verdaderos valores de los coeficientes.

Frecuentemente, asumimos además que los errores provienen de una distribución $N(0,\sigma^{2})$ y que son independientes

### Necesitamos un criterio
+ ¿Cómo encontramos  $\hat\beta_0$, $\hat\beta_1$?
+ Un **criterio** puede ser **minimizar la suma de cuadrados de los errores** SSE (sum of squared errors) $\sum_{i=1}^{n} (\beta_0 + \beta_1 x_i - y_i)^2$ o el promedio de este $\frac{1}{n}SSE = J(\beta_0, \beta_1)$
+ Considerando $n$ observaciones:

$$
\begin{align}
    J(\beta_0, \beta_1)  &= \frac{1}{n}\sum_{i=1}^{n} (\beta_0 + \beta_1 x_i - y_i)^2 \\
                          &= \frac{1}{n} \left[(\beta_0 + \beta_1 x_1 - y_1)^2 + (\beta_0 + \beta_1 x_2 - y_2)^2 + \ldots + (\beta_0 + \beta_1 x_{n} - y_{n})^2\right]
\end{align} 
$$

+ Nos gustaría minimizar $J(\beta_0, \beta_1)$ el cual representa un error cuadrático medio o MSE (Mean Squared Error) y por tanto mide las desviaciones al cuadrado entre nuestras predicciones (aún no hechas) y la observación real
+ A este criterio se le conoce como **MÍNIMOS CUADRADOS ORDINARIOS (MCO)**

In [3]:
## Un ejemplo visual que nos ayuda a entender esto de una mejor forma:

In [4]:
def J(yhat, y): return np.sum((yhat -y)**2)/len(y)

In [6]:
def plotJ(beta0,beta1):
    seed(31415) #para reproducibilidad
    x = np.array([1,1.5,2,3,4,5,5.5]) #7 observaciones
    y = .3 +1.5*x +randn(len(x)) # como se genera la y = 0.3 + 1.4x +error
    xrange = np.linspace(min(x), max(x), 100)
    yhat = beta0 + beta1*xrange
    plt.scatter(x,y)
    plt.plot(xrange, yhat, color = 'crimson')
    plt.ylim(0,12)
    plt.title(r" (1/n)SSE = $J(\beta_0,\beta_1)=$"+ format(J(beta0+x*beta1,y),".2f"))
    for xi, yi in zip(x,y):
        pred = beta0 +beta1*xi
        plt.vlines(xi,yi,pred)
        plt.text(xi+.1, yi, round((yi-pred)**2,2))

In [7]:
#interactivo
_=interact(plotJ,
        beta0 = FloatSlider(min=-1, max=2, step =.1),
        beta1 = FloatSlider(min=-1, max=2, step =.1))

interactive(children=(FloatSlider(value=0.0, description='beta0', max=2.0, min=-1.0), FloatSlider(value=0.0, d…

$J(\beta_0, \beta_1)$ representa una región con forma de paraboloide:


<img src="paraboloid_cost.png" alt="Alt text" style="width: 600px;"/>


Para un dataset (x,y) con $n$ observaciones, puede demostrarse que los valores $\beta_0^*$, $\beta_1^*$ que minimizan $J(\beta_0, \beta_1)$ son: 
$$
    \beta_1^* = \frac{n\sum_{i=1}^nx_iy_i - \left(\sum_{i=1}^nx_i\right)\left(\sum_{i=1}^ny_i\right)}{n\sum_{i=1}^nx_i^2 - \left(\sum_{i=1}^nx_i\right)^2}
$$

$$
    \beta_0^* = \frac{1}{n}\sum_{i=1}^ny_i - \beta_1^* \frac{1}{n}\sum_{i=1}^nx_i
$$

In [None]:
# pero esta notación no es muy amigable...

## Regresión Lineal Múltiple


Supongamos que tenemos $n$ observaciones, cada una con $p$ variables predictoras (o features). El modelo en este caso es:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + + \beta_p x_p + \epsilon   \; \; \; \;...(2)
$$


Tomando $n$ observaciones, donde $x_{i,j}$ denota la $j$-ésima característica o variable de la $i$-ésima observación o individuo, 
el problema sería encontrar $\hat\beta_0, \hat\beta_1, \ldots, \hat\beta_p$. Nuestra predicción $\hat y_i$ para la $i$-ésima observación  estaría dada por
$$
    \begin{align}
    \hat y_i &= \hat\beta_0 + \hat\beta_1 x_{i1} +  \hat\beta_2 x_{i2} + \ldots + \hat\beta_p x_{ip}\\
            &= \hat\beta^{\prime} x_i
    \end{align}
$$

Donde
$$
   \hat\beta = \begin{bmatrix}
                \hat\beta_0 \\
                \hat\beta_1 \\
                \hat\beta_2 \\
                \vdots  \\
                \hat\beta_p
             \end{bmatrix}
$$

$$
    x_i = \begin{bmatrix}
                1, 
                x_{i1}, 
                x_{i2},
                \ldots, 
                x_{ip}
             \end{bmatrix}
$$

### ¿Cómo encontramos $\hat\beta$ ?

En términos matriciales, si $$
    y = \begin{bmatrix} 
                y_{1}, 
                y_{2},
                \ldots, 
                y_{n}
             \end{bmatrix}^{\prime}
$$

contiene los valores de la variable respuesta para los individuos, y $X$ la matriz de $p$ variables explicativas o predictoras para los $n$ individuos:

$$
    X = \begin{bmatrix}
        – x_1 – \\
        – x_2 – \\
        \vdots \\
        – x_n – \\
        \end{bmatrix}
        = \begin{bmatrix}
                1 & x_{1,1} & x_{1,2} & \ldots & x_{1,p}\\
                1 & x_{2,1} & x_{2,2} & \ldots & x_{2,p}\\
                \vdots & \vdots & \vdots & \ddots & \vdots\\
                1 & x_{n,1} & x_{n,2} & \ldots & x_{n,p}\\
          \end{bmatrix}
$$

Entonces, el **modelo de regresión lineal múltiple** puede representarse como:

$$
y = X\beta + \epsilon
$$

donde
$$
    \epsilon = \begin{bmatrix} 
                \epsilon_{1}, 
                \epsilon_{2},
                \ldots, 
                \epsilon_{n}
             \end{bmatrix}^{\prime}
$$

$$
    \beta = \begin{bmatrix}
                \beta_{0},
                \beta_{1}, 
                \beta_{2},
                \ldots, 
                \beta_{p}
             \end{bmatrix}^{\prime}
$$

Y el criterio de **mínimos cuadrados** nos indica minimizar:

$$
J(\beta_0, \beta_1) = SSE = \epsilon^{\prime}\epsilon = (y - X\beta)^{\prime}(y - X\beta) 
$$

El estimador de Mínimos Cuadrados Ordinarios (MCO) se deriva minimizando la suma de los errores cuadráticos entre los valores predichos y los valores reales de la variable dependiente,  y está dado por:

$$
\hat\beta = (X^{\prime}X)^{-1}X^{\prime}y
$$

donde $(X^{\prime}X)^{-1}$ es la inversa del producto matricial $X^{\prime}X$, y $X^{\prime}$ es la transpuesta de la matriz $X$.

Para derivar este estimador, comenzamos escribiendo el modelo de regresión lineal como:

$$
y = X\beta + \epsilon
$$

donde $e$ es un vector columna de $n \times 1$ de los errores. Nuestro objetivo es encontrar los valores de $b$ que minimicen la suma de los errores cuadrados:

$$
SSE = \epsilon^{\prime}\epsilon = (y - X\beta)^{\prime}(y - X\beta) 
                  = y^{\prime}y -\beta^{\prime}X^{\prime}y - y^{\prime}X\beta + \beta^{\prime}X^{\prime}X\beta
$$

Tomando la derivada de $SSE$ con respecto a $b$ e igualándola a cero, obtenemos:

$$
\frac{\partial SSE}{\partial \beta} = -2X^{\prime}y + 2X^{\prime}X\hat\beta = 0
$$

Resolviendo para $\hat\beta$, obtenemos:

$$
\hat\beta = (X^{\prime}X)^{-1}X^{\prime}y
$$


### Algunas propiedades del estimador MCO

Supongamos que los errores $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$

1. El estimador es insesgado:
$$
\begin{align}
\mathrm{E}(\hat{\beta}) &= \mathrm{E}((X^T X)^{-1} X^T y) = (X^T X)^{-1} X^T \mathrm{E}(y) = (X^T X)^{-1} X^T \mathrm{E}(X\beta + \epsilon) = (X^T X)^{-1} X^TX \mathrm{E}(\beta + \epsilon) = \beta
\end{align}
$$

2. Su varianza está dada por $\sigma^2 (X^T X)^{-1}$

$$
\begin{align}
\mathrm{cov}(\hat{\beta}) &= \mathrm{var}((X^T X)^{-1} X^T y) = (X^T X)^{-1} X^T \mathrm{var}(y)X(X^T X)^{-1} \
= (X^T X)^{-1} X^T \mathrm{var}(\epsilon) X(X^T X)^{-1} \
= (X^T X)^{-1} X^T \sigma^2 I_n X (X^T X)^{-1} \  
= \sigma^2 (X^T X)^{-1}
\end{align}
$$

In [None]:
# Teorema: Gauss -Markov : 
# bAJO los supuestos del modelo de regresión lineal múltiple, el estimador de MCO es, de entre todos los estimadores insesgados
# de beta, (que son c.lineal de las observaciones y), el de mínima varianza. 


+ Los **valor predichos** $\hat{y}$ se calculan como $\hat{y} = X \hat\beta $
+ Notemos que:

$$
\begin{align}
\hat{y} = X \hat\beta &= X(X^{\prime}X)^{-1}X^{\prime}y\\
                    &= Py
\end{align}
$$

donde $P = X(X^{\prime}X)^{-1}X^{\prime}$ es la matriz de **proyección ortogonal** sobre el el espacio columna de $X$:

In [None]:
# se puede probar directamente que P' = P , porque P' = X(X'X)^(-1)X' = P

<img src="proy_ortogonal_mco.png" alt="Alt text" style="width: 600px;"/>

Recordemos que la proyeción ortogonal de un vector $\mathbf{z}$ sobre un vector $\mathbf{w}$ es:

$$\mathrm{proj}_{\mathbf{w}}(\mathbf{z}) = \frac{\mathbf{z} \cdot \mathbf{w}}{|\mathbf{w}|^2} \mathbf{w},$$

donde $\cdot$ denota el producto interior (producto punto en este caso) y $|\cdot|$ denota la norma Euclidiana. 

Veamos lo anterior para el caso de una regresión simple. Entonces, nuestra matriz de predictoras es:
$$
  X = \begin{bmatrix}
        x_1 \\
        x_2 \\
        \vdots \\
        x_n \\
        \end{bmatrix}
$$

y las observaciones de la variables respuesta son:
$$
  y = \begin{bmatrix}
        y_1 \\
        y_2 \\
        \vdots \\
        y_n \\
        \end{bmatrix}
$$
Además:
$$
 X^TX = \sum_i x_{i}^2 = ||X||^2
$$

Los valores estimados $\hat y$ está dado por $X\hat\beta$, de modo que:

$$
\hat y = X\hat\beta = X\frac{1}{||X||^2}X^Ty = \frac{y^TX}{||X||^2}X = \frac{y\cdot X}{||X||^2}X = \mathrm{proj}_{X}(y)
$$