# **Análisis exploratorio y estadística**
# AE-16 - Introducción a la Regresión Lineal


<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">
Contenido opcional


## <font color='blue'>__Regresión lineal simple__</font>

El contenido de esta clase corresponde a la implementación utilizando Python + Numpy para generar una regresión lineal simple, y una regresión lineal múltiple. La idea es poder entender y traspasar el proceso de una notación matemática, a operaciones de código utilizando numpy. Finalmente, enseñar el uso de librerías y comprobar que nuestras implementaciones *from scratch*, obtienen resultados similares a las implementaciones estándar de las librerías.

En primer lugar, importamos las librerías:


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline


Para ilustrar el cómo podemos ajustar una regresión lineal simple, vamos a simular datos aleatorios. Vamos a generar una variable independiente `x`, con valores del 1 al 10, y nuestra variable dependiente `y` corresponderá a una combinación de números enteros obtenidos de forma aleatoria entre $[10,20]$, con nuestra variable $x$.

In [None]:
np.random.seed(42) #Fijamos la semilla aleatoria

x = np.arange(1,11) # Generamos 10 numeros desde el 1 al 10
# Generamos 10 numeros aleatorios entre 10 y 20,
# luego lo multiplicamos con nuestra variable x
y = np.random.randint(10, 20, size=10) * x


plt.scatter(x,y, color='r') # Grafiquemos como se ven nuestros datos.
plt.xlabel("Var $x$")
plt.ylabel("Var $y$")
plt.show()

La idea de la regresión lineal es poder modelar la dependencia de las variables independientes, con las variables dependientes. En este caso, nosotros explícitamente hemos generado esta dependencia de $y$ en función de $x$, pero en set de datos de la vida real, esta dependencia puede ser mucho más complicada de modelar. La forma de una regresión lineal simple corresponde a la siguiente ecuación:

$$Y = \beta_1 X + \beta_0 + \epsilon$$

donde $Y$ corresponde a nuestra variable dependiente, $X$ a nuestra variable independiente, $\beta_1$ al coeficiente de regresión el cual modela la relación de la variable $X$ con la variable $Y$, $\beta_0$ corresponde al intercepto, y $\epsilon$ corresponde a una variable que incluye un conjunto grande de factores, cada uno de los cuales influye en la respuesta sólo en
pequeña magnitud, a la que llamaremos error.

En este caso, nosotros podemos aproximar los valores de $Y$, y los parámetros del modelo ($\beta_1$ y $\beta_0$). Por lo mismo, utilizaremos la notación $\hat{Y}, \hat{\beta_1}, \hat{\beta_0}$ para referirnos a estas aproximaciones. Utilizando el **método de los mínimos cuadrados** podemos estimar los valores de los distintos parámetros:


- Primer paso, calcular $\hat{\beta_1}$

$$\hat{\beta_1} = \frac{(\sum x \sum y) - (n\sum xy)}{(\sum x)^2 - n\sum x^2} =\frac{\sum(x - \bar{x})(y - \bar{y})}{\sum(x - \bar{x})^2}$$

- Segundo paso, calcular $\hat{\beta_0}$ en función de $\hat{\beta_1}$

$$\hat{\beta_0} = \frac{\sum y - \hat{\beta_1}\sum x}{n} = \bar{y} - \hat{\beta_1}\bar{x}$$

Vamos a utilizar la segunda parte de las fórmulas, utilizando una combinación de las funciones de suma y de obtener el promedio (`np.sum` y `np.mean`). En este caso vamos a transformar las sumatorias ($\Sigma$) en `np.sum`, los promedios ($\bar{x}$) en `np.mean`, y $n$ en `len(x)`. Cabe destacar que realizar las operaciones del tipo: $x - \bar{x}$, se pueden realizar debido a que $x$ es un vector de numpy, y este permite operaciones entre vectores y escalares.



In [None]:
x_min_mx = x - np.mean(x)  # x minus mean(x)
y_min_my = y - np.mean(y)  # y minus mean(y)

beta_1 = np.sum(x_min_mx * y_min_my)  / np.sum(x_min_mx**2)
beta_0 = np.mean(y) - (beta_1 * np.mean(x))

print(f'beta_1: {beta_1:5.2f} \nbeta_0: {beta_0:5.2f}')

### <font color='green'>**Actividad 1**</font>

Implementar la primera forma de cada uno de los parámetros:

$$ \hat{\beta_1} = \frac{(\sum x \sum y) - (n\sum xy)}{(\sum x)^2 - n\sum x^2}$$
y
$$ \hat{\beta_0} = \frac{\sum y - \hat{\beta_1}\sum x}{n}$$

- Compruebe que los valores de obtenidos con la primera forma y la segunda forma son iguales
- ¿Qué pasaría con nuestros coeficientes si cambiamos la forma de generar nuestra variable dependiente $Y$? Fije una semilla y reemplace el operador utilizado (en vez de multiplicar por $x$, cambiar por ej: suma)


In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 1</font>

Con los parámetros $\hat{\beta_1}$ y $\hat{\beta_0}$, podemos generar una función la cual reciba el valor el vector $x$, y realizar la estimación de $\hat{Y}$:

In [None]:
# Llamaremos a esta función, lin_reg(x), recibe el vector y utiliza las variables betas calculadas anteriormente
# Una posible mejora, es que reciba los betas por parámetros de la función
def lin_reg(x):
    y_hat = (beta_1 * x) + beta_0 #Aplicamos la forma de la regresión lineal
    return y_hat

Con esta función definida, podemos graficar nuestra recta obtenida utilizando la función `lin_reg`

In [None]:
plt.scatter(x,y,label="Datos originales (Ground Truth)", color='r') # Vamos a gráficar nuestros datos originales
plt.plot(x,lin_reg(x), color="black", label="Regresión lineal") #Luego graficamos la curva ajustada

plt.legend()
plt.show()

Podemos ver que nuestra regresión es bastante cercana a los valores reales utilizados para ajustar la regresión. Nosotros podemos calcular la bondad de ajuste de nuestra regresión, mediante el análisis de los errores. El error se define como: $y_i - \hat{y_i}$ y corresponde a la resta del valor real $i$-ésimo, con el valor ajustado $i$-ésimo.

Utilizando Numpy, este cálculo es relativamente sencillo, para mostrar el paso a paso, vamos a tener los valores del vector $y$:


In [None]:
print(y)

Por otra parte, vamos a tener los valores del vector $\hat{y}$:

In [None]:
print(lin_reg(x))

Luego, los errores $e$, se obtienen simplemente con la resta entre estos dos elementos

In [None]:
e = y - lin_reg(x)
print(e)

Estos errores, podemos graficarlos utilizando el método de matplotlib `vlines` (Vertical Lines). Este método recibe como mínimo 3 parámetros: `x` (los valores en el eje X), `y_min` el inicio de la línea vertical, `y_max` el final de la línea vertical. En este caso, `y_min` va a corresponder a los valores reales $y$, e `y_max` corresponderán a los valores ajustados $\hat{y}$.

In [None]:
fig, ax = plt.subplots(1,1)
ax.plot(x,lin_reg(x), color="black", label="Regresión lineal")
ax.scatter(x,y, label="Datos originales(Ground Truth)", color='r', zorder=3)

ax.vlines(x, y, lin_reg(x), color="b", label="Error (Residuos)") #Gráficamos los Errores en cada punto.

plt.legend()
plt.show()

Como anteriormente lo dijimos, la regresión se ajusta bastante bien a los datos simulados. Por lo mismo, ahora vamos a cuantificar qué tan bien se ajusta la regresión. Para esto, vamos a calcular el $R^2$, en función de la __Suma Total de los Cuadrados__, $SST$) y la __Suma de los Errores Cuadrados__, ($SSE$).

El $SST$ obtiene su nombre de su sigla en inglés **Sum of Squares Total**, y esta mide la variabilidad total dentro del set de datos (específicamente dentro de nuestra variable dependiente). Esta se calcula como:

$$ SST = \sum_i (y_i - \bar{y})^2$$

Por otra parte, el $SSE$ obtiene su nombre de su sigla en inglés **Sum of Squares Error**, y mide la diferencia total entre los valores reales (u observados) y los valores ajustados (o predichos). Esta se calcula como:

$$ SSE = \sum_i (y_i - \hat{y})^2 = \sum_i e_i^2$$

Con estas dos métricas podemos calcular el __coeficiente de determinación__, $R^2$. Esto nos proporcionara una métrica que podemos utilizar para cuantificar cuanta variabilidad explica nuestro modelo de regresión. Esta se calcula de la siguiente forma utilizando las dos métricas mencionadas anteriormente.

$$ R^2 = 1 - \frac{SSE}{SST}$$

El $R^2$ puede resultar en valores entre $[0,1]$, donde si $R^2 = 1$, significa que la variable utilizada para la regresión lineal simple explica el 100% del comportamiento de la variable dependiente. Por el contrario, un $R^2 = 0$ significa que la variable independiente utilizada, no es capaz de explicar el comportamiento de la variable dependiente.

__Nota__: Un coeficiente de determinación $R^2$ negativo en una regresión lineal es generalmente una señal de que el modelo no se ajusta bien a los datos y que incluso se desempeña peor que un modelo horizontal simple que predice la media de la variable dependiente para todas las observaciones.

Calculemos el $R^2$ para nuestros datos sintéticos:


In [None]:
SST = np.sum((y - np.mean(y))**2) #Calculamos la suma total de los cuadrados
SSE = np.sum((y - lin_reg(x))**2) # Calculamos la suma de los errores cuadrados
R2 = 1 - (SSE / SST) # Computamos el R^2

print(f"El R^2 obtenido para nuestros datos sintéticos es de {R2:6.4f}")

Con esto, podemos decir que nuestra regresión lineal simple, es capaz de explicar un $92.51\%$ de la variabilidad del comportamiento de nuestra variable dependiente sintética. Esto hace bastante sentido, ya que ese $7.49\%$ que no es capaz de explicar, principalmente se debe a la aleatoriedad que nosotros introdujimos en la variable dependiente (`np.random.randint(10, 20, size=10)`).

Otras métricas existentes para poder ver que tan buena es nuestra regresión, consisten en el análisis de los errores. Si nuestra regresión fuese perfecta, podríamos ver que el  $SSE = 0$, indicando claramente que nuestros valores predichos, son iguales a los valores observados.

Estas métricas incluyen el __Error Cuadrático Medio__ (__Mean Squared error__, $MSE$), El __Error Absoluto Medio__ (__Mean Absolute Error__, $MAE$) y el __Error Absoluto Porcentual Promedio__ (__Mean Absolute Percentage Error__, $MAPE$). Idealmente, si utilizamos nuestra regresión para poder hacer pronósticos, nosotros queremos que los errores que podamos cometer sean mínimos (de lo contrario, sería una mala predicción). Estas métricas nos permiten evaluar el error de nuestros modelos, y por consiguiente decir si nuestra regresión podría utilizarse para realizar pronósticos.

Interpretaciónes que se les pueden dar a estas métricas son bastante directas: el $MAE$ nos dirá una magnitud promedio de los residuos, dando una vista general de como podría comportarse nuestra regresión. El $MAPE$ nos indicara porcentualmente, que tanto se aleja nuestros valores predichos, de los valores reales. Finalmente, el $MSE$ cumple una misma función que el $MAE$, pero como estamos usando el cuadrado de los errores, esta métrica nos indicara que tan bueno es nuestro modelo, con respecto a valores atípicos (el error va a aumentar considerablemente para puntos alejados de nuestra regresión). Esto lo podrían visualizar en el gráfico de los errores visto anteriormente.

Las fórmulas para cada una de estas métricas son:

$$ MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y})^2$$

$$ MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}|$$

$$ MAPE = \frac{1}{n} \sum_{i=1}^n |\frac{y_i - \hat{y}}{y_i}|$$

**Nota:**, MAPE se indefine para valores de $y_i = 0$, por lo mismo, no es una métrica comúnmente utilizada.


Utilizando `numpy` podemos computarlas:


In [None]:
mse = np.sum((y - lin_reg(x))**2) / len(y)
mae = np.sum(np.abs(y - lin_reg(x))) / len(y)
mape = np.sum(np.abs((y - lin_reg(x)) / y)) / len(y)

Luego, simplemente las imprimimos y vemos que si bien, el $MAE$ y el $MAPE$ son bajos, los puntos {6, 7, 9, 10} de los datos, influyen considerablemente en el $MSE$

In [None]:
print(f'MSE = {mse:6.2f}\nMAE = {mae:6.2f}\nMAPE = {mape:5.2f}')

Alternativamente, podemos utilizar la librería de `scikit-learn` para poder usar sus implementaciones del $MSE$, $MAE$ y el $R^2$ (el $MAPE$ no está implementado en esta librería). Cada uno de estos métodos, recibe dos parámetros: los valores observados/reales `y_real` y los valores predichos/ajustados `y_pred`.

Luego el uso de estas funciones son tan simples como por ejemplo:
```python
mean_squared_error(y_real , y_pred)
```


In [None]:
# importamos las librerias
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
# calculamos cada una de estas métricas, y podemos ver que los valores
# son iguales a nuestras implementaciones en Numpy puro.
mse = mean_squared_error(y , lin_reg(x))
mae = mean_absolute_error(y , lin_reg(x))
r2= r2_score(y , lin_reg(x))

print(f'MSE      = {mse:6.2f}\nMAE      = {mae:6.2f}\nR2 Score = {r2:6.2f}')

### <font color='green'>**Actividad 2**:</font>
### Predicción del consumo de cerveza

Este set de datos fue recolectado en São Paulo - Brasil. Específicamente en un área universitaria con grupos de estudiantes entre 18 a 28 años de edad. Existen 7 variables en este set de datos:

- __Data__: la fecha en que se tomó la medición
- __Temperatura Media ($^oC$)__: la temperatura promedio durante todo un día
- __Temperatura Mínima ($^oC$)__: la temperatura mínima durante todo un día
- __Temperatura Máxima ($^oC$)__: la temperatura máxima durante todo un día
- __Precipitacao (mm)__: cantidad de mm de precipitaciones (lluvia):
- __Final de Semana__: Si era fin de semana (o no).
- __Consumo de cerveja (litros)__: La cantidad de cervezas consumidas en promedio de los grupos.

Esta última variable, corresponde a nuestra variable dependiente. La dinámica consiste en encontrar la variable independiente que explique mejor el consumo de cerveza. Ante esto, deberán ajustar $5$ modelos de regresión lineal simple y obtener las métricas de bondad de ajuste y de errores para cada uno de estos modelos. Indique cuál fue esta variable e imprima por pantalla cuales fueron los valores de $R^2$ y $MAE$, $MAPE$ y $MSE$. Finalmente, haga el gráfico de la regresión lineal mostrando los errores obtenidos por la variable más explicativa.

Archivo: `Consumo_cerveja.csv`


In [None]:
# Montar Drive si corresponde
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Tu código aquí ... ...

import pandas as pd
import numpy as np
cerveza_df = pd.read_csv("../Consumo_cerveja.csv")
cerveza_df.head().T



<font color='green'>Fin Actividad 2</font>

## <font color='blue'>**Regresión lineal con múltiples variables independientes**</font>


Utilizando el mismo dataset obtenido de la dinámica 2, vamos a ajustar una regresión lineal múltiple. Esto quiere decir, que, en vez de ajustar un solo parámetro en nuestra regresión para tratar de explicar la variable dependiente, utilizaremos dos o más variables dependientes. En este caso, nuestra regresión tomara una nueva forma:


$$Y =  \beta_0 +X_1\beta_1+X_2\beta_2+\dots+X_m\beta_m$$

En este caso vamos a tener $m+1$ parámetros, donde $m$ corresponde a la cantidad de variables dependientes que utilizaremos. La razón de que sean $m+1$ variables, es porque tenemos que considerar el intercepto $\hat{\beta_0}$.

La ecuación anterior, podemos representarlas en forma matricial:

$$ Y = X^T\beta$$

donde:

$$Y = \begin{bmatrix}Y_1 \\ Y_2  \\ \vdots \\ Y_m\end{bmatrix} \quad \beta = \begin{bmatrix}\beta_1 \\ \beta_2  \\ \vdots \\ \beta_m\end{bmatrix}  \quad X = \begin{bmatrix}X_{11} & X_{12} & \cdots & X_{1m}\\ X_{21} & X_{22} & \cdots & X_{2m}  \\ \vdots & \vdots & \ddots & \vdots\\ X_{n1} & X_{n2} & \cdots & X_{nm}\end{bmatrix}$$

El encontrar la matriz de los parámetros estimados $\hat{\beta}$ para generar nuestra predicción $\hat{Y}$ se lleva a cabo minimizando la suma de los errores para cada una de las variables presentes en nuestro set de datos. Esto nos genera una solución fácilmente programable en Numpy, de la forma:

$$\hat{\beta} = (X^TX)^{-1}X^TY $$

Para poder incorporar el intercepto ($\beta_0$), tenemos que hacer una pequeña modificación a la matriz $X$, y esta corresponde a agregar una columna de largo $n$, con la constante $1$. Esto se hace para poder modelar el intercepto en la última ecuación presentada:

$$X = \begin{bmatrix}X_{11} & X_{12} & \cdots & X_{1m}\\ X_{21} & X_{22} & \cdots & X_{2m}  \\ \vdots & \vdots & \ddots & \vdots\\ X_{n1} & X_{n2} & \cdots & X_{nm}\end{bmatrix} \rightarrow X' = \begin{bmatrix} 1& X_{11} & X_{12} & \cdots & X_{1m}\\ 1 & X_{21} & X_{22} & \cdots & X_{2m}  \\ \vdots & \vdots & \vdots & \ddots & \vdots\\ 1 &X_{n1} & X_{n2} & \cdots & X_{nm}\end{bmatrix}$$


In [None]:
import pandas as pd
# Cargamos los datos desde Drive
cerveza_df = pd.read_csv("/content/drive/MyDrive/Becas_Capital_Humano_23/Material_clases_CD_AD_2023/M03-Analisis_exploratorio_estadistica/data/Consumo_cerveja.csv")
cerveza_df.head(10).T # Mostramos los primeros 10

In [None]:
#Extraemos nuestras primeras 5 variables independientes
X1 = cerveza_df['Temperatura Media (C)']
X2 = cerveza_df['Temperatura Minima (C)']
X3 = cerveza_df['Temperatura Maxima (C)']
X4 = cerveza_df['Precipitacao (mm)']
X5 = cerveza_df['Final de Semana']

# Extraemos la variable dependiente
y = cerveza_df['Consumo de cerveja (litros)']


In [None]:
# Vamos a graficar nuestra variable y a traves del tiempo:
import matplotlib.pyplot as plt
import numpy as np
plt.figure(figsize=(20,5))
plt.plot(np.arange(len(y)),y)
plt.title("Consumo de cerveza promedio diario")
plt.show()

Acá generaremos una grilla de matplotlib, la cual  nos permitirá generar subgráficos que ocupen más de una fila/columna.

[Documentación Gridspec](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.gridspec.GridSpec.html)

En este caso, vamos a hacer varios diagramas de dispersión, para ver la relación existente entre nuestras variables independientes, con la variable dependiente.


In [None]:
grid = plt.GridSpec(3, 2, wspace=0.2, hspace=0.3, height_ratios=[1, 1, 2])

plt.figure(figsize=(12,10))
ax = plt.subplot(grid[0,0]) #Ocupar la primera fila, primera columna
ax.scatter(X1, y, alpha=0.5)
ax.set_title("$x_1$ Temperatura Media (C)")

ax = plt.subplot(grid[0,1])#Ocupar la primera fila, segunda columna
ax.scatter(X2, y, alpha=0.5)
ax.set_title("$x_2$ Temperatura Mínima (C)")

ax = plt.subplot(grid[1,0]) #Ocupar la segunda fila, primera columna
ax.scatter(X3, y, alpha=0.5)
ax.set_title("$x_3$ Temperatura Máxima (C)")

ax = plt.subplot(grid[1,1])#Ocupar la segunda fila, segunda columna
ax.scatter(X4, y, alpha=0.5)
ax.set_title("$x_4$ Precipitaciones (mm)")

ax = plt.subplot(grid[2,:])#Ocupar la tercera fila y ambas columnas
ax.scatter(X5, y, alpha=0.5)
ax.set_title("$x_5$ Fin de Semana")


plt.show()

Podemos ver que el consumo de cerveza al parecer tiene una correlación positiva con las temperaturas. Generemos nuestra matriz X previo al proceso de obtención de los betas:

In [None]:
X = np.zeros((len(X1),6))   # Generamos una matriz de Nx6, uno para cada una de
                            # nuestros variables independientes, e incluyendo la
                            # columna para el intercepto:
X.shape

In [None]:
# Llenamos la matriz, con cada una de los valores correspondientes, en este caso,
# el intercepto ira en la primera columna y para el resto de las columnas las
# extraeremos utilizando los valores de una serie de pandas (.value)
X[:,0] = 1
X[:,1] = X1.values
X[:,2] = X2.values
X[:,3] = X3.values
X[:,4] = X4.values
X[:,5] = X5.values


In [None]:
X[:5] # Ahora imprimimos las primeras 5 filas

Para transponer una matriz de Numpy, es tan sencillo como llamar a `matriz.T` para realizar esta operación. En el caso de la multiplicación matricial, necesitamos utilizar el método `np.dot` (Recordar que existen la restricción de que el número de columnas de la primera matriz, tiene que ser igual al número de filas de la segunda matriz). Finalmente, para invertir una matriz, tenemos que utilizar el método `np.lingal.inv` y aplicarlo en una matriz.

$$ \hat{\beta} = (X^TX)^{-1}X^TY $$

In [None]:
XTX = np.dot(X.T,X) # Calculamos X traspuesto multiplicado por X
XTY = np.dot(X.T,y) # Calculamos X traspuesto por Y
betas = np.dot(np.linalg.inv(XTX),XTY)  # Calculamos XTX^-1 por XTY, el resultado
                                        # va a ser nuestro vector de betas de largo m + 1

# Extraemos los betas
beta_0 = betas[0]
beta_1 = betas[1]
beta_2 = betas[2]
beta_3 = betas[3]
beta_4 = betas[4]
beta_5 = betas[5]

betas #Imprimimos los valores de nuestros parametros ajustados

In [None]:
# Finalmente, definimos nuestra función  para la regresión lineal, que reciba
# por parámetros los arreglos para cada variable y que internamente, calcule la
# variable Y con los nuevos betas

def lin_reg2(x1, x2, x3, x4, x5):
    y_hat = (beta_1 * x1) + (beta_2 * x2) + (beta_3 * x3) + (beta_4 * x4) + (beta_5 * x5) + beta_0
    return y_hat

Graficamos la señal original, en comparación con lo que obtenemos de nuestra regresión lineal múltiple

In [None]:
plt.figure(figsize=(20,5))
plt.plot(np.arange(len(y)), y, label="Original")
plt.plot(np.arange(len(y)), lin_reg2(X1, X2, X3, X4, X5),'--', color="red", label="Generados")

plt.legend()

plt.show()

Y a su vez, podemos calcular nuestras métricas de bondad de ajuste, y errores asociados:

In [None]:
SST = np.sum((y - np.mean(y))**2)
SSE = np.sum((y - lin_reg2(X1,X2,X3,X4,X5))**2)

R2 = 1 - (SSE/SST)

print(f'\nR2 Score = {R2:6.2f}')

In [None]:
mse = np.sum((y - lin_reg2(X1,X2,X3,X4,X5))**2) / len(y)
mae = np.sum(np.abs(y - lin_reg2(X1,X2,X3,X4,X5))) / len(y)
mape = np.sum(np.abs((y - lin_reg2(X1,X2,X3,X4,X5))/y)) / len(y)

In [None]:
print(f'\nMSE = {mse:6.2f}\nMAE = {mae:6.2f}\nMAPE = {mape:5.2f}')

De lo obtenido, podemos ver que utilizando una regresión lineal múltiple, nuestro $R^2$ aumenta, y los errores disminuyen al compararse con el mejor de las regresiones simples realizadas en la dinámica 2.

Para ir finalizando, existen múltiples librerías que ya tienen implementado las regresiones lineales, vamos a ver la implementación existente en `scikit-learn`

[Documentación LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)


In [None]:
# En este caso, de scikit-learn, de los modelos lineales, importamos la regresión lineal
from sklearn.linear_model import LinearRegression
lr = LinearRegression() # Y generamos un obtejo de LinearRegressión

In [None]:
# Obtenemos nuestra matriz X
# Eliminamos las columnas 0 y 6 (fecha y consumo)
X = cerveza_df.iloc[:,1:6]
X.head()

Una de las ventajas de scikit-learn, es que para la regresión lineal automáticamente añade el intercepto a calcular, sin que nosotros tengamos que modificar nuestra matriz $X$. Para poder ajustar nuestro modelo, necesitamos utilizar el método `lr.fit(X,y)`:

In [None]:
lr.fit(X, y.values)

Con esto, ya tenemos ajustado el modelo de regresión lineal, y solo queda extraer los betas. Para esto, tenemos que acceder a los parámetros `lr.intercept` (para $\hat{\beta_0}$) y `lr.coef_` para el resto de los betas.

In [None]:
lr.intercept_, lr.coef_

Haciendo la comparación con nuestros betas, vemos que son iguales.

In [None]:
betas

### <font color='green'>**Actividad 3 (resuelta)**</font>
### Regresión lineal múltiple, para predecir el precio de una casa.

En este caso, trabajaremos con un set de datos de precios de casas del condado de King, Georgia, USA. El set de datos contiene 21 variables, pero no todas van a servir para el proceso de la regresión. Su tarea va a ser seleccionar las variables que va a descartar, y trabajar con el resto de las variables restantes para generar una regresión lineal múltiple utilizando Numpy para obtener los $\hat{\beta}$. Además de esto, calcule el $R^2$ y obtenga las métricas de error $MSE$, $MAE$ y $MAPE$.

**Desafío:** Puede que el uso de todas las variables no genere el mejor modelo. Por lo mismo, el **desafío** consiste en implementar el algoritmo de __Step Forward Feature Selection__. La idea de este algoritmo es agregar de a 1 en 1 las variables existentes en nuestro set de datos y ver como mejora el proceso de ajuste de la regresión lineal.

1. De las posibles variables consideradas en un principio (la cual llamaremos $m$), entrene $m$ modelos de regresión lineal (uno por cada variable), y seleccione la variable que obtenga un mejor $MAE$.

2. Con la variable seleccionada, remuévala del conjunto de posibles variables y guárdela en una lista de variables seleccionadas (`selected_vars`)

3. Del conjunto de posibles variables restantes, entrene $m-len(selected\_vars)$ modelos de regresión lineal utilizando las variables restantes en conjunto con `selected_vars`. Seleccione la nueva variable que obtenga un mejor $MAE$. Repita el paso 2. hasta que no quede ninguna variable.

4. Finalmente, con el procedimiento realizado, y ninguna variable restante en el conjunto de posible variable, imprima por pantalla el mejor conjunto de variables junto con su $MAE$. Adicionalmente, puede graficar la curva de cómo va evolucionando el $MAE$ a medida que va agregando variables.

**Nota:** Para el desafío, es recomendable utilizar `LinearRegression` de `scikit-learn` por temas de facilidad de implementación del algoritmo de __Step Forward Feature Selection__. Para poder obtener el $\hat{Y}$ utilizando `LinearRegression`, se debe utilizar el método `.predict(X)` posteriormente a haber ajustado el modelo (`.fit(X,y)`), y este computara:

$$\hat{Y}=\hat{\beta_0}+X_1\hat{\beta_1}+X_2\hat{\beta_2}+\dots+X_m\hat{\beta_m}$$

Ejemplo de uso:

```python
lr = LinearRegression()
lr.fit(X,y)
y_hat = lr.predict(X)
```


Archivo: `kc_house_data.csv`

In [None]:
# Su código aca ...

import pandas as pd

In [None]:
# Drive
housing_df = pd.read_csv("/content/drive/MyDrive/Becas_Capital_Humano_23/Material_clases_CD_AD_2023/M03-Analisis_exploratorio_estadistica/data/kc_house_data.csv")
housing_df.head().T

In [None]:
housing_df.info()

In [None]:
y = housing_df['price'].values
X = housing_df.iloc[:,3:].values
X

In [None]:
housing_col_names = housing_df.columns[3:].values
housing_col_names

In [None]:
# Veamos el shape de ambas
X.shape, y.shape


In [None]:
lr = LinearRegression()

lr.fit(X, y)
y_hat = lr.predict(X)
print('Scores', r2_score(y,y_hat), mean_squared_error(y,y_hat), mean_absolute_error(y,y_hat))

#print(lr.intercept_, lr.coef_)

In [None]:
X

### __Versión iterativa__

In [None]:
from sklearn import metrics
# Inicializamos una semilla
np.random.seed(42)

# Generamos una lista con los índices de todas las columnas de X
restantes = list(range(X.shape[1]))

# Generamos un entero entre 0 y el número de columnas de X
primero = np.random.randint(0,X.shape[1])
actuales = []
# Seleccionamos dicha variable
actuales.append(restantes.pop(primero))

# Generamos la regresión y evaluamos el error
lr = LinearRegression()

lr.fit(X[:,actuales], y)
y_hat = lr.predict(X[:,actuales])
error_actual = mean_squared_error(y,y_hat)
err = [error_actual]

# ientras el arreglo tenga alguna variable
while restantes:
    error_att = []
    # Evaluamos cada atributo
    for atributo_candidato in restantes:
        # generamos un arreglo candidato
        nuevas_variables = actuales +[atributo_candidato]
        # Ajustamos la regresión y hacemos inferencia
        model = LinearRegression()
        model.fit(X[:,nuevas_variables], y)
        pred = model.predict(X[:,nuevas_variables])
        # Guardamos el MSE
        error_att.append(metrics.mean_squared_error(y,pred))
    # Obtenemos el menor error
    min_error = np.min(error_att)
    #s eleccionamos dicho índice el cual corresponda al menor error
    print(f"Seleccionado:{restantes[error_att.index(min_error)]} MSE:{min_error}")
    print("=====")
    # Seleccionamos la variable
    actuales.append(restantes[error_att.index(min_error)])
    restantes.pop(error_att.index(min_error))
    # Guardamos el error acumulado por iteración de selección
    err.append(min_error)



In [None]:
X[:,[3]]

### __Versión con `sklearn`__

In [None]:
lreg = LinearRegression()

In [None]:
from sklearn.feature_selection import SequentialFeatureSelector
sfs1 = SequentialFeatureSelector(lreg,
                                 n_features_to_select=4,
                                 cv=None,
                                 direction="forward").fit(X, y)

In [None]:
print(housing_col_names[sfs1.get_support()])

In [None]:
X_sfs = sfs1.transform(X)
X_sfs.shape

In [None]:
lr2 = LinearRegression()

lr2.fit(X_sfs, y)
y_hat2 = lr2.predict(X_sfs)
print('Scores', r2_score(y,y_hat2), mean_squared_error(y,y_hat2), mean_absolute_error(y,y_hat2))


In [None]:
sfs1.get_params(deep=True)

### __Versión con `mlxtend`__

In [None]:
from mlxtend.feature_selection import SequentialFeatureSelector as sfs

In [None]:
lr3 = LinearRegression()

In [None]:
# Configuración de sfs
sfs1 = sfs(lr3,
           k_features=7,
           forward=True,
           cv=5, # Número de divisipones para el Cross Validation
           verbose=2,
           scoring=None)

In [None]:
X.shape

In [None]:
# ajustar sfs

sfs1 = sfs1.fit(X, y) #, custom_feature_names=list(housing_col_names))

In [None]:
# Obtener los índices de las características seleccionadas
selected_indices = list(sfs1.k_feature_idx_)

# Mapear los índices a los nombres de las características
selected_feature_names = [housing_col_names[i] for i in selected_indices]

# Mostrar resultados
print('Índices de características seleccionadas:', selected_indices)
print('Nombres de características seleccionadas:\n', *selected_feature_names, sep='\n')

In [None]:
# probemos con k_features = 18
sfs2 = sfs(lr3,
           k_features=18,
           forward=True,
           cv=5,
           verbose=2,
           scoring=None)
sfs2 = sfs2.fit(X, y)

In [None]:
# Obtener los índices de las características seleccionadas
selected_indices = list(sfs2.k_feature_idx_)

# Mapear los índices a los nombres de las características
selected_feature_names = [housing_col_names[i] for i in selected_indices]

# Mostrar resultados
print('Índices de características seleccionadas:', selected_indices)
print('Nombres de características seleccionadas:\n', *selected_feature_names, sep='\n')

In [None]:
pd.set_option('display.float_format', '{:.5f}'.format)

dict_data = sfs1.get_metric_dict()
df = pd.DataFrame.from_dict(dict_data).T
df.loc[:, ['feature_idx', 'avg_score', 'ci_bound', 'std_dev', 'std_err']]

In [None]:
pd.set_option('display.float_format', '{:.5f}'.format)
dict_data = sfs2.get_metric_dict()
df = pd.DataFrame.from_dict(dict_data).T
df.loc[:, ['feature_idx', 'avg_score', 'ci_bound', 'std_dev', 'std_err']]

In [None]:
pd.reset_option('display.float_format')

<font color='green'>Fn actividad 3</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">
Fin contenido opcional