![imagenes](logo.png)

# Regresiones lineales

Supongamos la siguiente situación.

![imagenes](ml04.png)

Se puede observar que la nube de puntos aparentemente tiene una tendencia a parecerse a una línea recta. Este tipo de situaciones se conoce como *regresión lineal*. 

La formulación matemática detrás de una regresión lineal (es decir, la expresión matemática que define al modelo) viene dada de la siguiente manera:

Supongamos que nuestra tabla tiene $n+1$ columnas (todas numéricas): $X_1$, $X_2$,...,$X_n$ y $Y$. Es decir, hay $n+1$ características, y queremos explicar la variable $Y$ *linealmente* a través de las otras variables. Se propone que la explicación se puede ver como 

$$\widehat{y}=\alpha+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\epsilon$$ 

Lo que queremos es hallar $\alpha,\beta_1,\beta_2,\cdots,\beta_n$ que hagan que el error, $\epsilon$, sea mínimo.

Geométricamente, para $n=1$ (es decir, solo tenemos dos columnas), la situación anterior se puede visualizar así:

![image.png](ml05.png)

El siguiente Corolario nos dice un método para hallar estos parámetros (ojo: aquí $\alpha=b_0$, $n=k$).

![image.png](ml06.png)

## Evaluación de modelos de regresión.

### Error Absoluto Medio

El Error Absoluto Medio (Mean Absolute Error o MAE) se define como:

$$\frac{1}{n}\sum_{i=1}^{n}|y_i -\hat{y}_i|$$

Es decir, la media de las diferencias entre la varible objetivo y las predicciones sin el signo.

MAE es una métrica robusta, en cuanto a que no varia mucho si hay valores extremos en los datos. El error se puede interpretar como unidades de la variable objetivo (por ejemplo, si la variable objetivo es en dolares MAE estará también en dólares).

### Error Cuadrático Medio

El Error cuadrático Medio (Mean Squared Error o MSE)

$$\frac{1}{n}\sum_{i=1}^{n}(y_i -\hat{y}_i)^2$$
Dado que el MSE se define en unidades al cuadrado, lo cual no es intuitivo (¿dolares cuadrados?), generalmente se usa su raíz.

### Raíz del Error Cuadrático Medio

La Raíz del Error Cuadrático Medio (Root Mean Squared Error o RMSE) se diferencia del MSE en que el resultado se puede medir en las mismas unidades que la variable objetivo

$$\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i -\hat{y}_i)^2}$$
Sin embargo, tiene un problema y es que da más importancia a los errores grandes.

### Coeficiente de determinación

El coeficiente de determinación (R2 o R-squared) mide la porción de la varianza de la variable objetivo que se puede explicar por el modelo.

R2 tiene un valor máximo de 1 (cuando el modelo explica toda la varianza) , aunque puede tener valores negativos.

Hay varias formas de definir R2 , pero una de las más sencillas es simplemente la correlacion (definida como la Correlación de Pearson) entre la variable objetivo y las predicciones , elevada al cuadrado.

Un problema importante que tiene R2 es que no nos indica si el modelo explica la varianza debido a que está sobreajustado (overfitted). Por eso una medida mejor es el Coeficiente de Determinacion ajustado (Adjusted R-squared), que tiene en consideracion la complejidad del modelo.

$$1 - \frac{(1 - R^2)(n-1)}{(n-k-1)}$$
donde $n$ es el número de observaciones y $k$ es el numero de coeficientes del modelo (sin contar el término independiente)

## Métodología de trabajo en Python


**Implementación de la regresión lineal**.

Supongamos que tenemos la tabla **mi_tabla.csv**. 

* Lectura de la tabla y quedarse únicamente con las columnas numéricas.

``
mi_tabla = pd.read_csv("mi_tabla.csv")
dataset = mi_tabla.select_dtypes(np.number)
``

* Supongamos que la columna objetivo se llama *Co* y las variables independientes se llaman *C1,C2,...,Cn*.

``
objetivo = dataset["Co"]
variables_independientes = dataset[["C1","C2",...,"Cn"]]
``

* Usaremos sklearn para hallar la regresión lineal

``
from sklearn.linear_model import LinearRegression
modelo = LinearRegression() 
``

* Ajuste del modelo

``
modelo.fit(X=variables_independientes,y=objetivo)
modelo.intercept_
modelo.coef_
``

* Ahora usamos el modelo para hacer predicciones sobre nuevas observaciones

``
modelo.predict(variables_independientes)
``

``dataset["Co_predict"] = modelo.predict(variables_independientes)``

``dataset.head(5)``

### Errores.

* Llamamos las métricas de sklearn

``from sklearn import metrics``

* Error absoluto medio

``metrics.mean_absolute_error(dataset["Co"], dataset["Co_predict"])``

* RMSE

``
np.sqrt(metrics.mean_squared_error(dataset["Co"],dataset["Co_predict"]))
``

### Evaluación

* Coeficiente de determinación 

``modelo_r2 = metrics.r2_score(dataset["Co"], dataset["Co_predict"])
modelo_r2``

* Modelo r2 ajustado

``
modelo_r2_ajustado = 1 - (1-modelo_r2)*(len(objetivo)-1)/(len(objetivo)-variables_independientes.shape[1]-1)
modelo_r2_ajustado
``