
# Regresión Lineal

La librería `sklearn` permite implementar una gran variedad de modelos de Machine Learning, entre  ellos, la regresión lineal

Se ha hecho una encuesta a 20 personas, preguntándoles por sus ingresos anuales en miles de euros y su nivel de felicidad en una escala del 0 al 10.   
Los resultados obtenidos se guardan en las listas `x` (ingresos) e `y` (felicidad)

```Python
x = [25.2, 15.6, 26, 24, 39.2, 17.6, 3.6, 24, 10, 8.8, 35.2, 22.8, 31.6, 6, 11.2, 5.2, 22.4, 20.4, 31.2, 19.6]
y = [10, 5, 9, 8, 10, 8, 1, 9, 3, 3, 10, 5, 10, 2, 4, 4, 9, 6, 10, 7]
```

In [None]:
def plot_all(w0,w1):

    plt.figure(figsize=(8, 4))
    ax = plt.axes()
    ax.scatter(x, y)
    ax.set_ylim([0,12])
    ax.set_xlim([0,45])
    ax.set_xlabel('Ingresos')
    ax.set_ylabel('Felicidad')
    e = np.linspace(0,45,len(x))
    z = w0+w1*e

    plt.plot(e, z, '-r', label='h(x)='+str(round(w0,2))+' + '+ str(round(w1,2))+'x')
    plt.legend(loc='upper left')
    plt.show()

Por último, añadimos una nueva variable: el estado civil de los encuestados: S (soltero/a), C (casado/a), V (viudo/a):   
`['S','C','S','V','C','S','C','S','C','C','V','S','C','C','V','C','S','V','C','S']`

Necesito convertir la variable categórica a numérica. Probemos con un one-hot-encoding

En regresión lineal, evitamos tener columnas que sean combinaciones lineales. Por tanto, descartamos una de las columnas binarias

Felicidad = 1.09 + 0.26xIngresos + 1.19xSoltero -0.13xCasado

Predice la felicidad de un hombre casado con ingresos de 14.000€

¿Aumentaría su felicidad si es soltero o viudo?

![image.png](attachment:image.png)

## Ejemplo: Predicción de precio de casas

Queremos predecir los precios de una serie de casas, a partir de las siguientes variables:

- Avg. Area Income: Renta media de los residentes de la ciudad donde está la casa
- Avg. Area House Age: media de antigüedad de las casas de esa ciudad
- Avg. Area Number of Rooms: Número medio de habitaciones en las casas de esa ciudad
- Avg Area Number of Bedrooms: Número medio de dormitorios en las casas de la ciudad
- Area Population: Población de la ciudad
- Price: Precio de la casa (variable objetivo)
- Address: Dirección

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')

Vamos a explorar la relación entre las variables

Distribución del precio

Correlación entre variables

## Entrenar un modelo de Regresión Lineal

En primer lugar, dividimos en train y test

Analizamos los coeficientes  
$y = w_0 + w_1x_1 + w_2x_2 + ...$

Interpretación de los coeficientes

Manteniendo fijos el resto de coeficientes:
- Un incremento de 1 unidad en **Avg. Area Income** equivale a un incremento de **21.64 dólares**  
- Un incremento de 1 unidad en **Avg. Area House Age** equivale a un incremento de **164,666 dólares**
- Un incremento de 1 unidad en **Avg. Area Number of Rooms** equivale a un incremento de **119,624 dólares**
- Un incremento de 1 unidad en **Avg. Area Number of Bedrooms** equivale a un incremento de **2,440  dólares**
- Un incremento de 1 unidad en **Area Population** equivale a un incremento de **15.27 dólares**

$Precio = 	21.652206 \times \text{Avg. Area Income}+ 
164666.480722 \times \text{Avg. Area House Age} + 
119624.012232  \times \text{Avg. Area Number of Rooms}	+
2440.377611 \times \text{Avg. Area Number of Bedrooms}	+
15.270313 \times \text{Area Population}$

## Predicciones de nuestro modelo

### Histograma de residuos

Pintar un histograma de los residuos y asegurarnos de que siguen una distribución normal. Si no es así, la regresión lineal no es apropiada para este análisis.

### Métricas de error

- **MAE** (Mean Absolute Error): es el error medio (la más fácil de entender)
- **MSE** (Mean Squared Error): es más popular que el MAE ya que penaliza errores grandes
- **RMSE** (Root Mean Squared Error): es todavía más popular que el MSE porque está en las mismas unidades que la variable objetivo $y$
- **$R^2$** (Coeficiente de determinación): proporción de la varianza total de la variable objetivo explicada por la regresión

## Importancia de variables 

Una habitación extra incrementa el precio (y) en 2440 dólares, y un dolar extra en area income 
incrementa el precio en 21 dólares. Esto es el significado de los coeficientes, pero no quiere decir
que el número de habitaciones sea más importante/relevante que el area income  

Para conocer la importancia de variables tenemos que **estandarizar** los datos antes de entrenar el modelo

## Regularización

Proceso que altera ligeramente la formulación matemática de un modelo, con la intención de prevenir el overfitting.
Una manera de regularizar puede ser eliminando grados de una regresión polinómica o aplanando los pesos (w).

De esta manera simplificamos los modelos para que haya menos overfitting y generalicen mejor. A cambio sufriremos un pequeño aumento en los errores. De nuevo, Bias vs Variance.

Se suele aplicar en regresiones lineales y logísticas, pero también existen en otros modelos. Las penalizaciones más populares son:
1. L2: consigue que los parámetros estimados por el modelo (w) no tengan (en valor absoluto) un valor demasiado grande, de manera que aplana los pesos y evita los extremos.
2. L1: tiende a eliminar los pesos con menor importancia, es como si estuviese realizando un feature selection.


Regresiones que utilizan regularización:
1. Ridge: utiliza L2
2. Lasso: utiliza L1
3. Elastic Net: combinación lineal de L1 y L2


![image.png](attachment:image.png)

### Ridge Regression

### Lasso Regression

### Elastic Net