# Regresión lineal

por [Manuel López Sheriff](https://www.linkedin.com/in/sheriff-data/)

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#El-problema" data-toc-modified-id="El-problema-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>El problema</a></span></li><li><span><a href="#Exploración-del-data" data-toc-modified-id="Exploración-del-data-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Exploración del data</a></span></li><li><span><a href="#El-modelo-lineal" data-toc-modified-id="El-modelo-lineal-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>El modelo lineal</a></span><ul class="toc-item"><li><span><a href="#Entendiendo-el-error-del-model-como-una-función-de-m-y-n" data-toc-modified-id="Entendiendo-el-error-del-model-como-una-función-de-m-y-n-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Entendiendo el error del model como una función de <code>m</code> y <code>n</code></a></span></li></ul></li><li><span><a href="#El-modelo-lineal-óptimo" data-toc-modified-id="El-modelo-lineal-óptimo-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>El modelo lineal óptimo</a></span></li><li><span><a href="#Alinéate-con-el-negocio-para-decidir-la-mejor-métrica" data-toc-modified-id="Alinéate-con-el-negocio-para-decidir-la-mejor-métrica-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Alinéate con el negocio para decidir la mejor métrica</a></span></li></ul></div>

In [None]:
import pandas as pd
import numpy as np

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

## El problema

Tenemos 100 estudiantes, de los que sabemos:
 * el número de horas que estudiaron para su examen
 * la nota que obtuvieron (de 0 a 100)

In [None]:
data = pd.read_csv("../datasets/hours_vs_mark.csv")

In [None]:
data.shape

In [None]:
data.head()

In [None]:
data.sample(5)

In [None]:
data.corr()

Nos gustaría entender la relación $$nota = f(horas)$$

de manera que podamos **predecir la nota esperada** que obtendremos estudiando un determinado número de horas

## Exploración del data

In [None]:
sns.histplot(data.horas)

In [None]:
sns.histplot(data.nota)

In [None]:
sns.scatterplot(x=data.horas, y=data.nota)

In [None]:
sns.jointplot(x=data.horas, y=data.nota)

## El modelo lineal

Probemos con una relación lineal, $$Y = m * X + n$$

$m$ es la pendiente  
$n$ es el valor de $Y$ cuando $X=0$ 

$$nota = m * horas + n$$

Queremos encontrar los valores de $m$ and $n$ que *mejor* modelan nuestros datos

Conjeturemos:

$$nota = $$

$$nota_2 = $$

Qué modelo lo hace mejor?

In [None]:
data.shape

In [None]:
data.head()

In [None]:
data["prediction_1"] = 0.1 * data.horas

In [None]:
data["prediction_2"] = 0.08 * data.horas + 10

In [None]:
# semi-random prediction
data["prediction_3"] = np.random.uniform(40, 60, size=data.shape[0]).round(2)

In [None]:
data.head(10)

Veamos cuál es el error de cada modelo

Utilizaremos el [error cuadrático medio](https://es.wikipedia.org/wiki/Error_cuadr%C3%A1tico_medio)

In [None]:
data['error_1'] = (data.nota - data.prediction_1) ** 2

In [None]:
data['error_2'] = (data.nota - data.prediction_2)  ** 2

In [None]:
data['error_3'] = (data.nota - data.prediction_3) ** 2

In [None]:
data.head(10)

In [None]:
data.error_1.mean()

In [None]:
data.error_2.mean()

In [None]:
data.error_3.mean()

El modelo X funciona mejor!

Dibujemos las rectas de nuestros modelos

$$nota = $$

$$nota_2 =$$

In [None]:
%matplotlib inline

In [None]:
fig, ax = plt.subplots()
sns.scatterplot(x=data.horas, y=data.nota)

plt.plot(data.horas, data.prediction_1, color='r', label='peor')
plt.plot(data.horas, data.prediction_2, color='g', label='mejor')

plt.legend()

### Entendiendo el error del model como una función de `m` y `n`

$$nota = m * horas + n$$

`L` significa Loss (la palabra que se utiliza como "error" en Data Science)

$$\text{model_error} = L(m, n)$$

$$nota = 0.1*horas$$

$$L(0.1, 0) = 234$$

$$mark_2 =0.08 * hours + 10$$

$$L(0.08, 10) = 204$$

Si llamamos:
 - $y_i$ a la nota real del estudiante $i$
 - $\hat{y_i}$ la nota predicha para el estudiante $i$  

El error es $$L(m, n) = \frac{1}{N} \sum (y_i - \hat{y_i})^2 = \frac{1}{N} \sum (y_i - (m * x_i + n))^2 $$

y siendo cuadrática en `m` y `n`, la función `L` tiene un mínimo global

## El modelo lineal óptimo

Podemos encontrar **el mejor** modelo lineal?

`scikit-learn` es una librería de Python para entrenar modelos

In [None]:
!pip install scikit-learn

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lr = LinearRegression()

In [None]:
type(lr)

In [None]:
data.head()

In [None]:
# train the model
# X predictors: 1 or more columns
# y target: 1 column
lr.fit(
    # X = data[["horas", "edad", "horasdesueño"]],
    X = data[["horas"]],
    y = data.nota,
)

$$nota = m * horas + n$$

In [None]:
# access coefficients m and n. it has 1 entry per predictor variable
lr.coef_

Si tuviéramos 3 predictores en vez de uno, la función sería algo así:
$$nota = m_1 * horas + m_2 * edad + m_3 * horasdesueño + n$$

In [None]:
optimal_m = lr.coef_[0]

In [None]:
optimal_m

In [None]:
optimal_n = lr.intercept_

In [None]:
optimal_n

$$nota = 0.0844*horas + 11.78$$

In [None]:
data["best_prediction"] = (data.horas * optimal_m + optimal_n).round(2)

In [None]:
data["best_prediction_error"] = (data.best_prediction - data.nota) ** 2

In [None]:
data.head()

In [None]:
data.best_prediction_error.mean()

In [None]:
fig, ax = plt.subplots()
sns.scatterplot(x=data.horas, y=data.nota)

plt.plot(data.horas, data.prediction_1, color='r', label='peor')
plt.plot(data.horas, data.prediction_2, color='g', label='mejor')
plt.plot(data.horas, data.best_prediction, color='y', label='EL MEJOR')

plt.legend()

## Alinéate con el negocio para decidir la mejor métrica

Somos una empresa que vende tupper de comida preparada cada semana

Tenemos que predecir el número de cajas de comida a preparar cada semana, y esperar que cuadre con la demanda

In [None]:
data2 = pd.DataFrame({
    "boxes": [100, 150, 160, 90, 220], 
    "pred_1": [105, 153, 172, 93, 244], 
    "pred_2": [98, 146, 166, 88, 214]
})

In [None]:
data2.head()

Qué modelo funciona mejor?

In [None]:
data2["mse_1"] = (data2["boxes"] - data2["pred_1"]) ** 2
data2["mse_2"] = (data2["boxes"] - data2["pred_2"]) ** 2

In [None]:
data2.head()

In [None]:
data2.mse_1.mean()

In [None]:
data2.mse_2.mean()

Según el criterio de error cuadrático medio (MSE), el segundo modelo funciona mejor

**pero**:
 - si hubiéramos obedecido al segundo modelo, 4 veces de 5 dejamos a clientes sin servir. Faltarían cajas de comida.
 - si hubiéramos obedecido al primer modelo, nunca dejaríamos clientes sin servir. Sobrarían cajas de comida.

Hemos de construir métricas customizadas:

In [None]:
error_sobra = 3
error_falta = 250

In [None]:
data2["error_sobra_1"] = (data2["pred_1"] - data2["boxes"]) * (data2["pred_1"] - data2["boxes"] > 0) * error_sobra

In [None]:
data2["error_falta_1"] = (- data2["pred_1"] + data2["boxes"]) * (data2["pred_1"] - data2["boxes"] < 0) * error_falta

In [None]:
data2["error_sobra_2"] = (data2["pred_2"] - data2["boxes"]) * (data2["pred_2"] - data2["boxes"] > 0) * error_sobra

In [None]:
data2["error_falta_2"] = (- data2["pred_2"] + data2["boxes"]) * (data2["pred_2"] - data2["boxes"] < 0) * error_falta

In [None]:
data2["loss_1"] = data2.error_sobra_1 + data2.error_falta_1
data2["loss_2"] = data2.error_sobra_2 + data2.error_falta_2

In [None]:
data2

In [None]:
data2.loss_1.sum()

In [None]:
data2.loss_2.sum()

Y, con esta **métrica alineada con el negocio**, el modelo 1 es mejor