# Regresión Lineal

El problema de encontrar los mejores valores de parámetros (es decir, que dan como resultado el error más bajo) se puede resolver sin la necesidad de verificar cada combinación de parámetros potenciales. 

- De hecho, este problema tiene una solución de forma cerrada: **Los mejores valores de parámetros se pueden encontrar resolviendo una ecuación**. 
- Esto evita la necesidad de una búsqueda de fuerza bruta.
- Esta estrategia se implementa en Scikit-Learn.

In [None]:
import pandas as pd

penguins = pd.read_csv("../../data/penguins/penguins_regression.csv")
feature_name = "Flipper Length (mm)"
target_name = "Body Mass (g)"
data, target = penguins[[feature_name]], penguins[target_name]

In [None]:
penguins.head()

In [None]:
import seaborn as sns

ax = sns.scatterplot(data=penguins, x=feature_name, y=target_name,
                     color="black", alpha=0.5)
ax.set_title("Masa corporal en función de la longitud de la aleta")

In [None]:
from sklearn.linear_model import LinearRegression

linear_regression = LinearRegression()
linear_regression.fit(data, target)

In [None]:
# La instancia lineal_regression almacenará los valores de los parámetros en los atributos coef_ e intercept_. 
# Podemos verificar cuál es el modelo óptimo que se encuentra:

weight_flipper_length = linear_regression.coef_[0]
weight_flipper_length

In [None]:
intercept_body_mass = linear_regression.intercept_
intercept_body_massintercept_body_mass = linear_regression.intercept_
intercept_body_mass

In [None]:
# Usaremos el peso e interceptaremos para graficar el modelo.

import numpy as np

flipper_length_range = np.linspace(data.min(), data.max(), num=300)
predicted_body_mass = (
    weight_flipper_length * flipper_length_range + intercept_body_mass)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.scatterplot(x=data[feature_name], y=target, color="black", alpha=0.5)
plt.plot(flipper_length_range, predicted_body_mass)
plt.title("Modelo LinearRegression")

In [None]:
# Primero podemos calcular el error cuadrado medio.

from sklearn.metrics import mean_squared_error

inferred_body_mass = linear_regression.predict(data)
model_error = mean_squared_error(target, inferred_body_mass)
print(f"El error cuadrático medio del modelo óptimo es: {model_error:.2f}")

In [None]:
# el error cuadrático medio es difícil de interpretar. 
# el error absoluto medio es más intuitivo.

from sklearn.metrics import mean_absolute_error

model_error = mean_absolute_error(target, inferred_body_mass)
print(f"El error absoluto medio del modelo óptimo es: {model_error:.2f} g")