# ¡Hola mundo! del machine learning
Considero que el [hola mundo](https://es.wikipedia.org/wiki/Hola_mundo) del machine learning es la [regresión lineal](https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal).

El **modelo** resultante será la recta que mejor se **ajuste** a nuestro **dataset** o conjunto de datos, sklearn tiene [algunos](https://scikit-learn.org/stable/datasets/index.html), elegiremos el de **Boston house prices**, que tiene datos y valores (en miles) de varias viviendas en los suburbios... de Boston.

In [None]:
# ¡venga, dataset!
from sklearn.datasets import load_boston
X, y = load_boston(return_X_y=True)

Features en X, targets en y, así nombraremos las variables desde ahora.

La lista completa de las 13 features está [aquí](https://scikit-learn.org/stable/datasets/index.html#boston-house-prices-dataset) pero sólo usaremos la sexta **RM** promedio de habitaciones por vivienda.

Veamos cómo se relaciona con el precio gracias a una [gráfica de dispersion](https://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n) realizada con [matplotlib](https://matplotlib.org/), una librería para graficar datos.

In [None]:
import matplotlib.pyplot as plt

# seleccionamos todas las filas, sexta columna
X_RM = X[:, 5]
X_RM = X_RM.reshape(-1, 1)

plt.scatter(X_RM, y)
plt.xlabel("RM")
plt.ylabel("Valor")
plt.title("Relación entre RM y Valor")

En general, vemos una relación directamente proporcional: a más habitaciones, mayor costo.  
También vemos muchos puntos en la parte superior, esto parece indicar que los precios mayores a 50 mil han sido truncados a 50 mil.

In [None]:
from sklearn.linear_model import LinearRegression

# ajustamos la recta
model = LinearRegression()
model.fit(X_RM, y)

print(f"Los parámetros obtenidos son: {model.coef_[0] :.2f} y {model.intercept_ :.2f}")

La pendiente es positiva, esto confirma la relación directamente proporcional.

# Utilizando el modelo
Con el modelo entrenado, podemos llamar al método `predict` para estimar el valor de todas las viviendas.  
Veamos el valor de la primera

In [None]:
predicted_values = model.predict(X_RM)

# comparemos con el valor real
print(f"El valor real es {y[0]}, y según el modelo es {predicted_values[0] :.2f}")

Hay una diferencia de -1.518 para esta vivienda, el modelo estima que el valor debe ser más alto porque la recta está encima del valor real.

Considerando que los valores son altos (hasta 50) no debemos preocuparnos por este error. Pero sólo para esta vivienda, ¿cómo evaluamos el error de todas?

In [None]:
plt.scatter(X_RM, y)
plt.plot(X_RM, predicted_values, color="red")

# Evaluando el modelo
Podríamos promediar todos los errores, pero los que estén debajo de la resta serán **negativos** para solucionar esto podemos elevar cada error al cuadrado, sumar todos y dividir el resultado entre el número de errores.

$$\frac{1}{n} \sum{(y_{r} - \widehat{y} )^2}$$


$\widehat{y}$ o "ye sombrerito" es el valor que predice el modelo, nota que medimos la distancia vertical de cada punto a la recta para calcular el error.

Esta fórmula es una **métrica** conocida como **MSE mean squared error** o error cuadrático promedio.

In [None]:
squared_errors = (predicted_values - y) ** 2
mse = sum(squared_errors) / len(y)
print(f"MSE: {mse :.2f}")

¡Es bastante alto!

Si un error es alto, este al cuadrado es mucho más alto, y podemos observar **outliers** o valores extremos que se alejan bastante de la recta, sumándolos... tenemos el porqué ese error tan alto.  
Es frecuente calcular el **RMSE square root of MSE** o raíz cuadrada del MSE para tener una mejor idea del error real, sin embargo este sigue siendo afectado por los outliers.

In [None]:
rmse = mse ** (1/2)
print(f"RMSE: {rmse :.2f}")

Mucho mejor :)

Pero existe una métrica que no es afectada por outliers, **MAE mean absolute error** o error absoluto promedio, es otra solución para los errores negativos, quizá hayas pensado también en el valor absoluto.
Por cierto, tanto MSE como MAE se pueden calcular con `sklearn.metrics`

In [None]:
from sklearn.metrics import mean_absolute_error

print(f"MAE: {mean_absolute_error(predicted_values, y) :.2f}")

# ¿Es un buen modelo?
Las métricas son útiles, pero pueden ser engañosas, debemos escoger la que se adecue al problema, no la que menor error tenga. Lo importante es preguntarte ¿debería tomar en cuenta los outliers?  
La respuesta dependerá de los objetivos del modelo, y este dependerá de los datos.


Las métricas suelen ser lo último que extraemos de un proyecto de machine learning, antes debemos [probarlo](./3_test_set).