<a href="https://colab.research.google.com/github/Dr-Carlos-Villasenor/PatternRecognition/blob/main/PR01_03_sklearn_LR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


#Reconocimeinto de Patrones
##Dr. Carlos Vilaseñor
##Regresión lineal con scikit-learn

*scikit-learn* es una biblioteca de Machine Learning muy popular en estos días, implementa los modelos y algoritmos más populares en el estado del arte de manera eficiente. A continuación se desarrolla un ejemplo de regresión lineal simple.

Primeramente se importan las paqueterias:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model

Ahora se tiene que leer el conjunto de datos por medio de pandas

In [None]:
!wget 'https://raw.githubusercontent.com/Dr-Carlos-Villasenor/PatternRecognition/main/Dataset/countries.csv'
data = pd.read_csv('countries.csv')
print(data.head())

Recortamos los valores de Mexico y mostramos un gráfico del año contra la esperanza de vida

In [None]:
data_mex = data[data.country == 'Mexico']
print(data_mex)
data_mex.plot.scatter(x='year',y='lifeExp')

Para este ejemplo la variable 'year' será nuestra variable independiente y la variable 'lifeExp' sera nuestra variable dependiente.

In [None]:
x = np.asarray(data_mex[['year']])
y = np.asarray(data_mex[['lifeExp']])

In [None]:
model = linear_model.LinearRegression()
model.fit(x,y)
y_pred = model.predict(x)
plt.scatter(x,y)
plt.plot(x,y_pred,'--r')

Ya que tenemos el modelo ajustado podemor hacer predicciones (extrapolaciones o interpolaciones)

In [None]:
model.predict([[2022]])

### Métricas de regresión
Pero, ¿Cómo podemos determinar si el modelo que tenemos se ajusta bien a los datos o no?.

Se puede, por ejemplo, determinar el error entre los datos esperados y los predichos de la siguiente manera:

In [None]:
# Error en cada predicción
y-y_pred

In [None]:
# Pero solo nos importa la magnitud de dicho error
abs(y-y_pred)

#### Métricas de errores usados en Regresión
Error Absoluto Medio (MAE de las siglas en inglés Mean Absolute Error)

$$\text{MAE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|.$$

In [None]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y,y_pred)

Error Cuadrático Medio (MSE de las siglas en inglés Mean Squared Error)

$$\text{MSE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2$$

In [None]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y,y_pred)

Error Mediano Absoluto (MedAE de las siglas en inglés Median Absolute Error)

$$\text{MedAE}(y, \hat{y}) = \text{median}(\mid y_1 - \hat{y}_1 \mid, \ldots, \mid y_n - \hat{y}_n \mid)$$

In [None]:
from sklearn.metrics import median_absolute_error
mean_absolute_error(y,y_pred)

Pese a todas estás metricas un favorito en el Aprendizaje Automático es el coheficiente $R^2$ tambien llamado Coeficiente de Determinación
$$R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^n(y_i - \hat{y}_i)^2}{\sum_{i=1}^n(y_i - \bar{y})^2}$$

donde $\bar{y} =  \frac{1}{n} \sum_{i=1}^n y_i$

Una de las virtudes de este coeficiente es que una predicción perfecta ofrece un $R^2=1$ y un modelo que no toma en cuenta la entrada para la prediccion obtendrá un $R^2$ negativo

In [None]:
from sklearn.metrics import r2_score
r2_score(y, y_pred)

Muy parecido al coeficiente $R^2$ es el coeficiente de de explicación de la varianza (Explained variance score), en el cual el mejor posible es 1.0 y valores menores son peores.

$$\text{EVS}(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}$$



In [None]:
from sklearn.metrics import explained_variance_score
explained_variance_score(y, y_pred)

Sin embargo, ninguna de estás metricas nos dice que tan confiable es nuestra predicción sobre datos de entrada nunca antes vistos!!! Esto lo arreglaremos la próxima sesión