<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.05/bds_evaluacion_001_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>

 # **<font color="DeepPink">Métricas de evaluación del desempeño: Regresión</font>**

<p align="justify">
En problemas de regresión, existen varias métricas de evaluación de desempeño que permiten medir la calidad y precisión de los modelos predictivos. Estas métricas se utilizan para comparar diferentes modelos y seleccionar el más adecuado para un problema específico.
<br><br>
Las métricas más populares son el error cuadrático medio (Mean Squared Error o <b>MSE</b>), la raíz del error cuadrático medio (Root Mean Squared Error o <b>RMSE</b>), el error absoluto medio (Mean Absolute Error o <b>MAE</b>), el coeficiente de determinación (R cuadrado o $R^2$), el error porcentual absoluto medio (Mean Absolute Percentage Error o <b>MAPE</b>) y el coeficiente de correlación de Pearson (<b>r</b>).
<br><br>
En general, la elección de la métrica debe estar alineada con el objetivo y la interpretación que se busca en el problema de regresión específico que se esté abordando.


 # **<font color="DeepPink">Carga de las librerías básicas</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
import plotly.express as px
import plotly.graph_objects as go

 # **<font color="DeepPink">Conjunto de datos</font>**

In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/Ecommerce_Customers.csv"

In [None]:
datos = pd.read_csv(url)

In [None]:
datos.head()

Unnamed: 0,Email,Address,Avatar,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank Tunnel\nWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer Common\nDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933
2,pallen@yahoo.com,"24645 Valerie Unions Suite 582\nCobbborough, D...",Bisque,33.000915,11.330278,37.110597,4.104543,487.547505
3,riverarebecca@gmail.com,"1414 David Throughway\nPort Jason, OH 22070-1220",SaddleBrown,34.305557,13.717514,36.721283,3.120179,581.852344
4,mstephens@davidson-herman.com,"14023 Rodriguez Passage\nPort Jacobville, PR 3...",MediumAquaMarine,33.330673,12.795189,37.536653,4.446308,599.406092


<p align="justify">
Es una empresa de comercio electrónico con sede en la ciudad de Nueva York que vende ropa en línea, pero también tienen sesiones de asesoramiento sobre estilo y ropa en la tienda. Los clientes que vienen a la tienda, tienen sesiones/reuniones con un estilista personal, luego pueden ordenar a través de una aplicación móvil o sitio web la ropa que desean.
<br>
<br>
Intentan identificar si debe enfocarse en mejorar su experiencia de aplicación movil o en su página web.
<br>
<br>
Este es un conjunto de datos de los clientes de la empresa. El cual tiene información del cliente, como correo electrónico, dirección postal y su color de avatar. También tiene columnas de valores numéricos:

* **Avg. Session Length**: duración promedio de sesiones de asesoramiento de estilo en la tienda.

* **Time on App**: tiempo promedio de permanencia en la aplicación en minutos.

* **Time on Website**: tiempo promedio de permanencia en el sitio web en minutos.

* **Length of Membership**: cuántos años ha sido miembro el cliente.

* **Yearly Amount Spent**: monto anual gastado en la plataforma.





In [None]:
datos = datos.drop(["Avatar","Email","Address"], axis=1)

In [None]:
# Renombramos columnas:
datos.rename(columns={"Avg. Session Length": "Tiempo_sesión",
                      "Time on App":"Tiempo_app",
                      "Time on Website":"Tiempo_web",
                      "Length of Membership":"Años_miembro",
                      "Yearly Amount Spent":"Gasto_anual"},inplace=True)

In [None]:
datos.head()

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro,Gasto_anual
0,34.497268,12.655651,39.577668,4.082621,587.951054
1,31.926272,11.109461,37.268959,2.664034,392.204933
2,33.000915,11.330278,37.110597,4.104543,487.547505
3,34.305557,13.717514,36.721283,3.120179,581.852344
4,33.330673,12.795189,37.536653,4.446308,599.406092


 ## **<font color="DeepPink">Separamos la variable objetivo y las variables explicativas</font>**

In [None]:
y = datos.Gasto_anual

In [None]:
X = datos.drop(columns='Gasto_anual')
X.head()

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro
0,34.497268,12.655651,39.577668,4.082621
1,31.926272,11.109461,37.268959,2.664034
2,33.000915,11.330278,37.110597,4.104543
3,34.305557,13.717514,36.721283,3.120179
4,33.330673,12.795189,37.536653,4.446308


 ## **<font color="DeepPink">Conjunto de entrenamiento y conjunto de prueba</font>**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

 ## **<font color="DeepPink">Coeficiente de correlación de Pearson</font>**

In [None]:
from scipy.stats import pearsonr

<p align="justify">
La función <code>pearsonr</code> de la biblioteca <code>scipy.stats</code> en Python se utiliza para calcular el <b>coeficiente de correlación de Pearson</b> entre dos variables. El coeficiente de correlación de Pearson es una medida estadística que evalúa la fuerza y dirección de la relación lineal entre dos variables continuas. El resultado de pearsonr es un par de valores: el <b>coeficiente de correlación</b> y el <b>p-valor</b> asociado.
<br><br>
<ul align="justify">
<li>El <b>coeficiente de correlación</b> de Pearson varía entre $-1$ y $1$. Un valor de $1$ indica una correlación positiva perfecta, lo que significa que las dos variables están perfectamente relacionadas en una relación lineal positiva. Un valor de $-1$ indica una correlación negativa perfecta, lo que implica una relación lineal negativa perfecta entre las variables. Un valor cercano a $0$ indica una correlación débil o inexistente entre las variables.
<br><br>
<li>El <b>p-valor</b> asociado proporciona una medida de la significancia estadística de la correlación calculada. Si el p-valor es menor que un umbral  predefinido (generalmente $0.05$), se considera que la correlación es estadísticamente significativa.
</ul>

In [None]:
corr_test = pearsonr(x = X['Tiempo_app'], y = y)
print("")
print("Coeficiente de correlación de Pearson: ", round(corr_test[0],2))
print("P-valor: ", corr_test[1])


Coeficiente de correlación de Pearson:  0.5
P-valor:  6.905842369973249e-33


<p align="justify">
El test de correlación muestran una <b>relación positiva de intensidad moderada</b> (r = 0.5) y <b>estadísticamente significativa</b> (p-value = 6.905842369973249e-33).

<p align="justify">
El método <code>corr()</code> en <code>Pandas</code> se utiliza para calcular la matriz de correlación entre las variables numéricas de un DataFrame. Esta matriz muestra las correlaciones entre pares de variables y es útil para analizar la relación lineal entre diferentes variables en un conjunto de datos.

In [None]:
corr_matrix = round(datos.corr(),3)
corr_matrix

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro,Gasto_anual
Tiempo_sesión,1.0,-0.028,-0.035,0.06,0.355
Tiempo_app,-0.028,1.0,0.082,0.029,0.499
Tiempo_web,-0.035,0.082,1.0,-0.048,-0.003
Años_miembro,0.06,0.029,-0.048,1.0,0.809
Gasto_anual,0.355,0.499,-0.003,0.809,1.0


<p align="justify">
El <b>Mapa de calor</b> o <b>Heatmap</b> es una herramienta gráfica utilizada para visualizar y analizar la relación entre variables en un conjunto de datos.

Tradicionalmente, la biblioteca [Seaborn](https://seaborn.pydata.org/generated/seaborn.heatmap.html) ha sido comúnmente empleada para generar Mapas de calor.

No obstante, en esta ocasión hemos optado por utilizar la biblioteca [Plotly](https://plotly.com/python/imshow/) para llevar a cabo esta representación gráfica.



In [None]:
px.imshow(corr_matrix,
          title = "Matriz de Correlacion",
          text_auto=True,
          color_continuous_scale='fall',
          labels={"color":"Indice"})

<p align="justify">
A primera vista, se evidencia una relación fuerte entre la variable explicativa <code>Años_miembro</code> y la variable <code>Gasto_anual</code>. Asimismo, se puede apreciar una relación moderada entre la variable explicativa <code>Tiempo_app</code> y la variable <code>Gasto_anual</code>. La relación entre <code>Tiempo_web</code> y <code>Gasto_anual</code> es nula.


 # **<font color="DeepPink">Gradient Boosting con histogramas para regresión</font>**

 <p align="justify">
 La clase <code>HistGradientBoostingRegressor</code> de la biblioteca <code>sklearn</code> es un estimador de regresión. Este algoritmo utiliza histogramas para discretizar las variables explicativas continuas en rangos discretos (<a href="https://en.wikipedia.org/wiki/Data_binning">estrategia de binning</a>). Esto permite reducir la complejidad computacional, ya que el proceso de búsqueda de variables predictoras óptimas para cada división se realiza sobre los bins, lo que suele ser más rápido que considerar cada valor único de la variable predictora. Esto hace que el proceso de entrenamiento sea más eficiente, especialmente en conjuntos de datos grandes. Puede encontrarse una descripción detallada de todos los hiperparámetros en <a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingRegressor.html"> sklearn.ensemble.HistGradientBoostingRegressor</a>.

In [None]:
from sklearn.ensemble import HistGradientBoostingRegressor

<p align="justify">
Se crea un modelo de Gradient Boosting con histogramas para regresión utilizando la biblioteca  <code>sklearn</code>. Se consideran los hiperparámetros por defecto que trae el algoritmo.

In [None]:
model_HGBR = HistGradientBoostingRegressor(random_state = 123)

<p align="justify">
Una vez creado el modelo, se ajusta con los datos de entrenamiento: <code>X_train</code> (variables explicativas) e <code>y_train</code> (variable objetivo).

In [None]:
model_HGBR.fit(X_train, y_train)

<p align="justify">
Después de entrenar el modelo, se realizan las predicciones sobre nuevos datos (<code>X_test</code>).

In [None]:
prediction = model_HGBR.predict(X_test)
prediction[:10]

array([401.74758218, 541.35833342, 436.46680628, 501.50337106,
       407.80828557, 576.31151885, 544.65063911, 511.96671961,
       409.96501099, 456.35353167])

In [None]:
tabla = pd.DataFrame({"Prediccion":prediction,
                      "Real":y_test,
                      "Residuos": (y_test-prediction),
                      "Promedio": y_test.mean()})
tabla.head()

Unnamed: 0,Prediccion,Real,Residuos,Promedio
361,401.747582,401.033135,-0.714447,492.499071
73,541.358333,534.777188,-6.581145,492.499071
374,436.466806,418.602742,-17.864064,492.499071
155,501.503371,503.978379,2.475008,492.499071
104,407.808286,410.069611,2.261325,492.499071


<p align="justify">
Por último, se evalua el rendimiento del modelo usando diferentes métricas.


 ## **<font color="DeepPink">Evaluación del modelo</font>**

<p align="justify">
Las métricas para los modelos de regresión implican calcular una puntuación de error para resumir la habilidad predictiva del modelo. Se puede evaluar la calidad de los modelos de regresión con las siguientes métricas:



### **<font color="DeepPink">Error medio cuadrático o mean squared error (MSE)**

<p align="justify">
El error cuadrático medio, es la métrica de error más básica y usada. Se define como el promedio de los cuadrados de la diferencia entre las predicciones y los valores reales, su fórmula es:
<br>

$$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y})^2$$

<br><p align="justify">
El MSE tiene la ventaja de penalizar fuertemente los errores más grandes debido a que cada diferencia se eleva al cuadrado. Sin embargo, una desventaja importante del MSE es que no está en las mismas unidades que la variable objetivo.

In [None]:
MSE = round(sum((tabla.Real-tabla.Prediccion)**2)/(len(tabla)), 2)
MSE

234.85

### **<font color="DeepPink">Raíz del error cuadrático medio o root mean squared error (RMSE)**


<p align="justify">
Se define como la raiz cuadrada del promedio de los cuadrados de la diferencia entre las predicciones y los valores reales, su fórmula es:
<br>

$$RMSE = \sqrt{MSE}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y})^2}$$

<br><p align="justify">
Esta métrica aborda la limitación del MSE tomando su raíz cuadrada. De este modo, el RMSE se encuentra en las mismas unidades que la variable objetivo original, lo que facilita su interpretación y comparación con los valores reales. Al tomar la raíz cuadrada, el RMSE disminuye el énfasis en los errores más grandes, pero aún sigue penalizando las diferencias significativas entre los valores predichos y los valores reales.

In [None]:
RMSE = round(np.sqrt(sum((tabla.Real-tabla.Prediccion)**2)/(len(tabla))), 2)
RMSE

15.32

In [None]:
np.sqrt(MSE).round(2)

15.32

### **<font color="DeepPink">Error absoluto medio o mean absolute error (MAE)**

<p align="justify">
Se define como el valor medio de la suma de los valores absolutos de la diferencia entre las predicciones y los valores reales, su fórmula es:
<br>

$$MAE=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}|$$

<br><p align="justify">
El MAE no eleva al cuadrado los errores, lo que significa que no amplifica el efecto de los errores mayores. Considera a todos los errores por igual. Además, como el MAE se encuentra en las mismas unidades que la variable objetivo se puede realizar una interpretación más directa de la magnitud promedio de los errores. Sin embargo, debido a que el MAE no eleva al cuadrado los errores, los valores atípicos no son penalizados de manera más significativa.

In [None]:
MAE = round(sum(abs(tabla.Real-tabla.Prediccion))/(len(tabla)),2)
MAE

11.92

### **<font color="DeepPink">Error porcentual absoluto medio o mean absolute percentage error (MAPE)**

<p align="justify">
Se define como el porcentaje promedio de diferencia entre las predicciones y los valores reales en comparación con los valores reales. Mide el error porcentual relativo entre las predicciones y los valores reales, su fórmula es:
<br>

$$MAPE=\frac{1}{n}\sum_{i=1}^{n}|\frac{y_i-\hat{y}}{y_i}|.100$$

<br><p align="justify">
El MAPE es especialmente valioso cuando se quiere entender el error en términos porcentuales en lugar de valores absolutos o cuando se trabaja con datos en diferentes escalas y se quiere entender el error de manera relativa. Como desventaja principal, si algunos valores reales ($y_i$) son cero o cercanos a cero, el MAPE no se puede calcular, ya que implicaría una división por cero.


In [None]:
MAPE = round(sum(abs((tabla.Real-tabla.Prediccion)/tabla.Real))/(len(tabla)),2)
MAPE

0.03

### **<font color="DeepPink">Coeficiente de determinación ($R^2$)**

<p align="justify">
Determina la capacidad de un modelo para predecir futuros resultados de la variable respuesta. El mejor resultado posible es 1.0, y ocurre cuando la predicción coincide con los valores reales de la variable objetivo.


$$R^2 = 1-\frac{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y})^2}{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})^2}$$

Donde:
* $\hat{y}$ es la predicción de la variable respuesta,
* $\bar{y}$ es el promedio de la variable respuesta.



In [None]:
R2 = round(1-((sum((tabla.Real-tabla.Prediccion)**2)/(len(tabla)))/(sum((tabla.Real-tabla.Promedio)**2)/(len(tabla)))),2)
R2

0.96

<p align="justify">
Cada métrica tiene sus ventajas y desventajas y es importante seleccionar la más adecuada según el contexto y los objetivos del análisis.

 ## **<font color="DeepPink">Evaluación del modelo con `sklearn`</font>**

<p align="justify">
Podemos calcular las métricas anteriores (calculadas manualmente) usando `sKlearn`. Esta biblioteca incluye tres formas diferentes para evaluar el rendimiento de una predicción:
<br><br><ul align="justify">
<li>Método <code>score</code>: todos los algoritmos incluyen un método <code>score</code> que provee el resultado de un criterio de evaluación por defecto para aquel problema al que están orientados. De esta manera, el método <code>score</code> de un modelo de regresión devuelve el coeficiente de determinación ($R_2$).
<br><br>
<li>Parámetro <code>scoring</code>: algunas herramientas de evaluación de modelos que utilizan validación cruzada (como <code>cross_val_score</code> o <code>GridSeachCV</code>) incluyen sus propias métricas de rendimiento. Puede consultar las métricas disponibles en la <a href="https://scikit-learn.org/stable/modules/model_evaluation.html">documentación</a>.
<br><br>
<li>Módulo <code>metrics</code>: implementa un buen número de medidas de evaluación del modelo.

In [None]:
# Método score
model_HGBR.score(X_test, y_test).round(2)

0.96

In [None]:
# Parámetro scoring
from sklearn.model_selection import cross_val_score
cv_results = cross_val_score(model_HGBR, X, y, scoring = 'r2', cv=5)
cv_results.mean().round(2)

0.94

In [None]:
# Módulo metrics
from sklearn import metrics
MSE = round(metrics.mean_squared_error(y_test, prediction,squared=False),2)     # Error cuadrático medio
RMSE = round(metrics.mean_squared_error(y_test, prediction,squared=True),2)     # Raíz del error cuadrático medio
MAE = round(metrics.mean_absolute_error(y_test, prediction),2)                  # Error absoluto medio
MAPE = round(metrics.mean_absolute_percentage_error(y_test, prediction),2)      # Error porcentual absoluto medio
R2 = round(metrics.r2_score(y_test, prediction),2)                              # Coeficiente de determinación
print("")
print("MSE: {}".format(MSE))
print("RMSE: {}".format(RMSE))
print("MAE: {}".format(MAE))
print("MAPE: {}".format(MAPE))
print("R2: {}".format(R2))


MSE: 15.32
RMSE: 234.85
MAE: 11.92
MAPE: 0.03
R2: 0.96


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:<br><br>
✅
Estudiamos la correlación lineal entre variables. <br>
✅ Realizamos la predicción y evaluación, usando diferentes métricas, con un conjunto de prueba. <br>

<p align="justify">



<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
