# Evaluacion de los modelos de predicción.

<a id="0"></a> <br>
### Índice:
1. [Introdución](#1)  
2. [Evaluación de modelo de regresion lineal pólinomica](#2)  
3. [Evaluación de modelo de arbol de decisión](#3)  
4. [Análisis de métricas](#4)

<a id="1"></a> <br>
## Introducción

Aquí vamos a evaluar los errores que podemos tener en este problema de regresion.  
Para ello vamos a evaluar estas caracteristicas:

-   MAE (Mean Absolute Error): El MAE es la media del valor absoluto de las diferencias entre las predicciones y los valores reales. Cuanto menor   sea el MAE, mejor será el modelo en términos de precisión.

-   MAPE (Mean Absolute Percentage Error): El MAPE es la media del porcentaje absoluto de las diferencias entre las predicciones y los valores reales, en relación con los valores reales. Es una medida relativa que proporciona una idea del error porcentual promedio. Al igual que el MAE, cuanto menor sea el MAPE, mejor será el modelo.

-   MSE (Mean Squared Error): El MSE es la media de los errores al cuadrado entre las predicciones y los valores reales. El MSE asigna un mayor peso a los errores más grandes, lo que implica que los valores extremos tienen un impacto más significativo en la métrica. Cuanto menor sea el MSE, mejor será el modelo en términos de precisión.

-   RMSE (Root Mean Squared Error): El RMSE es la raíz cuadrada del MSE. Se utiliza para tener una medida del error en la misma unidad que la variable objetivo, lo que lo hace más fácil de interpretar. Al igual que el MSE, un valor de RMSE más bajo indica un modelo más preciso.

-   R2 score (R-squared): El R2 score, también conocido como coeficiente de determinación, indica qué tan bien se ajustan los valores predichos por el modelo a los valores reales. Varía entre 0 y 1, donde 1 indica un ajuste perfecto del modelo. Un R2 score más alto sugiere una mejor capacidad de predicción del modelo.

Primero vamos a crear un data frame vacio para ir recogiendo toda la información que obtenemos de las evaluaciones para despues hacer un análisis de todos ellos y ver cual es el mejor modelo.

In [27]:
# Cargamos librerias
import pickle
import numpy as np
import pandas as pd
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score
from sklearn.preprocessing import PolynomialFeatures
import time 
import yaml

In [21]:
df_conc = pd.DataFrame({"Métricas": ["MAE","MAPE","MSE","RMSE", "R2Score"]}).set_index("Métricas")

<a id="2"></a> <br>
### 1. Evaluación del modelo de regresión lineal con polinomio.

In [34]:

# Cargamos el modelo entrenado y sus caracteristicas para arreglar con conversion polinómica.

with open('../models/modelo_lineal/model_config_lin.yaml', 'r') as file:
    model_config = yaml.safe_load(file)

model_path = '../models/modelo_lineal/trained_pol_3.pkl'

with open(model_path, 'rb') as f:
        lin_reg = pickle.load(f)

# Cargamos data test

df_test = pd.read_csv('../data/test/test.csv')
df_train = pd.read_csv('../data/train/train.csv')

# Obtener las características (X_test) y las etiquetas (y_test)

X_test = df_test.drop('Rating Average', axis=1)
y_test = df_test['Rating Average']

X_train = df_train.drop('Rating Average', axis=1)
y_train = df_train['Rating Average']

# Conversión a polinomica

poly_feats = PolynomialFeatures(degree = model_config['degree'])
poly_feats.fit(X_train)
X_test_poly = poly_feats.transform(X_test)

# Realizar las predicciones

predictions = lin_reg.predict(X_test_poly)

# Calcular las métricas de evaluación

mae_lin = mean_absolute_error(y_test, predictions)
mape_lin = mean_absolute_percentage_error(y_test, predictions)
mse_lin = mean_squared_error(y_test, predictions)
rmse_lin = mean_squared_error(y_test, predictions, squared=False)
r2_lin = r2_score(y_test, predictions)

# Imprimir las métricas

print("Mean Absolute Error (MAE):", round(mae_lin,4))
print("Mean Absolute Percentage Error (MAPE):", round(mape_lin,4))
print("Mean Squared Error (MSE):", round(mse_lin,4))
print("Root Mean Squared Error (RMSE):", round(rmse_lin,4))
print("R-squared (R2) Score:", round(r2_lin,4))

list_lin = [round(mae_lin,4),round(mape_lin,4),round(mse_lin,4),round(rmse_lin,4),round(r2_lin,4)]


Mean Absolute Error (MAE): 0.356
Mean Absolute Percentage Error (MAPE): 0.0564
Mean Squared Error (MSE): 0.2356
Root Mean Squared Error (RMSE): 0.4854
R-squared (R2) Score: 0.7304


<a id="3"></a> <br>
### Evaluación del modelo de arbol de decisión

In [35]:
# Carga de modelo
model_path = '../models/arbol_decision/dtr_gs.pkl'

with open(model_path, 'rb') as f:
        dtr_gs = pickle.load(f)

# Cargamos data test

df_test = pd.read_csv('../data/test/test.csv')
df_train = pd.read_csv('../data/train/train.csv')

# Obtener las características (X_test) y las etiquetas (y_test)

X_test = df_test.drop('Rating Average', axis=1)
y_test = df_test['Rating Average']

X_train = df_train.drop('Rating Average', axis=1)
y_train = df_train['Rating Average']

# Obtener el mejor modelo entrenado

y_pred_dtr = dtr_gs.best_estimator_.predict(X_test)

mae_dtr = mean_absolute_error(y_test, y_pred_dtr)
mape_dtr = mean_absolute_percentage_error(y_test, y_pred_dtr)
mse_dtr = mean_squared_error(y_test, y_pred_dtr)
rmse_dtr = mean_squared_error(y_test, y_pred_dtr, squared=False)
r2_dtr = r2_score(y_test, y_pred_dtr)
print("Mean Absolute Error (MAE):", round(mae_dtr,4))
print("Mean Absolute Percentage Error (MAPE):", round(mape_dtr,4))
print("Mean Squared Error (MSE):", round(mse_dtr,4))
print("Root Mean Squared Error (RMSE):", round(rmse_dtr,4))
print("R-squared (R2) Score:", round(r2_dtr,4))

list_dtr = [round(mae_dtr,4),round(mape_dtr,4),round(mse_dtr,4),round(rmse_dtr,4),round(r2_dtr,4)]


Mean Absolute Error (MAE): 0.3421
Mean Absolute Percentage Error (MAPE): 0.0538
Mean Squared Error (MSE): 0.2373
Root Mean Squared Error (RMSE): 0.4871
R-squared (R2) Score: 0.7284


<a id="4"></a> <br>
### Análisis de métricas

Iré añadiendo poco a poco todas las metricas para evaluarlas

In [36]:
df_conc["Lineal Regression"] = list_lin
df_conc["Decision Tree Regressor"] = list_dtr

In [37]:
df_conc

Unnamed: 0_level_0,Lineal Regression,Decision Tree Regressor
Métricas,Unnamed: 1_level_1,Unnamed: 2_level_1
MAE,0.356,0.3421
MAPE,0.0564,0.0538
MSE,0.2356,0.2373
RMSE,0.4854,0.4871
R2Score,0.7304,0.7284


Por ahora vemos que tanto MAE como MAPE son más bajos en Dtr, cambiaremos los parametros más adelante para que tanto el score como las demás metricas sean más bajas