# Laboratorio de evaluación de modelos de aprendizaje supervisado

Realice los siguientes ejercicios para consolidar sus conocimientos y comprensión de la evaluación de modelos de aprendizaje supervisado.

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Evaluación de modelos de regresión

In [None]:
from sklearn.datasets import load_boston

data = load_boston()

X = pd.DataFrame(data["data"], columns=data["feature_names"])
y = pd.DataFrame(data["target"], columns=['MEDV'])

data = pd.concat([X, y], axis=1)

## 1. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `MEDV` representa el valor medio de las viviendas ocupadas por sus propietarios (en miles de dólares) y es la variable objetivo que queremos predecir.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.metrics import accuracy_score, balanced_accuracy_score, precision_score, f1_score, recall_score, confusion_matrix

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=42, test_size=.2)

In [None]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
def train_regressor_model(model, X, y):
    
    '''
        This function fit a model, and return evaluation of the model based on RMSE, MAE and R2 score.
        
        Parameters:
            model: Model that will be trained
            X: DataFrame for train the model
            y: Target
        Return:
            Results of the evaluations the model
            
    '''
    
    X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=42, test_size=.2)
    model.fit(X_train, y_train)
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    rmse_train = mean_squared_error(y_train, y_pred_train, squared=False)
    r2_score_train = r2_score(y_train, y_pred_train)
    mae_train = mean_absolute_error(y_train, y_pred_train)
    rmse_test = mean_squared_error(y_test, y_pred_test, squared=False)
    r2_score_test = r2_score(y_test, y_pred_test)
    mae_test = mean_absolute_error(y_test, y_pred_test)
    
    return print(f'''Model results:   
                                      Train r2_score: {r2_score_train}
                                      Train rmse: {rmse_train}
                                      Train mae: {mae_train}
                                      Test r2_score: {r2_score_test} 
                                      Test rmse: {rmse_test}
                                      Test mae: {mae_test}
                                      ''')
    

## 2. Entrene un modelo `LinearRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

In [None]:
from sklearn.linear_model import LinearRegression

linreg = LinearRegression()


## 3. Calcule e imprima R-cuadrado tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
train_regressor_model(linreg, X, y)

## 4. Calcule e imprima el error cuadrático medio para el conjunto de entrenamiento y de prueba.

In [None]:
train_regressor_model(linreg, X, y)

## 5. Calcule e imprima el error medio absoluto para el conjunto de entrenamiento y de prueba.

In [None]:
train_regressor_model(linreg, X, y)

## Evaluación del modelo de clasificación

In [None]:
from sklearn.datasets import load_iris

data = load_iris()

X_c = pd.DataFrame(data["data"], columns=data["feature_names"])
y_c = pd.DataFrame(data["target"], columns=["class"])

data = pd.concat([X, y], axis=1)

## 6. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `class` representa el tipo de flor y es la variable objetivo que querremos predecir.

In [None]:
#! pip install plotly

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.figure(figsize=(8,8))
pd.options.plotting.backend = "plotly"
sns.set(rc={'figure.figsize':(6,6)});

In [None]:
def train_classification_model(model, X, y):
    
    '''
        This function fit a model, and return evaluation of the model based on RMSE, MAE and R2 score.
        
        Parameters:
            model: Model that will be trained
            X: DataFrame for train the model
            y: Target
        Return:
            Results of the evaluations the model
            
    '''
    
    X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=42, test_size=.2)
    model.fit(X_train, y_train)
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    acc_train = accuracy_score(y_train, y_pred_train)
    acc_test = accuracy_score(y_test, y_pred_test)
    bal_acc_train = balanced_accuracy_score(y_train, y_pred_train)
    bal_acc_test = balanced_accuracy_score(y_test, y_pred_test)
    prec_train = precision_score(y_train, y_pred_train, average='macro')
    prec_test = precision_score(y_test, y_pred_test, average='macro')
    rec_train = recall_score(y_train, y_pred_train, average='macro')
    rec_test = recall_score(y_test, y_pred_test, average='macro')
    f1_train = f1_score(y_train, y_pred_train, average='macro')
    f1_test = f1_score(y_test, y_pred_test, average='macro')
    cm_train = confusion_matrix(y_train, y_pred_train)
    cm_test = confusion_matrix(y_test, y_pred_test)
    
    print(f'''Model results:   
                                      Train acc: {acc_train}
                                      Train balanced_acc: {bal_acc_train}
                                      Train precision: {prec_train}
                                      Train recall: {rec_train}
                                      Train F1: {f1_train}
                                      Test acc: {acc_test} 
                                      Test balanced: {bal_acc_test}
                                      Test precision: {prec_test}
                                      Test recall: {rec_test}
                                      Test F1: {f1_test}
                                      ''')
    print('\n ----- Confusion Matrix for Train -----\n')
    
    sns.heatmap(cm_train, annot=True)
    sns.set(rc={'figure.figsize':(8,8)})
    plt.title('Matriz confusion')
    plt.ylabel('Verdad')
    plt.xlabel('Prediccion')
    plt.show();
    
    print('\n ----- Confusion Matrix for Test -----\n')
    
    sns.heatmap(cm_test, annot=True)
    sns.set(rc={'figure.figsize':(8,8)})
    plt.title('Matriz confusion')
    plt.ylabel('Verdad')
    plt.xlabel('Prediccion')
    plt.show();
    
    return y_pred_test
    

## 7. Entrene un modelo `LogisticRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

In [None]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(max_iter=2000)

## 8. Calcule e imprima la puntuación de precisión tanto para el conjunto de entrenamiento como para el de pruebas.

    Esta función resuelve los ejercicios 8,9,10,11,12 y 13.

In [None]:
train_classification_model(logreg, X_c, y_c)

## 9. Calcule e imprima la puntuación de precisión equilibrada tanto para el conjunto de entrenamiento como para el de pruebas.

In [None]:
help(train_classification_model)

## 10. Calcule e imprima la puntuación de precisión tanto para el conjunto de entrenamiento como para el de prueba.

## 11. Calcule e imprima la puntuación de recuerdo tanto para el conjunto de entrenamiento como para el de prueba.

## 12. Calcule e imprima la puntuación F1 tanto para el conjunto de entrenamiento como para el de prueba.

## 13. Generar matrices de confusión tanto para el conjunto de entrenamiento como para el de pruebas.

## Bonus: Para cada uno de los conjuntos de datos de este laboratorio, intente entrenar con algunos de los otros modelos que ha aprendido, vuelva a calcular las métricas de evaluación y compare para determinar qué modelos funcionan mejor en cada conjunto de datos.