# **Ejercicio 1**

## **Ejercicio Notas de Clase**
Considere los ejemplos vistos en clase, en los que se analizó la implementación de los modelos: *k-nn*, *regresión lineal*, *regresión logística*. Realice hiperparametrización y validación cruzada usando *(i) GridSearchCV y Pipeline vs (ii) Manualmente, sin usar GridSearchCV y Pipeline (Use ciclos FOR, WHILE, etc,...)*. Verifique que los scores obtenidos en los ítems *(i)-(ii)* son los mismos. Los ejercicios son los siguientes:

-  Breast Cancer: (KNN, LogisticRegression) Decida cual es la métrica de mayor importancia en la aplicación de detección de cancer (métrica de negocio). Utilice esta métrica para la evaluación y selección del modelo y justifique su respuesta. Los resultados deben ser presentados usando el Cuadro 1. El estudiante que obtenga el mejor score con esta métrica, será premiado con una décima para el corte. Los datos deben ser cargados mediante el siguiente par de líneas:

        • from sklearn.datasets import load_breast_cancer
        • cancer = load_breast_cancer()

- Boston Housing: (LinearRegression, KNN). Utilice la métrica R2 y RMSE durante la evaluación y selección del modelo. Los resultados deben ser presentados usando el Cuadro 2. Realice un gráfico en el que muestre en los conjuntos de entrenamiento y test, el precio original y el predicho. El estudiante que obtenga el mejor score con esta métrica, será premiado con una décima para el corte. Los datos deben ser cargados mediante el siguiente par de líneas:

        • import mglearn
        • X, y = mglearn.datasets.load_extended_boston())

**Cuadro 1: Modelo de clasificación para detección de fraude**

| **Modelo**            | **precision** | **recall** | **f1-score** | **AUC** |
|-----------------------|---------------|------------|--------------|---------|
| K-NN                  | ...        | ...          | ...           | ...       |
| Logistic Regression   | ...           | ...          | ...            | ...       |






**Cuadro 2: Modelo de regresión para velocidad del viento**

| **Modelo**            | **MAPE** | **MAE** | **RMSE** | **MSE** | **R2** |
|-----------------------|----------|---------|----------|---------|--------|
| K-NN                  | ...      | ...      | ...       | ...      | ...     |
| Linear Regression     | ...      | ...      | ...       | ...      | ...     |





## **Librerias necesarias**

In [131]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import MinMaxScaler
import warnings
import pandas as pd
from sklearn.pipeline import Pipeline
warnings.filterwarnings("ignore")

## **Breast Cancer**

En este caso, contamos con un conjunto de datos sobre el cáncer de mama (`Breast Cancer`). Nótese que al tratarse de un tema de salud crítico, es de vital importancia escoger la métrica más acertada para asegurarnos de dar las mejores estimaciones. Es por ello, que en este caso, decidimos trabajar con *`Recall`*. Esta métrica nos permitirá limitar los falsos negativos, es decir, aquellas observaciones que en realidad SI tienen cáncer pero en realidad fueron predichas como que NO tienen. 



Inicialmente se hace el cargue del conjunto de datos. 

In [132]:
data_cancer = load_breast_cancer() # Datos
X =  data_cancer.data # Características
y = data_cancer.target # Etiquetas

Dividimos el conjunto de entrenamiento y prueba

In [133]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y, random_state = 11)
# stratify = y :  garantiza que tanto el conjunto de entrenamiento como el de prueba representen la distribución de las clases.

### **Método GridSearch**

In [134]:
# Se usa el pipeline donde primero se escala las características de los datos
# Luego se ajusta el modelo de clasificación
pipeline_knn = Pipeline([('scaler', MinMaxScaler()), ('clasificador', KNeighborsClassifier())]) 

# Se usa el param_grid para definir los hiperparámetros de los modelos a evaluar.
param_grid_knn = [{ 'clasificador__n_neighbors': range(1,50), # Número de vecinos del modelo
                   'clasificador__weights': ['uniform', 'distance']}] 

# Aplicación del método GridSearchCV para KNN
grid_met = GridSearchCV(pipeline_knn, param_grid_knn, cv = 5, scoring = 'recall')
grid_met.fit(X_train, y_train)
print("Mejores parámetros:", grid_met.best_params_)
print("Mejor Recall: {:.2f}".format(grid_met.best_score_))
print('Score:', grid_met.score(X_test, y_test))

Mejores parámetros: {'clasificador__n_neighbors': 13, 'clasificador__weights': 'uniform'}
Mejor Recall: 1.00
Score: 1.0


In [144]:
# Aplicación del método GridSearchCV para regresión logística
pipeline_rl = Pipeline([ ('scaler', MinMaxScaler()), ('clasificador', LogisticRegression(max_iter = 10000,  tol=0.1))])
param_grid_lr = {'clasificador__C': [ 0.01, 0.1, 1, 10, 100]}
grid_rl = GridSearchCV(pipeline_rl, param_grid_lr, cv = 5, scoring='recall')
grid_rl.fit(X_train, y_train)
print("Mejores parámetros:", grid_rl.best_params_)
print("Mejor Recall:", grid_rl.best_score_)
print('Score:', grid_rl.score(X_test, y_test))

Mejores parámetros: {'clasificador__C': 0.01}
Mejor Recall: 1.0
Score: 1.0


### **GridSearch Manual**

## **Boston Housting**