# Laboratorio 2.2: Clasificación

Hernán Sarmiento, Andrés Abeliuk, Alison Fernandez, Cinthia Sánchez, Johnny Godoy, Gabriel Ramos, Cristian Llull y Matías Rojas

Octubre 2021

## ============= Declaración de compromiso ético =============

Nosotros, ****José Luis Cádiz, Maximiliano Jorquera****, declaramos que realizamos de manera grupal los pasos de la presente actividad. También declaramos no incurrir en copia, ni compartir nuestras respuestas con otras personas ni con otros grupos. Por lo que, ratificamos que las respuestas son de nuestra propia confección y reflejan nuestro propio conocimiento.


# Instrucciones


1. Trabajen en equipos de dos personas. Salvo excepciones, no se corregirá entregas con menos de dos integrantes.

2. Modifique este archivo `.ipynb` agregando sus respuestas donde corresponda. 

3. El formato de entrega para esta actividad es un archivo html. **Genere un archivo HTML** usando jupyter (ver tutorial 2) y súbalo a U-Cursos. Basta con que uno de los integrantes haga la entrega. Si ambos hacen una entrega en U-Cursos, se revisará cualquiera de éstas.

# Estructura del laboratorio

Este laboratorio está conformado por preguntas teóricas de temas vistos en clases y preguntas prácticas (donde se requiere completar código) intercaladas con preguntas de interpretación de resultados y análisis. La parte práctica se divide en: 

1. Comparar clasificadores con ciertos *baselines* o clasificadores base.
2. Seleccionar hiperparámetros.
3. Trabajar con clases desbalanceadas.

# Teoría

#### 1. Explique cómo escoge un árbol de decisión el atributo raíz.

**Respuesta: Se escoge el atributo que maximiza el valor de information gain, esto quiere decir que se escoge el atributo que genere los nodos más puros, la idea es crear el árbol de decisión más pequeño posible.** 

#### 2. Explique el problema de optimización que resuelve una SVM lineal.

**Respuesta: El problema de optimización es máximizar el margen (distancia que hay de los puntos positivos y negativos más cercanos) de la ecuación de la recta que separa dos clases. La idea de esto es evitar un sobre ajuste y que el clasificador sea capaz de generalizar con un buen rendimiento.**

#### 3. ¿Qué es overfitting y underfitting en machine learning?

**Respuesta: 
Overfitting: Es el problema que ocurre cuando un algoritmo tiene muchos grados de libertad y es capaz de ajustarse practicamente a todos los datos de entrenamiento, lo cual no le permite generalizar y por consecuencia se obtienen malos resultados de clasificación con datos nuevos.**  

**Underfitting: Es cuando el clasificador no alcanza a "aprender" lo suficiente para obtener buenos resultados de clasificación, esto se dar por pocos datos de entrenamiento o malos ejemplos y con esto se pierde también la capacidad de generalización.**

# Parte 1: Comparar clasificadores

Una de las principales tareas en enfoques supervisados es evaluar diferentes clasificadores y encontrar el mejor rendimiento de alguno de ellos. Por ejemplo, si tenemos dos (o más) clasificadores y queremos compararlos entre sí, nos interesa responder: *¿Cuál de los clasificadores es el mejor?* 
Para responder esta pregunta, no existe una única solución. 

Lo que haremos a continuación será ejecutar diferentes clasificadores y compararlos en base a las métricas de Precision, Recall y F1-score.

### PREGUNTA 1.1


Para realizar la evaluación de distintos clasificadores, vamos a crear la función `run_classifier()`, la cual evalúa un clasificador `clf` recibido como parámetro, un dataset `X,y` (features y target) y un número de tests llamado `num_test`. Esta función almacena y retorna los valores de precision, recall y f1-score en la variable `metrics` además de los resultados de predicción.

En base a lo anterior, incluya las sentencias que ajusten el modelo junto a su correspondiente predicción sobre los datos. **No use cross-validation ni tampoco el parámetro `random_state`.**



In [40]:
### COMPLETAR ESTE CÓDIGO

## run_classifier recibe un clasificador y un dataset (X, y)
## y opcionalmente la cantidad de resultados que se quiere obtener del clasificador

from sklearn.metrics import f1_score, recall_score, precision_score
from sklearn.model_selection import train_test_split
import numpy as np

def run_classifier(clf, X, y, num_tests=100):
    metrics = {'f1-score': [], 'precision': [], 'recall': []}
    
    for _ in range(num_tests):
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.30)
        ### INICIO COMPLETAR ACÁ 
        
        #### TIP: en base a los set de entrenamiento, genere la variable 'predictions' 
        #### que contiene las predicciones del modelo
        clf.fit(X_train, y_train)
        predictions = clf.predict(X_test)
        ### FIN COMPLETAR ACÁ
        
        
        metrics['y_pred'] = predictions
        metrics['f1-score'].append(f1_score(y_test, predictions)) 
        metrics['recall'].append(recall_score(y_test, predictions))
        metrics['precision'].append(precision_score(y_test, predictions))
    
    return metrics

Luego de completar el código anterior, ejecute el siguiente bloque para comparar distintos clasificadores. 
Usaremos un **dataset de cáncer de mamas** para evaluar. La información del dataset se puede encontrar en el siguiente link: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html

In [41]:
## ejecutar este código

from sklearn.datasets import load_breast_cancer
from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB  # naive bayes
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC  # support vector machine classifier

bc = load_breast_cancer()    # dataset cancer de mamas
X = bc.data
y = bc.target

c0 = ("Base Dummy", DummyClassifier(strategy='stratified'))
c1 = ("Decision Tree", DecisionTreeClassifier(max_depth=5))
c2 = ("Gaussian Naive Bayes", GaussianNB())
c3 = ("KNN", KNeighborsClassifier(n_neighbors=10))
c4 = ("Support Vector Machines", SVC())

classifiers = [c0, c1, c2, c3, c4]

results = {}
for name, clf in classifiers:
    metrics = run_classifier(clf, X, y)   # hay que implementarla en el bloque anterior.
    results[name] = metrics
    print("----------------")
    print("Resultados para clasificador: ", name) 
    print("Precision promedio:", np.array(metrics['precision']).mean())
    print("Recall promedio:", np.array(metrics['recall']).mean())
    print("F1-score promedio:", np.array(metrics['f1-score']).mean())
    print("----------------\n\n")  

----------------
Resultados para clasificador:  Base Dummy
Precision promedio: 0.6259327072148786
Recall promedio: 0.6368896821427236
F1-score promedio: 0.6300256681447616
----------------


----------------
Resultados para clasificador:  Decision Tree
Precision promedio: 0.9449493999203519
Recall promedio: 0.9487756032431599
F1-score promedio: 0.9465383514008723
----------------


----------------
Resultados para clasificador:  Gaussian Naive Bayes
Precision promedio: 0.937330742212473
Recall promedio: 0.9650597874535868
F1-score promedio: 0.9507721549145326
----------------


----------------
Resultados para clasificador:  KNN
Precision promedio: 0.9355044220085115
Recall promedio: 0.9652684931981359
F1-score promedio: 0.9499478994916913
----------------


----------------
Resultados para clasificador:  Support Vector Machines
Precision promedio: 0.8926917451718712
Recall promedio: 0.9810479699031146
F1-score promedio: 0.9344994484211265
----------------




## Pregunta 1.2

Analizando los resultados obtenidos de cada clasificador, y basándose en las métricas calculadas. ¿Cuál es el mejor clasificador? ¿Qué métricas observó para tomar esa decisión y por qué? considerando el problema que aborda. Fundamente su respuesta.

**El mejor clasificador es el  SVM según la métrica Recall. Observamos Recall debido a que esta métrica cuantifica el grado de covertura del clasificador es decir mide el % de positivos que son clasificados correctamente respecto del total de la clase positiva. Para este tipo de enfermedades lo más costoso es decirle a alguien que si tenga la enfermedad pero que lo clasifique como persona sana.**

# Parte 2: Seleccionar hiperparámetros

Los hiperparámetros son parámetros que no se aprenden directamente dentro de los estimadores. En scikit-learn se pasan como argumentos al constructor de las clases, por ejemplo cuál kernel usar para Support Vector Classifier, o qué criterio para Decision Tree, etc. Es posible y recomendable buscar en el espacio de hiperparámetros la mejor alternativa.

Tenga en cuenta que es común que un pequeño subconjunto de esos parámetros pueda tener un gran impacto en el rendimiento predictivo o de cálculo del modelo, mientras que otros pueden dejar sus valores predeterminados. Se recomienda leer la documentación de la clase de estimador para obtener una mejor comprensión de su comportamiento esperado.

## GridSearchCV

Una alternativa para seleccionar hiperparámetros es GridSearchCV, la cual considera exhaustivamente todas las combinaciones de parámetros. GridSearchCV recibe un *estimador*, recibe *param_grid* (un diccionario o una lista de diccionarios con los nombres de los parametros a probar como keys y una lista de los valores a probar), *scoring* una o varias funciones de puntuación (score) para evaluar cada combinación de parametros (opciones válidas: https://scikit-learn.org/stable/modules/model_evaluation.html) y *cv* una extrategia para hacer validación cruzada.

El siguiente código muestra cómo seleccionar el número de vecinos y qué pesos otorgar a los vecinos en un clasificador KNN. 
 


In [42]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.30)

#Configure tuned_parameters
tuned_parameters = {'n_neighbors': [1, 3, 5, 10], 
                    'weights': ['uniform','distance']}

#set scoring metric
score = 'precision' 

#Construir el clf con GridSearch
clf = GridSearchCV(KNeighborsClassifier(), 
                   param_grid=tuned_parameters, 
                   cv=5,
                   scoring=score)

#Entrenar clf
clf.fit(X_train, y_train)

print("Mejor combinación de parámetros:")
print(clf.best_params_)
 
y_true, y_pred = y_test, clf.predict(X_test)

print(classification_report(y_true, y_pred))

Mejor combinación de parámetros:
{'n_neighbors': 10, 'weights': 'uniform'}
              precision    recall  f1-score   support

           0       0.91      0.88      0.89        58
           1       0.94      0.96      0.95       113

    accuracy                           0.93       171
   macro avg       0.92      0.92      0.92       171
weighted avg       0.93      0.93      0.93       171



## Pregunta 2.1

*  a) Realice este mismo proceso para un clasificador DecisionTree y los parametros criterion=['gini','entropy'], max_depth=[2,7,10] y tomando como scoring metric 'f1'. Use cv=4
*  b) ¿Qué puede decir de los resultados, con cuáles parámetros los obtuvo (revise que su respuesta concuerde con lo que imprime)? ¿Cuál considera que es la principal ventaja de aplicar GridSearchCV? ¿Considera que es necesario seguir explorando los parámetros?

In [43]:
## RESPUESTA A PREGUNTA 2.1 a)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.30)

## COMPLETE ACÁ
#Configure tuned_parameters
tuned_parameters = {'criterion': ['gini','entropy'], 
                    'max_depth': [2,7,10]}

#set scoring metric
score = 'f1' 

#Construir el clf con GridSearch
clf = GridSearchCV(DecisionTreeClassifier(), 
                   param_grid=tuned_parameters, 
                   cv=4,
                   scoring=score)

#Entrenar clf
clf.fit(X_train, y_train)

##### FIN COMPLETE ACÁ
print("Mejor combinación de parámetros:")
print(clf.best_params_)
 
y_true, y_pred = y_test, clf.predict(X_test)
print(classification_report(y_true, y_pred))

Mejor combinación de parámetros:
{'criterion': 'gini', 'max_depth': 2}
              precision    recall  f1-score   support

           0       0.91      0.94      0.93        68
           1       0.96      0.94      0.95       103

    accuracy                           0.94       171
   macro avg       0.94      0.94      0.94       171
weighted avg       0.94      0.94      0.94       171



**Respuesta 2.1 b):Los resultados no son mejores respecto a los resultados del árbol de decisión con sus hiperparámetros por defecto, Los mejores hiperparámetros fueron criterion "entropy" y max_depth 10. La principal ventaja de GridSearch es que automatiza las ensayos de prueba y error que permite seleccionar los mejores hiperparámetros. A partir de los resultados, se considera que se debe seguir explorando nuevos hiperparámetros debido a que los resultados empeoran.**

# Parte 3: Trabajar con clases desbalanceadas

Para mejorar el rendimiento de un clasificador sobre clases desbalanceadas existen varias técnicas. En esta parte, veremos cómo tratar con este problema usando (sub/over) sampling de las clases.

(*Nota: Para ejecutar el siguiente bloque es necesaria la librería `pandas` que viene incluida en Anaconda.*)

In [44]:
import pandas as pd

# Cargamos dataset desbalanceado
unbalanced_path = 'https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/unbalanced.csv'
data = pd.read_csv(unbalanced_path)  # abrimos el archivo csv y lo cargamos en data
data.head()

Unnamed: 0,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,...,V26,V27,V28,V29,V30,V31,V32,V33,V34,Class
0,0.99539,-0.05889,0.85243,0.02306,0.83398,-0.37708,1.0,0.0376,0.85243,-0.17755,...,-0.51171,0.41078,-0.46168,0.21266,-0.3409,0.42267,-0.54487,0.18641,-0.453,0
1,1.0,-0.18829,0.93035,-0.36156,-0.10868,-0.93597,1.0,-0.04549,0.50874,-0.67743,...,-0.26569,-0.20468,-0.18401,-0.1904,-0.11593,-0.16626,-0.06288,-0.13738,-0.02447,1
2,1.0,-0.03365,1.0,0.00485,1.0,-0.12062,0.88965,0.01198,0.73082,0.05346,...,-0.4022,0.58984,-0.22145,0.431,-0.17365,0.60436,-0.2418,0.56045,-0.38238,0
3,1.0,-0.45161,1.0,1.0,0.71216,-1.0,0.0,0.0,0.0,0.0,...,0.90695,0.51613,1.0,1.0,-0.20099,0.25682,1.0,-0.32382,1.0,1
4,1.0,-0.02401,0.9414,0.06531,0.92106,-0.23255,0.77152,-0.16399,0.52798,-0.20275,...,-0.65158,0.1329,-0.53206,0.02431,-0.62197,-0.05707,-0.59573,-0.04608,-0.65697,0


Note el desbalance de las clases ejecutando el siguiente código:

In [45]:
print("Distribucion de clases original")
data['Class'].value_counts()

Distribucion de clases original


0    225
1    126
Name: Class, dtype: int64

Antes de hacer algo para tratar el desbalance entre las clases primero debemos dividir en train-test.

In [46]:
data_train, data_test, ytrain, ytest = train_test_split(data, data['Class'], test_size=0.3, stratify=data['Class'])
# proporción de clases en el train después de dividir en train-test
ytrain.value_counts()

0    157
1     88
Name: Class, dtype: int64

Ahora, usando el dataset anterior, aplicaremos **oversampling** y **subsampling** al train para que queden balanceados. Ejecute el siguiente código y note ahora que las clases están balanceadas. 

In [47]:
import numpy as np

print("Distribución de clases usando (over/sub) sampling")
print()

data_train = data_train.reset_index(drop=True)

# oversampling sobre la clase 1
idx = np.random.choice(data_train[data_train['Class'] == 1].index, size=69)
data_oversampled = pd.concat([data_train, data_train.iloc[idx]])
print("Data oversampled on class '1'")
print(data_oversampled['Class'].value_counts())
print()


# subsampling sobre la clase 0
idx = np.random.choice(data_train.loc[data_train.Class == 0].index, size=69, replace=False)
data_subsampled = data_train.drop(data_train.iloc[idx].index)
print("Data subsampled on class '0'")
print(data_subsampled['Class'].value_counts())

Distribución de clases usando (over/sub) sampling

Data oversampled on class '1'
1    157
0    157
Name: Class, dtype: int64

Data subsampled on class '0'
1    88
0    88
Name: Class, dtype: int64


**Nota:** *Librerías como `imblearn` son muy útiles para balancear los datos.*

## Pregunta 3. 1

¿Por qué aplicar subsampling/oversampling de las clases sobre el conjunto de entrenamiento en lugar de aplicarlo sobre el dataset completo?

**Respuesta:  Se aplica sobre los datos de entrenamiento para que el clasificador no se desbalance hacia la clase mayoritaria, sin embargo no se aplica en los datos de prueba para no modificar la distribución real de los datos. Con este método el clasificador queda mejor entrenado y con esto se obtienen mejores métricas de desempeño.**

In [48]:
## ejecutar este código para preparar los datos
from sklearn.metrics import classification_report

# Preparando los data frames para ser compatibles con sklearn

# datos test (mismo para todos los conjuntos de entrenamiento)
X_test = data_test[data_train.columns[:-1]] # todo hasta la penultima columna
y_test = data_test[data_train.columns[-1]]  # la última columna

# datos entrenamiento "originales"
X_orig = data_train[data_train.columns[:-1]] 
y_orig = data_train[data_train.columns[-1]] 

# datos entrenamiento "oversampleados" 
X_over = data_oversampled[data_train.columns[:-1]]
y_over = data_oversampled[data_train.columns[-1]]

# datos entrenamiento "subsampleados"
X_subs = data_subsampled[data_train.columns[:-1]]
y_subs = data_subsampled[data_train.columns[-1]]


## Pregunta 3.2

Complete el código necesario para entrenar un clasificador (DecisionTreeClassifier) en cada uno de los tres casos (**original**, con **oversampling** y con **subsampling**) y luego compare los resultados sobre el conjunto de test (el mismo para los tres casos) obtenido con train_test_split sobre los datos originales. Muestre Precision, Recall y F1-score.

Emplee como datos de entrada lo del bloque anterior. 

In [49]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

## Pasos:
##  - instanciar el clasificador con DecisionTreeClassifier()
##  - entrenar con fit()
##  - hacer las predicciones
##  - mostrar precision, recall y f1-score con classification report.

print("ORIGINAL::::::::::")
clf_orig = DecisionTreeClassifier()
clf_orig.fit(X_orig, y_orig)
pred_orig = clf_orig.predict(X_test)
print(classification_report(y_test, pred_orig))

print("OVERSAMPLING::::::::::")
#COMPLETE ACÁ
clf_over = DecisionTreeClassifier()
clf_over.fit(X_over, y_over)
pred_over = clf_over.predict(X_test)
print(classification_report(y_test, pred_over))
print("SUBSAMPLING::::::::::")
#COMPLETE ACÁ
clf_subs = DecisionTreeClassifier()
clf_subs.fit(X_subs, y_subs)
pred_subs = clf_subs.predict(X_test)
print(classification_report(y_test, pred_subs))

ORIGINAL::::::::::
              precision    recall  f1-score   support

           0       0.91      0.87      0.89        68
           1       0.78      0.84      0.81        38

    accuracy                           0.86       106
   macro avg       0.84      0.85      0.85       106
weighted avg       0.86      0.86      0.86       106

OVERSAMPLING::::::::::
              precision    recall  f1-score   support

           0       0.89      0.87      0.88        68
           1       0.78      0.82      0.79        38

    accuracy                           0.85       106
   macro avg       0.83      0.84      0.84       106
weighted avg       0.85      0.85      0.85       106

SUBSAMPLING::::::::::
              precision    recall  f1-score   support

           0       0.92      0.88      0.90        68
           1       0.80      0.87      0.84        38

    accuracy                           0.88       106
   macro avg       0.86      0.88      0.87       106
weighted a

## Pregunta 3.3

- Observe los resultados obtenidos por clase con cada conjunto de entrenamiento, ¿se puede observar alguna diferencia importante? 

**Se nota un leve empeoramiento de métricas cuando se entrena con los datos con Over Sampling. Con los datos con Sub Sampling se obtienen practicamente los mismos resultados respecto de los datos originales. Probablmente cuando se hizo Over Sampling el modelo se sobreajustó, empeorando su capacidad predictiva.**
- Indique una desventaja de usar oversampling y una desventaja de usar subsampling en clasificación.

**Desventajas de Over Sampling:  Al crear copias de la data existente aumenta la probabilidad de Over Fitting, perdiendo capacidad de generalización.**

**Desventajas de Sub Sampling:  Al disminuir la data existente es más difícil encontrar una causalidad entre las variables y la clase, peridnedo capacidad de generalización.**