# Estructura del laboratorio

Este laboratorio está conformado por preguntas teóricas de temas vistos en clases y preguntas prácticas (donde se requiere completar código) intercaladas con preguntas de interpretación de resultados y análisis. La parte práctica se divide en: 

1. Explorar los datos.
2. Entrenar un clasificador de 3 maneras:
    - Entrenando/Testeando con los mismos datos,
    - Dividiendo el dataset en una parte para entrenar y otra para testear, y
    - Usando cross-validation. 

# Teoría

#### 1. Describa los componentes principales de un clasificador.

**Respuesta:** 



#### 2. Un consultor en minería de datos tiene la siguiente estrategia al momento de enfrentar un problema de clasificación: probar todos los modelos posibles hasta encontrar uno que tenga cero error de entrenamiento. Comente la estrategia del consultor y proponga una estrategia alternativa para evaluar el desempeño de los modelos.

**Respuesta:**



#### 3. El mismo consultor siempre usa la misma métrica para evaluar un modelo: accuracy. Comente la estrategia del consultor y proponga una estrategia alternativa. Considere las distintas opciones sobre el balance de los datos.

**Respuesta:** 



# Parte 1: Explorar los datos

Usaremos el **Wine Dataset**, que viene en scikit-learn. Ejecutaremos la siguiente línea de código para importar la librería que nos permitirá cargarlo

In [None]:
from sklearn.datasets import load_wine

## Pregunta 1.1

Cargue los datos e indique lo siguiente:
* Tamaño del dataset (cantidad de instancias y atributos). 
* ¿Cuántas clases hay y cuáles son sus nombres?
* ¿Cuántas instancias hay en cada clase?

Indique en cada caso cómo obtuvo la respuesta, es decir, adjunte código.

### Respuesta a pregunta 1.1

## Pregunta 1.2

Explique:
- ¿Qué hacen las siguientes líneas de código?
- ¿Qué nos muestra este gráfico?
- ¿Cuáles son las principales observaciones que puede obtener sobre los datos a partir de los gráficos?

In [None]:
## EJECUTAR ESTE BLOQUE

from sklearn.datasets import load_wine
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

wine = load_wine()
data = pd.DataFrame(data=wine['data'], columns=wine['feature_names'])

plt.figure(figsize=(14, 10))
sns.heatmap(data.corr(), cmap='viridis', annot=True);

### Respuesta a pregunta 1.2




# Parte 2: Entrenar/testear clasificadores

En esta parte useremos el clasificador **Decision Tree**. Veremos distintas formas de usarlo, y vamos a compararlas utilizando diversas métricas. 

## CLASIFICADOR 1

## Pregunta 2.1

Usando el siguiente código, complete lo que falta para entrenar el clasificador con los datos cargados (X, y) y hacer una predicción sobre los mismos datos empleando dicho clasificador entrenado. Luego, muestre las métricas de **accuracy**, **precision**, **recall** y **f1-score**.

In [None]:
## Respuesta a pregunta 2.1

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

clf = DecisionTreeClassifier()

X = wine.data      ## datos, caracteristicas o features 
y = wine.target    ## clase para cada instancia anterior

# .... COMPLETE ACA




## Pregunta 2.2

De acuerdo a las métricas obtenidas: 

1. ¿Qué opina sobre las predicciones? 
2. ¿Qué problema puede identificar?

### Respuesta a pregunta 2.2




## CLASIFICADOR 2

Ahora lo que haremos será dividir nuestro dataset en 70% entrenar (***training set***) y 30% para testear (***testing set***). Use la función ***train_test_split()*** de *sklearn* y utilice las variables `X_train, X_test, y_train, y_test`.

## Pregunta 2.3

Escriba el código necesario para dividir los datos, entrenar el modelo e indicar el **accuracy**, **precision** y **recall** del clasificador. 
Entrene usando el ***training set*** y pruebe sobre el ***testing set***, en base a la división 70%-30%, respectivamente 

**NOTA: para dividir el dataset use el parámetro `stratify=y`.**

In [None]:
## Respuesta a pregunta 2.3
## Recuerde usar las variables X_train, X_test, y_train, y_test




## Pregunta 2.4

Según el resultado obtenido en la pregunta anterior, responda lo siguiente:

1. ¿Cuál clasificador tiene peores resultados? ¿Por qué?
2. ¿Cuál de las dos formas de entrenar el clasificador prefiere? Justifique su respuesta

### Respuesta a pregunta 2.4



## Pregunta 2.5

El siguiente código genera una matriz de confusión de los resultados de clasificación de la pregunta 2.4. Ejecute el bloque completo para visualizar el gráfico. Interprete la matriz y comente sobre cada uno de los valores distintos de 0 en la matriz y describa lo que representa. 

*Verifique que los resultados que se imprimen concuerden con su respuesta (por el factor aleatorio del estimador). Nota: Para obtener un comportamiento determinista existe el parámetro **random_state**, por ejemplo: clf = DecisionTreeClassifier(random_state=2).* 

In [None]:
## EJECUTAR ESTE BLOQUE

from sklearn.metrics import confusion_matrix
from sklearn.utils.multiclass import unique_labels

# Compute confusion matrix. By default is not normalized (normalize=None)
# If necessary change 'y_pred' according to your variable name
cm = confusion_matrix(y_test, y_pred) 

# Only use the labels that appear in the data
classes = wine.target_names[unique_labels(y_test, y_pred)]

df = pd.DataFrame(cm, index = classes, columns = classes)

g = sns.heatmap(df, annot=True, cmap="Blues")
g.set_yticklabels(g.get_yticklabels(), rotation = 0)

plt.title('Confusion matrix \n')
plt.xlabel('Predicted label')
plt.ylabel('True label')

plt.autoscale()

### Respuesta a pregunta 2.5


## CLASIFICADOR 3

Para este clasificador utilizaremos Cross-validation. Con cross-validation, el conjunto de entrenamiento se divide en $k$ conjuntos disjuntos; se entrena sobre los datos correspondientes a $k-1$ de éstos, y se evalúa sobre el conjunto restante. Esto se repite $k$ veces, evaluando siempre sobre un conjunto distinto. Teniendo en cuenta el parámetro $k$, a éste método se le llama $k$-fold cross-validation.

El código que está a continuación realizará 10-fold cross-validation usando Decision Tree sobre los datos. La forma de estimar el rendimiento del clasificador es, entre otras cosas, calculando el promedio de todos los k-folds.

Además se muestra la predición sobre los datos para testear. 

In [None]:
## EJECUTAR ESTE BLOQUE

from sklearn.model_selection import cross_validate
import numpy as np

scoring = ['precision_macro', 'recall_macro', 'accuracy', 'f1_macro']
cv_results = cross_validate(clf, X, y, cv = 10, scoring = scoring, return_train_score= True)

print('Promedio Precision:', np.mean(cv_results['test_precision_macro']))
print('Promedio Recall:', np.mean(cv_results['test_recall_macro']))
print('Promedio F1-score:', np.mean(cv_results['test_f1_macro']))
print('Promedio Accucary:', np.mean(cv_results['test_accuracy']))

#Si quisieramos mostrar el resultado de cada k-fold, deberiamos quitar la 
#funcion np.mean la cual retorna el promedio. Esto mostraría una lista con el resultado de cada fold

## Pregunta 3.1

- Compare los valores de las métricas con respecto a lo obtenido en la pregunta 2.4 y comente en qué difieren y por qué.

- ¿Qué beneficios tiene emplear cross-validation?

### Respuesta a pregunta 3.1


