# Selección y Evaluación del modelo.

El objetivo es aprender cómo usar una variedad de métodos de evaluación para evaluar modelos de ML supervidado.<br>
Debemos escoger el modelo adecuado.

## Representación/Entrenamiento/Evaluación/Ciclo de refinado.

<a href="https://imgur.com/wjqZLLp"><img src="https://i.imgur.com/wjqZLLp.png" title="source: imgur.com" /></a>

## Evaluación.

Diferentes aplicaciones pueden tener diferentes objetivos, luego es importante escoger un método de evaluación que logre el objetivo de la apliacación.<br>
Hay que probar el método sobre diferentes modelos y escoger el que mejor evaluación tenga.

In [1]:
%matplotlib notebook
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
import warnings
warnings.filterwarnings('ignore')

dataset=load_digits()
X,y=dataset.data,dataset.target

for class_name,class_count in zip(dataset.target_names,np.bincount(dataset.target)):
    print(class_name,class_count)

0 178
1 182
2 177
3 183
4 181
5 182
6 181
7 179
8 174
9 180


In [2]:
y_binary=y.copy()
y_binary[y_binary!=1]=0

print('Original labels: ',y[1:30])
print('Binary labels: ',y_binary[1:30])

Original labels:  [1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9]
Binary labels:  [1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0]


In [3]:
np.bincount(y_binary)

array([1615,  182], dtype=int64)

In [4]:
from sklearn.svm import SVC

X_train,X_test,y_train,y_test=train_test_split(X,y_binary,random_state=0)

svm=SVC(kernel='rbf',C=1).fit(X_train,y_train)
svm.score(X_test,y_test)

0.9088888888888889

## Precisión con clases imbalanceadas.

Tenemos dos clases:<br>
* Relevante(R).
* No relevante(N).

\begin{equation*}
    Precisión=\frac{Predicciones\,correctas}{Total\,instancias}.
\end{equation*}

## Clasificadores dummy.

Un clasificador dummy predice a ciegas la clase más frecuente. Es útil per no debe ser usado en problemas reales como solución.<br>
Como es odvio, nuestro clasificador $\textbf{debe ser mejor}$ que el dummy.<br>
Pueden usar otras estrategias de predicción como:<br>
* most_frequent.
* stratified: Predicciones aleatorias basadas en la distribución de clases del conjunto training.
* uniform: Genera una prediccion uniformemente al azar.
* constant: Siempre predice una etiqueta constante indicada por el usuario.

Como es lógico, también existe los regresores dummy, cuyas estrategias son:<br>
* mean.
* median.
* quantile: Percentil indicado por el usuario.
* constant.

## Resultados de la predicción binaria.

<a href="https://imgur.com/Uzyibly"><img src="https://i.imgur.com/Uzyibly.png" title="source: imgur.com" /></a>

Esto da lugar a una matriz de confusión:<br>
<a href="https://imgur.com/lO3W0Xi"><img src="https://i.imgur.com/lO3W0Xi.png" title="source: imgur.com" /></a>

In [5]:
from sklearn.metrics import confusion_matrix
from sklearn.dummy import DummyClassifier

dummy=DummyClassifier(strategy='most_frequent').fit(X_train,y_train)

y_pred=dummy.predict(X_test)
confusion=confusion_matrix(y_test,y_pred)
print('Usando most-frequent class dummy: \n',confusion)

Usando most-frequent class dummy: 
 [[407   0]
 [ 43   0]]


In [6]:
dummy_stratified=DummyClassifier(strategy='stratified').fit(X_train,y_train)

y_pred=dummy_stratified.predict(X_test)
confusion=confusion_matrix(y_test,y_pred)
print('Usando strategy dummy: \n',confusion)

Usando strategy dummy: 
 [[360  47]
 [ 41   2]]


In [7]:
svm=SVC(kernel='linear',C=1).fit(X_train,y_train)
print('Puntuacion: ',svm.score(X_test,y_test))
confusion=confusion_matrix(y_test,svm.predict(X_test))
print('Usando SVC lineal: \n',confusion)

Puntuacion:  0.9777777777777777
Usando SVC lineal: 
 [[402   5]
 [  5  38]]
