# Ejercicio: Clasificación

En este ejercicio, contrastarás regresión y clasificación.

In [None]:
import numpy as np
#%matplotlib widget
import matplotlib.pyplot as plt
from lab_utils_common import dlc, plot_data
from plt_one_addpt_onclick import plt_one_addpt_onclick
plt.style.use('./deeplearning.mplstyle')

## Problemas de Clasificación
Ejemplos de problemas de clasificación son cosas como: identificar un correo electrónico como Spam o No Spam o determinar si un tumor es maligno o benigno. En particular, estos son ejemplos de *clasificación binaria* donde hay dos posibles resultados. Los resultados pueden describirse en pares de 'positivo'/'negativo' como 'sí'/'no', 'verdadero'/'falso' o '1'/'0'. 

Los gráficos de conjuntos de datos de clasificación suelen usar símbolos para indicar el resultado de un ejemplo. En los gráficos a continuación, se utiliza 'X' para representar los valores positivos mientras que 'O' representa los resultados negativos. 

In [None]:
x_train = np.array([0., 1, 2, 3, 4, 5])
y_train = np.array([0,  0, 0, 1, 1, 1])
X_train2 = np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y_train2 = np.array([0, 0, 0, 1, 1, 1])

In [None]:
pos = y_train == 1
neg = y_train == 0

fig,ax = plt.subplots(1,2,figsize=(8,3))
#gráfico 1, una variable
ax[0].scatter(x_train[pos], y_train[pos], marker='x', s=80, c = 'red', label="y=1")
ax[0].scatter(x_train[neg], y_train[neg], marker='o', s=100, label="y=0", facecolors='none', 
              edgecolors=dlc["dlblue"],lw=3)

ax[0].set_ylim(-0.08,1.1)
ax[0].set_ylabel('y', fontsize=12)
ax[0].set_xlabel('x', fontsize=12)
ax[0].set_title('gráfico de una variable')
ax[0].legend()

#gráfico 2, dos variables
plot_data(X_train2, y_train2, ax[1])
ax[1].axis([0, 4, 0, 4])
ax[1].set_ylabel('$x_1$', fontsize=12)
ax[1].set_xlabel('$x_0$', fontsize=12)
ax[1].set_title('gráfico de dos variables')
ax[1].legend()
plt.tight_layout()
plt.show()


Observa en los gráficos anteriores:
- En el gráfico de una sola variable, los resultados positivos se muestran tanto como 'X' rojas como y=1. Los resultados negativos son 'O' azules y se ubican en y=0.
   - Recuerda que en el caso de la regresión lineal, y no se habría limitado a dos valores sino que podría haber sido cualquier valor.
- En el gráfico de dos variables, el eje y no está disponible. Los resultados positivos se muestran como 'X' rojas, mientras que los resultados negativos usan el símbolo 'O' azul.
    - Recuerda que en el caso de la regresión lineal con múltiples X características, y no se habría limitado a dos valores y un gráfico similar habría sido tridimensional.

## Enfoque de Regresión Lineal
En la semana anterior, aplicaste regresión lineal para construir un modelo de predicción. Probemos ese enfoque aquí usando el ejemplo simple que se describió en la clase. El modelo predecirá si un tumor es benigno o maligno según el tamaño del tumor.  Prueba lo siguiente:
- Haz clic en 'Ejecutar Regresión Lineal' para encontrar el mejor modelo de regresión lineal para los datos dados.
    - Observa que el modelo lineal resultante **no** coincide bien con los datos. 
Una opción para mejorar los resultados es aplicar un *umbral*. 
- Marca la casilla en 'Alternar umbral 0.5' para mostrar las predicciones si se aplica un umbral.
    - Estas predicciones se ven bien, las predicciones coinciden con los datos
- *Importante*: Ahora, agrega más puntos de datos 'malignos' en el extremo derecho, en el rango de tamaño de tumor grande (cerca de 10), y vuelve a ejecutar la regresión lineal.
    - Ahora, el modelo predice el tumor más grande, ¡pero el punto de datos en x=3 está siendo predicho incorrectamente!
- para limpiar/renovar el gráfico, vuelve a ejecutar la celda que contiene el comando de gráfico.

In [None]:
w_in = np.zeros((1))
b_in = 0
plt.close('all') 
addpt = plt_one_addpt_onclick( x_train,y_train, w_in, b_in, logistic=False)

El ejemplo anterior demuestra que el modelo lineal es insuficiente para modelar datos categóricos. El modelo puede extenderse como se describe en el siguiente ejercicio.

## ¡Felicitaciones!
En este ejercicio:
- exploraste conjuntos de datos categóricos y su graficación
- determinaste que la regresión lineal era insuficiente para un problema de clasificación.