# Ejemplo de introducción a la clasificación binaria

Se trabaja con el dataset "breast_cancer" de scikit-learn. En el enlace https://scikit-learn.org/stable/datasets/toy_dataset.html se pueden encontrar otros datasets "de juguete" para practicar.

Esta base de datos nos es útil por que tiene dos clases, definiendo así un problema de clasificación binaria. 

En la guía de usuario (https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-dataset) de la base de datos se brindan detalles adicionales sobre que característica representa cada dimensión de la matriz X.

Esta base de datos tiene 569 muestras, de las cuales 212 son de casos malignos y los 357 restantes son de casos benignos. 


In [14]:
# Importación de paquetes
from sklearn.datasets import load_breast_cancer
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics

In [15]:
# Asignamos a X e y los datos de entrada y las etiquetas
X, y = load_breast_cancer(return_X_y=True)

# Dividimos el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)


# Chequeos de dimensiones
print(f'Nombres de las clases: {load_breast_cancer().target_names}')
print(f'Dimension de la matriz X: {X.shape}')
print(f'Dimension del vector y: {y.shape}')

Nombres de las clases: ['malignant' 'benign']
Dimension de la matriz X: (569, 30)
Dimension del vector y: (569,)


Como se observa, se tienen 569 muestras. Además, cada muestra tiene 30 características. Se trata claramente de un problema de alta dimensionalidad.

In [19]:
# Determinación de "malignant" y "benign"
print(np.sum(y==0), np.sum(y==1))

212 357


Entonces, se puede ver que $y=0$ representa a los casos malignos. 
Por otra parte, $y=1$ representa a los casos benignos.

In [29]:
# Creamos el clasificador Naive Bayes
model = GaussianNB()

# Entrenamos el modelo con el conjunto de entrenamiento
model.fit(X_train, y_train)

# Realizamos predicciones en el conjunto de entrenamiento
y_pred_train = model.predict(X_train)

# Realizamos predicciones en el conjunto de prueba
y_pred_test = model.predict(X_test)

# Se imprimen los valores predichos en el conjunto de entrenamiento a modo de ejemplo
print(f'Primera muestra de datos de entrenamiento: \n{X_test[0]}\n')
print(f'Primera predicción de datos de entrenamiento: \n{y_pred_train[0]}\n')

Primera muestra de datos de entrenamiento: 
[1.340e+01 2.052e+01 8.864e+01 5.567e+02 1.106e-01 1.469e-01 1.445e-01
 8.172e-02 2.116e-01 7.325e-02 3.906e-01 9.306e-01 3.093e+00 3.367e+01
 5.414e-03 2.265e-02 3.452e-02 1.334e-02 1.705e-02 4.005e-03 1.641e+01
 2.966e+01 1.133e+02 8.444e+02 1.574e-01 3.856e-01 5.106e-01 2.051e-01
 3.585e-01 1.109e-01]

Primera predicción de datos de entrenamiento: 
1



El vector de dimensión 30 representa una muestra de entrada. El número 1 es el valor asignado por el modelo entrenado para esa muestra. En este caso, el modelo clasificó al caso como benigno ($y=1$).

In [28]:
print(f'Todas las predicciones de los datos de entrenamiento: \n{y_pred_train}')

Todas las predicciones de los datos de entrenamiento: 
[1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 0 0 1 1 0 0 1 1 0 1 1 0 0 0 1 1 1
 0 1 1 1 1 1 0 1 0 1 0 1 0 1 1 1 1 1 1 0 1 0 1 1 1 0 1 1 1 0 1 1 0 0 1 0 1
 0 1 0 0 0 0 1 1 1 0 1 0 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1
 1 1 1 1 0 1 0 1 1 0 1 0 0 1 0 0 1 1 0 1 1 1 0 1 1 1 1 0 0 0 1 1 1 1 0 0 1
 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 0 0 1 1 1 0 1 0 0 1 1 1 0 1 0 1 1 0 1 1 0
 0 1 1 1 0 0 1 1 0 1 1 1 0 1 0 1 0 0 0 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1
 0 0 0 0 1 1 0 1 1 0 0 0 1 1 1 1 1 0 0 0 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 0 1 0 1 0 1 1 0 1 1 1 0 0 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 0 0 1 1
 1 0 1 1 1 1 0 1 0 0 0 1 0 1 0 1 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1
 1 0 1 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 1 1 1
 1 0 1 1 0 1 1 1 0 1 1 1 1 0 1 1 0 1 1 1 1 1 0 0 0 1 1 1]


Cómo se observa, cada 1 o 0 representa la estimación de una muestra por el modelo. 

Se calcula la $accuracy$, la cual se obtiene con la siguiente expresión:

$accuracy = \frac{\# \: de \: datos \: bien \: clasificados}{\# \: total \: de \: datos \: evaluados}$

In [18]:
# Calculamos la precisión del modelo
accuracy_train = metrics.accuracy_score(y_train, y_pred_train)
accuracy_test = metrics.accuracy_score(y_test, y_pred_test)

# Se imprimen resultados
print(f"Precisión del modelo en datos de entrenamiento: {accuracy_train:.2f}")
print(f"Precisión del modelo en datos de testeo: {accuracy_test:.2f}")

Precisión del modelo en datos de entrenamiento: 0.94
Precisión del modelo en datos de testeo: 0.92


En otros capítulos veremos más detalles sobre la $accuracy$ y presentaremos otras métricas.