# CLASIFICACIÓN CON MÁQUINAS DE VECTORES DE SOPORTE - CÁNCER DE PECHO

En este laboratorio vamos a explorar el método de los vectores de soporte de clasificación. Para este objetivo vamos a emplear la base de datos de células potencialmente malignas que hemos utilizado en los laboratorios anteriores. 

In [1]:
# Importamos los paquetes que vayamos a usar

# Manejo de datos
import pandas as pd
import numpy as np

# Gráficos
import matplotlib as plt
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocesado de datos y modelado
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC


In [2]:
# Cargamos la base de datos:

df = pd.read_csv('breast_cancer.csv')
df.head()

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,


In [3]:
# Generamos las variables con las que vamos a trabajar: 
X = df.iloc[:, 2:-1]
y = df['diagnosis']

# Separamos los datos en subgrupos de entrenamiento y testeo
x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0)
# Random_state nos creara una semilla aleatoria para tener el mismo resultado cada vez que corramos el codigo


In [4]:
# Definimos el algoritmoo con el que vamos a trabajar: 

algoritmo = SVC()

In [5]:
# Entrenamos el modelo:

algoritmo.fit(x_train, y_train)

SVC()

In [6]:
# Predecimos con el modelo entrenado:

predichos = algoritmo.predict(x_test)
predichos

array(['B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'M', 'B', 'M', 'B', 'M', 'M', 'M', 'M', 'M', 'B', 'B', 'M', 'B',
       'B', 'B', 'B', 'M', 'B', 'M', 'B', 'M', 'B', 'B', 'B', 'M', 'B',
       'M', 'B', 'B', 'M', 'B', 'B', 'M', 'B', 'B', 'B', 'M', 'M', 'B',
       'M', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'B', 'M', 'B', 'B', 'M',
       'B', 'M', 'M', 'M', 'B', 'B', 'M', 'B', 'B', 'M', 'B', 'B', 'B',
       'B', 'B', 'M', 'M', 'M', 'B', 'M', 'B', 'B', 'B', 'M', 'M', 'B',
       'M', 'B', 'B', 'B', 'B', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'M', 'B', 'M', 'B', 'M', 'M', 'B', 'M', 'M', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'B', 'B', 'B', 'B', 'B',
       'M', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'M', 'B', 'B', 'B', 'M',
       'B', 'B', 'M', 'B', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'M', 'M', 'B', 'B', 'M', 'B', 'M', 'B', 'M', 'B',
       'B', 'B'], dtype=object)

In [7]:
# Evaluamos como de bueno es el modelo

# Matriz confunsión:
pd.crosstab(y_test, predichos)


col_0,B,M
diagnosis,Unnamed: 1_level_1,Unnamed: 2_level_1
B,107,1
M,12,51


In [8]:
# Creamos un diccionario vacio para nuestros resultados
Evaluaciones = {}

prediccion = np.array(predichos)

# EXACTITUD
# Calculamos la exactitud del modelo
from sklearn.metrics import accuracy_score
exactitud =accuracy_score(y_test, prediccion)

# Lo incorporamos a nuestro diccionario
Evaluaciones["exactitud"] = exactitud

# PRECISIÓN
#Calculamos la Precisión del modelo
from sklearn.metrics import precision_score
precision =precision_score(y_test, prediccion, pos_label='M')

# Lo incorporamos a nuestro diccionario
Evaluaciones["precision"] = precision

# SENSIBILIDAD
# Calculamos la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad =recall_score(y_test, predichos, pos_label='M')

# Lo incorporamos a nuestro diccionario
Evaluaciones["sensibilidad"] = exactitud


# EXACTITUD
# Calculamos la exactitud del modelo
from sklearn.metrics import f1_score
F1 =f1_score(y_test, predichos, pos_label='M')

# Lo incorporamos a nuestro diccionario
Evaluaciones["F1"] = F1

In [9]:
Evaluaciones

{'exactitud': 0.9239766081871345,
 'precision': 0.9807692307692307,
 'sensibilidad': 0.9239766081871345,
 'F1': 0.8869565217391304}

Como deciamos en los laboratorios anteriores, la mejor métrica para evaluar este analisis puede que sea la sensibilidad. Ya que nos da constancia de los positivos identificados correctamente entre los positivos reales. Es decir, la cantidad células malignas que identificamos correctamente como malignas. En este caso, la sensibilidad es del 92,4%, lo que significaría que dariamos por benigna aproximadamente 1 de cada 10 celulas malignas. Teniendo en cuenta el contexto, considero que no sería un modelo deseable. De hecho, el modelo logaritmo sigue dando el mejor resultado con una sensibilidad del 98%.