# Predicción de cáncer de mama

In [1]:
import numpy
import pandas
import random
import math
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB

Se puede hacer una "limpieza" de los datos, antes de procesarlos. Esto es porque la primera columna no es importante para las predicciones, ya que solo representa un ID de una muestra.

In [2]:
datacsv = pandas.read_csv('breast-cancer-wisconsin.csv')
datanp = datacsv.to_numpy()
#No todos los datos se conviertieron a números, así que lo haré a mano.
for i in range(datanp.shape[0]):
    for j in range(datanp.shape[1]):
        if datanp[i][j] == '?':
            datanp[i][j] = -1
        else:
            datanp[i][j] = int(datanp[i][j])
#Se borra la primera columna
datanp = numpy.array(list(map(lambda x : x[1:len(x)], datanp)))

Se parte el conjunto de datos en 3: el de entrenamiento, el de validación y el de prueba.

In [3]:
# Parte al conjunto de datos en 3, de forma aleatoria.
# Cada parámetro (entrenamiento, validación y prueba) es una fracción del tamaño del
# subconjunto de datos entre el tamaño del conjunto total.
def particion(datos, entrenamiento, validacion, prueba):
    n = datos.shape[0]
    indices_total = [i for i in range(n)]
    indices_ent = []
    random.seed(0) #Se usa 0 como semilla
    while (len(indices_ent)/n) < entrenamiento:
        indice_rand = random.randint(0, len(indices_total)-1)
        indices_ent.append(indices_total[indice_rand])
        del indices_total[indice_rand]
    indices_val = []
    while (len(indices_val)/n) < validacion:
        indice_rand = random.randint(0, len(indices_total)-1)
        indices_val.append(indices_total[indice_rand])
        del indices_total[indice_rand]
    #En este punto, indices_total tendrá los índices para validación
    datos_ent = []
    datos_val = []
    datos_pru = []
    for i in indices_ent:
        datos_ent.append(datos[i])
    for i in indices_val:
        datos_val.append(datos[i])
    for i in indices_total:
        datos_pru.append(datos[i])
    return (numpy.array(datos_ent), numpy.array(datos_val), numpy.array(datos_pru))

Para rellenar los espacios donde hay atributos no especificados (donde aparece ?), se usará el promedio del resto. En este caso, yo cambié el '?' por -1 para que todos los datos fueran numéricos.

In [4]:
def modifica_columna(matriz, columna):
    suma = 0
    filas_m1 = []
    for i in range(matriz.shape[0]):
        if matriz[i][columna] != -1:
            suma += matriz[i][columna]
        else:
            filas_m1.append(i)
    promedio = suma/matriz.shape[0]
    promedio = math.floor(promedio)
    for fila in filas_m1:
        matriz[fila][columna] = promedio

# ya sabemos que la columna que contiene -1 es la 5.
modifica_columna(datanp, 5)
# Ahora sí, se parte al conjunto en 3
data_ent, data_val, data_pru = particion(datanp, 0.6, 0.2, 0.2)

## Clasificador con distribución gausiana

El primer modelo a entrenar será el que tenga distribución gausiana y para esto se usarán las bibliotecas de scikit-learn.

In [5]:
# Transforma un arreglo (unidimensional o bidimensional) a una lista
def numpy_a_list(arreglo):
    dimens = len(arreglo.shape)
    if dimens == 1:
        lista = []
        for i in range(arreglo.shape[0]):
            lista.append(arreglo[i])
        return lista
    else:
        matriz = []
        for i in range(arreglo.shape[0]):
            vector = []
            for j in range(arreglo.shape[1]):
                vector.append(arreglo[i][j])
            matriz.append(vector)
        return matriz

In [6]:
# Devuelve la razón de los aciertos entre los totales.
def frac_aciertos(prediccion, real):
    aciertos = 0
    for i in range(len(prediccion)):
        if prediccion[i] == real[i]:
            aciertos += 1
    return (aciertos/len(prediccion))

In [7]:
gnb = GaussianNB()
# Primero con los datos de entrenamiento
X_ent = data_ent[:, :-1]
y_ent = data_ent[:, -1]
X_ent_list = numpy_a_list(X_ent)
y_ent_list = numpy_a_list(y_ent)
gnb.fit(X_ent_list, y_ent_list)
ypge = gnb.predict(X_ent)
fae_gaus = frac_aciertos(ypge, y_ent_list)
# Luego con los datos de validación
X_val = data_val[:, : -1]
y_val = data_val[:, -1]
ypgv = gnb.predict(X_val)
fav_gaus = frac_aciertos(ypgv, y_val)
print("Exactitud con datos de entrenamiento:", str(fae_gaus*100)+'%')
print("Exactitud con datos de validación:", str(fav_gaus*100)+'%')

Exactitud con datos de entrenamiento: 95.71428571428572%
Exactitud con datos de validación: 96.42857142857143%


## Clasificador con distribución multinomial

Ahora se harán las predicciones con distribución multinomial.

In [8]:
# Predicción con los datos de entrenamiento
multinb = MultinomialNB()
multinb.fit(X_ent_list, y_ent_list)
ypme = multinb.predict(X_ent)
fae_mult = frac_aciertos(ypme, y_ent)
# Predicción con los datos de validación
ypmv = multinb.predict(X_val)
fav_mult = frac_aciertos(ypmv, y_val)
print("Exactitud con datos de entrenamiento:", str(fae_mult*100)+'%')
print("Exactitud con datos de validación:", str(fav_mult*100)+'%')

Exactitud con datos de entrenamiento: 88.57142857142857%
Exactitud con datos de validación: 90.0%


Con esto se observa que la distribución gausiana tiene mayor exactitud. Ahora se comprobará su efectividad en el conjunto de datos de prueba.

In [9]:
X_pru = data_pru[:, :-1]
y_pru = data_pru[:, -1]
ypgp = gnb.predict(X_pru)
fap_gaus = frac_aciertos(ypgp, y_pru)
print("Exactitud en los datos de prueba:",str(fap_gaus*100)+'%')

Exactitud en los datos de prueba: 96.40287769784173%
