# Breast Cancer Categorical Dataset

In [8]:
import pandas as pd

In [9]:
filepath  = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv"
datafm = pd.read_csv(filepath
            ,header = None)

In [9]:
datav = datafm.values #extract the values in array

In [10]:
datafm

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,'40-49','premeno','15-19','0-2','yes','3','right','left_up','no','recurrence-events'
1,'50-59','ge40','15-19','0-2','no','1','right','central','no','no-recurrence-events'
2,'50-59','ge40','35-39','0-2','no','2','left','left_low','no','recurrence-events'
3,'40-49','premeno','35-39','0-2','yes','3','right','left_low','yes','no-recurrence-events'
4,'40-49','premeno','30-34','3-5','yes','2','left','right_up','no','recurrence-events'
...,...,...,...,...,...,...,...,...,...,...
281,'50-59','ge40','30-34','6-8','yes','2','left','left_low','no','no-recurrence-events'
282,'50-59','premeno','25-29','3-5','yes','2','left','left_low','yes','no-recurrence-events'
283,'30-39','premeno','30-34','6-8','yes','2','right','right_up','no','no-recurrence-events'
284,'50-59','premeno','15-19','0-2','no','2','right','left_low','no','no-recurrence-events'


In [51]:
# separamos entre las variables de entrada y salida del modelo
X = datav[:, :-1] # todas las variables excepto la columna 9 de la recurrencia
y = datav[:,-1] # la columan 9 sera la salida

In [52]:
# damos formato a los arreglos para que sean de tipo string
X = X.astype(str)


In [53]:
# reacomodamos el segundo arreglo para que sea separe cada entrada como un nuevo arreglo
y = y.reshape((len(y), 1))

Una vez que hemos cargado los datos vamos a usarlos para crear y evaluar el modelo. 
Usaremos la función ```traint_test_split``` con el 67% de los datos para entrenar y 33% para evaluar.

In [24]:
from sklearn.model_selection import train_test_split

In [54]:
# separamos entre datos para entrenar y datos para el test.
X_train, X_test, y_train, y_test = train_test_split(X, y,# los datos
                                                    test_size=0.33, #el prorcentaje a sividir
                                                    random_state=1 # randomizar los datos
                                                   )

In [55]:
# podemos ver como quedaron los datos
print('Train', X_train.shape, y_train.shape)
print('Test', X_test.shape, y_test.shape)

Train (191, 9) (191, 1)
Test (95, 9) (95, 1)


 Tenemos 191 ejemplos para entrenar y 95 para la prueba.

Ahora que tenemos los datos vamos a codificarlos en valores numericos. 

In [56]:
from sklearn.preprocessing import OrdinalEncoder

La siguiente función toma como entradas los datos de prueba y de entrenamiento y los transforma usando un codificador ordinario.

In [57]:
# preparamos los datos para poderlos usar en un modelo
def prepare_inputs(X_train, X_test):
    oe = OrdinalEncoder() # creo un codificador
    oe.fit(X_train) #ajusto el codificador a los datos de entrenamiento 
    X_train_enc = oe.transform(X_train) # codifico los datos, esto ya es una arreglo numerico
    X_test_enc = oe.transform(X_test) #codifico tambien los datos de prueba
    return X_train_enc, X_test_enc

También necesitamos preparar las variables de predicción. Como se trata en este caso de calsificar si el cancer es reincidente o no entonces es una clasificación binari. Mapearemos las dos opciones en valores de cero y uno. Como es una tarea de clasificación ordinaria el módulo de scikit-learn ya tiene implementada una función para codificarlos.

In [58]:
from sklearn import preprocessing

In [59]:
# prepare target
def prepare_targets(y_train, y_test):
    
    return y_train_enc, y_test_enc

Ahora podemos llamar a las funciones para preparar nuestros datos.

In [61]:
# preparamos
X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)


In [68]:
# prepare output data
y_train_enc, y_test_enc = prepare_targets(y_train, y_test)

### Modelo
Podemos ahora definir el modelo, en este caso usaremos una red neuronal MLP (MultiLayer Perceptron) con una capa escondida con 10 nodos y un solo nodo en la salida que hará las clasificaciones binarias.


In [72]:
from keras.models import Sequential
from keras.layers import Dense

In [75]:
# definimos el modelo
model = Sequential() # será un modelo sequencial
# agregamos una capa al modelo de red que sea una capa densa
model.add(Dense(10 #numero de nodos en la capa escondida
                , input_dim=X_train_enc.shape[1] #le decimos la dimensión de los datos de entrada
                , activation='relu' # definimos una función de activación rectificadora
                , kernel_initializer='he_normal')) #iniciamos el kernel con una distribución
# agregamos la capa final de salidaque también queremos que sea densa
model.add(Dense(1, # número de nodos en la capa
                activation='sigmoid')) #función de activación.


### Compilando el modelo 

In [76]:
# compilamos el modelo de keras
model.compile(loss='binary_crossentropy' # función de pérdida
              , optimizer='adam' #optimizador Adam(el mas común)
              , metrics=['accuracy']) #?

### Ajustando el modelo 

In [95]:

# ajustamos el modelo a los datos tratados
model.fit(X_train_enc #los datos codificados de entrenamiento
          , y_train_enc #los datos de respuesta codificados de entrenamiento
          , epochs=100 
          , batch_size=10 
          , verbose=2) 


Epoch 1/100
20/20 - 0s - loss: 0.4182 - accuracy: 0.8272
Epoch 2/100
20/20 - 0s - loss: 0.4233 - accuracy: 0.8063
Epoch 3/100
20/20 - 0s - loss: 0.4173 - accuracy: 0.8168
Epoch 4/100
20/20 - 0s - loss: 0.4190 - accuracy: 0.8115
Epoch 5/100
20/20 - 0s - loss: 0.4189 - accuracy: 0.8220
Epoch 6/100
20/20 - 0s - loss: 0.4196 - accuracy: 0.8115
Epoch 7/100
20/20 - 0s - loss: 0.4173 - accuracy: 0.8010
Epoch 8/100
20/20 - 0s - loss: 0.4165 - accuracy: 0.8168
Epoch 9/100
20/20 - 0s - loss: 0.4177 - accuracy: 0.8115
Epoch 10/100
20/20 - 0s - loss: 0.4171 - accuracy: 0.8115
Epoch 11/100
20/20 - 0s - loss: 0.4186 - accuracy: 0.8115
Epoch 12/100
20/20 - 0s - loss: 0.4161 - accuracy: 0.8115
Epoch 13/100
20/20 - 0s - loss: 0.4170 - accuracy: 0.8115
Epoch 14/100
20/20 - 0s - loss: 0.4150 - accuracy: 0.8168
Epoch 15/100
20/20 - 0s - loss: 0.4203 - accuracy: 0.8168
Epoch 16/100
20/20 - 0s - loss: 0.4183 - accuracy: 0.8063
Epoch 17/100
20/20 - 0s - loss: 0.4158 - accuracy: 0.8115
Epoch 18/100
20/20 - 0s

<tensorflow.python.keras.callbacks.History at 0x7f245021c2e0>

### Evaluando el modelo

In [96]:
# evaluamos el modelo
_, accuracy = model.evaluate(X_test_enc #los datos para la prueba
                             , y_test_enc # datos objetivo para la prueba 
                             , verbose=0)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 71.58


Note: Your results may vary given the stochastic nature of the algorithm or evaluation procedure, or differences in numerical precision. Consider running the example a few times and compare the average outcome.

In this case, we can see that the model achieved an accuracy of about 70% on the test dataset.

Not bad, given that an ordinal relationship only exists for some of the input variables, and for those where it does, it was not honored in the encoding.

# How to One Hot Encode Categorical Data

El codificador One Hot es usado para datos que no tienen relación entre sus categorías. 
El método trata de representar cada variable como un vector de ceos y unos, el cual tiene un uno en la categoría que represente la caracterítica. Así cada variable en los datos se va a reemplazar por un vector. 
La librería de scikit ya tiene un método para codificar los datos llamado OneHotEnconder.

In [1]:
# prepare input data

def prepare_inputs(X_train, X_test):
    ohe = OneHotEncoder() # creamos el codificador
    ohe.fit(X_train) # lo ajustamos a los datos de entrenamiento
    X_train_enc = ohe.transform(X_train) #transformamos los datos de entrenamiento
    X_test_enc = ohe.transform(X_test) # transformamos los datos de prueba
    return X_train_enc, X_test_enc # los regresamos para que podamos usarlos en el modelo.

In [2]:
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from keras.models import Sequential
from keras.layers import Dense

In [3]:
# example of one hot encoding for a neural network


# load the dataset
def load_dataset(filename):
    # load the dataset as a pandas DataFrame
    data = read_csv(filename, header=None)
    # retrieve numpy array
    dataset = data.values
    # split into input (X) and output (y) variables
    X = dataset[:, :-1]
    y = dataset[:,-1]
    # format all fields as string
    X = X.astype(str)
    # reshape target to be a 2d array
    y = y.reshape((len(y), 1))
    return X, y

In [4]:
# prepare input data
# despues de haber separado los datos lo que sigue es 
def prepare_inputs(X_train, X_test):
    ohe = OneHotEncoder() #creamos el codificador
    ohe.fit(X_train) #entrenamos el codififcador
    X_train_enc = ohe.transform(X_train) # transformamos los datos de entrenamiento
    X_test_enc = ohe.transform(X_test) #Transformamos los datos de prueba
    return X_train_enc, X_test_enc

In [5]:
# prepare target
# una vez que los datos estan codificados los vamos a codificar los datos de salida
def prepare_targets(y_train, y_test):
    le = LabelEncoder() #usamos ahora un label encoder que asigna a cada carcater un entero
    le.fit(y_train) #ajustamos los datos, veamos que en este caso no es necesario entrenar el codificador
    y_train_enc = le.transform(y_train) #transformamos los datos
    y_test_enc = le.transform(y_test)
    return y_train_enc, y_test_enc


In [11]:
# load the dataset
X, y = load_dataset('breast-cancer.csv')

In [12]:
# split into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

In [14]:
# prepare input data
#codificando los datos en entrada
X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)

In [15]:
# prepare output data
#codificando los datos de salida
y_train_enc, y_test_enc = prepare_targets(y_train, y_test)

  return f(*args, **kwargs)


In [16]:
# define the  model
model = Sequential() #modelo sequencial
# agregamos una capa densa
model.add(Dense(10 # nodos
                , input_dim=X_train_enc.shape[1] #de dimensión igual a la de los datos de entrenamiento de entrada
                , activation='relu' #usando una función activadora  rectificadora lineal
                , kernel_initializer='he_normal')) 
# agregamos una capa densa que será la de salida
model.add(Dense(1, #1 solo nodo
                activation='sigmoid'))

In [17]:
# compile the keras model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

In [20]:
# fit the keras model on the dataset
model.fit(X_train_enc, y_train_enc, epochs=130, batch_size=10, verbose=2)


Epoch 1/130
20/20 - 0s - loss: 0.3500 - accuracy: 0.8691
Epoch 2/130
20/20 - 0s - loss: 0.3477 - accuracy: 0.8691
Epoch 3/130
20/20 - 0s - loss: 0.3457 - accuracy: 0.8691
Epoch 4/130
20/20 - 0s - loss: 0.3446 - accuracy: 0.8639
Epoch 5/130
20/20 - 0s - loss: 0.3426 - accuracy: 0.8639
Epoch 6/130
20/20 - 0s - loss: 0.3403 - accuracy: 0.8796
Epoch 7/130
20/20 - 0s - loss: 0.3384 - accuracy: 0.8743
Epoch 8/130
20/20 - 0s - loss: 0.3371 - accuracy: 0.8743
Epoch 9/130
20/20 - 0s - loss: 0.3354 - accuracy: 0.8796
Epoch 10/130
20/20 - 0s - loss: 0.3337 - accuracy: 0.8743
Epoch 11/130
20/20 - 0s - loss: 0.3323 - accuracy: 0.8796
Epoch 12/130
20/20 - 0s - loss: 0.3324 - accuracy: 0.8691
Epoch 13/130
20/20 - 0s - loss: 0.3313 - accuracy: 0.8743
Epoch 14/130
20/20 - 0s - loss: 0.3266 - accuracy: 0.8796
Epoch 15/130
20/20 - 0s - loss: 0.3253 - accuracy: 0.8796
Epoch 16/130
20/20 - 0s - loss: 0.3232 - accuracy: 0.8743
Epoch 17/130
20/20 - 0s - loss: 0.3216 - accuracy: 0.8796
Epoch 18/130
20/20 - 0s

<tensorflow.python.keras.callbacks.History at 0x7fa54076e130>

In [21]:
# evaluate the keras model
_, accuracy = model.evaluate(X_test_enc, y_test_enc, verbose=0)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 70.53


https://machinelearningmastery.com/how-to-prepare-categorical-data-for-deep-learning-in-python/