In [2]:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Dropout

Un modelo de keras puede ser secuencial o functional. Que sea secuencial quiere decir que es un modelo relativamente básico sin muchos features.

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn import metrics

Acá se importa el dataset load_breast_cancer ya que la finalidad de este modelo es predecir si es un cáncer benigno o un cáncer maligno.

In [5]:
cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=.3, random_state=42)

In [6]:
model = Sequential()
model.add(Dense(15, input_dim=30, activation="relu"))
model.add(Dense(1, activation="sigmoid"))

En este punto se inicializa nuestro modelo **secuencial** sin ningún parámetro que no sea default.
Luego, añadimos un layer que va a contener 15 neuronas, y nosotros tenemos 30 atributos, es decir una neurona cada dos features.
El **Dense** layer significa que es *fully connected* layer. Entonces en este caso particular, cada neurona estará totalmente conectada a los 30 features de input.
Luego, tendremos un *output layer* de una sola neurona, que tendrá como función de activación a la función sigmoid, la cual tomará el valor y lo convertirá en un valor binario (1, 0)


In [8]:
model.compile(loss="binary_crossentropy", optimizer="rmsprop", metrics=["accuracy"])

Acá toca el segundo paso, la compilación. En este punto se pasan como parámteros la función de pérdida, el optimizador y la métrica que se evaluará.
**binary_crossentropy** es la función standard para problemas de clasificación binaria.
**rmsprop** es una actualización optimizada del algoritmo.
**accuracy** mide la exactitud entre los valores

In [10]:
model.fit(X_train, y_train, epochs=20, batch_size=50)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<tensorflow.python.keras.callbacks.History at 0x7f6fcc0274c0>

Acá se entrena al modelo y se pasan como parámetros: *Train features*, *Train outputs*, *epochs* y *batch_size*
**epochs** indica la cantidad de veces que se va a realizar el *foward propagation* y *backward propagation* en el modelo
**batch_size** dice de a cuantos datos ir pasando al modelo.
Acá como resultados, podemos ver que el algoritmo a medida que se ejecuta (los *epochs*), va aprendiendo. El accuracy sube y la pérdida se ve reducida.

In [14]:
predictions = model.predict_classes(X_test)
predictions

array([[0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [0],
    

Acá utilizamos *predict_classes* para determinar las clases respectivas a cada predicción con los datos de prueba.

In [15]:
print("Accuracy: ", metrics.accuracy_score(y_true=y_test, y_pred=predictions))
print(metrics.classification_report(y_true=y_test, y_pred=predictions))

Accuracy:  0.695906432748538
              precision    recall  f1-score   support

           0       0.56      0.81      0.66        63
           1       0.85      0.63      0.72       108

    accuracy                           0.70       171
   macro avg       0.71      0.72      0.69       171
weighted avg       0.74      0.70      0.70       171



Acá utilizamos el módulo de métricas de sklearn, donde el primero nos dice el accuracy comparando los resultados predichos por el modelo con los verdadeos.
Y classification_report nos da unas métricas más detalladas, donde podemos observar que la precision para los pacientes que tienen cáncer maligno es del 85%, y con una cantidad de estos de 108 pacientes. Esto no son buenas métricas.