## *Lesiones de la piel*


### [Aprendizaje profundo: Redes Neuronales Convolutivas con TensorFlow](https://www.kaggle.com/vbookshelf/skin-lesion-analyzer-tensorflow-js-web-app)

### Motivación

La dermatoscopia es una técnica de diagnóstico ampliamente utilizada que mejora el diagnóstico de lesiones cutáneas benignas y malignas en comparación con el examen a simple vista. Las imágenes dermatoscópicas también son una fuente adecuada para entrenar redes neuronales artificiales para diagnosticar automáticamente lesiones cutáneas pigmentadas. 

Los avances recientes en las capacidades de las tarjetas gráficas y las técnicas de aprendizaje en máquinas establecen nuevos puntos de referencia con respecto a la complejidad de las redes neuronales y aumentan las expectativas de que pronto estarán disponibles sistemas de diagnóstico automatizados que diagnostican todo tipo de lesiones cutáneas pigmentadas sin la necesidad de experiencia humana (https://arxiv.org/abs/1803.10417).

La capacitación de algoritmos de diagnóstico basados ​​en redes neuronales requiere un gran número de imágenes anotadas (o etiquetadas), pero el número de imágenes dermatoscópicas de alta calidad con diagnósticos confiables está limitado o restringido a solo unas pocas clases de enfermedades.


### El archivo ISIC (International Skin Imaging Collaboration)

El archivo ISIC (https://isic-archive.com/) es una colección de múltiples bases de datos e incluye actualmente 13786 imágenes dermatoscópicas (a partír del 12 de febrero de 2018). Es la fuente estándar para la investigación de análisis de imágenes dermatoscópicas. Sin embargo, está sesgada hacia las lesiones melanocíticas (12893 de 13786 imágenes son nevi ormelanomas). 

Para impulsar la investigación sobre el diagnóstico automatizado de imágenes dermatoscópicas, recientemente investigadores de la Univ. Médica de Vienna y la Universidad de Queensland lanzaron el conjunto de datos HAM10000 [“Human Against Machine con 10000 imágenes de entrenamiento”]. Han colgado el conjunto de datos a través del archivo ISIC.




*El artículo original se encuentra en la siguiente liga: <br>*
> [El conjunto de datos HAM10000: una gran colección de imágenes dermatoscópicas de múltiples fuentes de lesiones cutáneas pigmentadas comunes](https://arxiv.org/abs/1803.10417)<br>



**Introduction y Objetivo de la Lección **

Este libro detalla un proceso que construye el modelo y luego convertirlo de Keras a Tensorflow.js. El código javascript, html y css para la aplicación está disponible en github. <br>

Si un modelo tiene una precisión del 60%, por lo general se consideraría un modelo malo. Sin embargo, si también tiene una precisión del 3% superior al 90% y el objetivo requiere que produzca 3 predicciones, entonces puede ser un buen modelo.

*Este es el objetivo que se ha definido para esta tarea:*

> Crear una herramienta en línea que pueda decirle a los médicos y tecnólogos de laboratorio los tres diagnósticos de mayor probabilidad para una lesión cutánea determinada. Esto les ayudará a identificar rápidamente a los pacientes de alta prioridad y acelerar su flujo de trabajo. La aplicación debe producir un resultado en menos de 3 segundos. Para garantizar la privacidad, las imágenes se deben preprocesar y analizar localmente y nunca se deben cargar en un servidor externo.




### [ Descripción de las categorías del diagnóstico:](https://arxiv.org/abs/1803.10417) <br>

 **nv** <br>
 Los nevos melanocíticos son neoplasias benignas de melanocitos y aparecen en una gran variedad de variantes, que están incluidas en nuestra serie. Las variantes pueden diferir significativamente desde un punto de vista dermatoscópico. <br>
 *[6705 imágenes]*
 ***

 
 **mel** <br>
 El melanoma es una neoplasia maligna derivada de melanocitos que puede aparecer en diferentes variantes. Si se extirpa en una etapa temprana, se puede curar por escisión quirúrgica simple. Los melanomas pueden ser invasivos o no invasivos (in situ). Se incluyen todas las variantes de melanoma, incluido el melanoma in situ, pero se excluye el melanoma no pigmentado, subungueal, ocular o mucoso. <br> 
 *[1113 imágenes]*

### [ Descripción de las categorías del diagnóstico:](https://arxiv.org/abs/1803.10417) <br>
 
** bkl ** <br>
 La "queratosis benigna" es una clase genérica que incluye queratosis seborreica ("verruga senil"), lentigo solar, que puede considerarse una variante plana de la queratosis seborreica y liquenoplus como queratosis (LPLK), que corresponde a una seborréica Queratosis o un lentigo solar con inflamación y regresión [22]. Los tres subgrupos pueden tener un aspecto dermatoscópico diferente, pero los agrupamos porque son biológicamente similares y, a menudo, se informan bajo el mismo término genérico histopatológicamente. Desde un punto de vista dermatoscópico, las queratosis de tipo liquen plano son especialmente desafiantes porque pueden mostrar características morfológicas que simulan un melanoma [23] y con frecuencia se realizan biopsias o se extirpan por razones diagnósticas.
*[1099 imágenes]*
***
**bcc** <br>
El carcinoma de células basales es una variante común del cáncer de piel epitelial que rara vez hace metástasis pero crece destructivamente si no se trata. Aparece en diferentes variantes morfológicas (plana, nodular, pigmentada, quística, etc.), todas incluidas en este conjunto. <br>
*[514 imágenes] *
*** 


** akiec ** <br>
Las queratosis actínicas (queratosis solares) y el carcinoma intraepitelial (enfermedad de Bowen) son variantes no invasivas comunes del carcinoma de células escamosas que pueden tratarse localmente sin cirugía. Algunos autores los consideran como precursores de carcinomas de células escamosas y no como carcinomas reales. Sin embargo, hay acuerdo en que estas lesiones pueden progresar a un carcinoma de células escamosas invasivo, que generalmente no está pigmentado. Ambas neoplasias comúnmente muestran escamas en la superficie y comúnmente están desprovistas de pigmento. Las queratosis actínicas son más comunes en la cara y la enfermedad de Bowen es más común en otros sitios del cuerpo. Debido a que ambos tipos están inducidos por la luz ultravioleta, la piel circundante generalmente se caracteriza por daños severos causados ​​por el sol, excepto en los casos de enfermedad de Bowen que son causados por la infección del virus del papiloma humano y no por los rayos UV. Existen variantes pigmentadas para la enfermedad de Bowen [19] y para las queratosis actínicas [20]. Ambos están incluidos en este conjunto. <br>
*[327 imágenes]*
***


** vasc ** <br>
Las lesiones vasculares de la piel en el conjunto de datos van desde los angiomas de cereza hasta los angioqueratomas [25] y los granulomas piógenos [26]. La hemorragia también se incluye en esta categoría. <br>
*[142 imágenes]*

** df ** <br>
El dermatofibroma es una lesión benigna de la piel considerada como una proliferación benigna o una reacción inflamatoria a un trauma mínimo. Es marrón y con frecuencia muestra una zona central de fibrosis dermatoscópica [24]. <br>
*[115 imágenes]*


<br> * [Imágenes totales = 10015] *

### [TensorFlow](https://www.tensorflow.org/)

TensorFlow es una plataforma de código abierto  para el aprendizaje automático. Cuenta con un ecosistema integral y flexible de herramientas, bibliotecas y recursos de la comunidad que permite a los investigadores impulsar el estado de la técnica en ML y los desarrolladores pueden crear y desplegar fácilmente aplicaciones potenciadas por ML.

### [Keras](https://keras.io/)

Keras es una interfaz de programación de aplicaciones (API) de redes neuronales de alto nivel, escrita en Python y capaz de ejecutarse sobre TensorFlow, CNTK o Theano. Fue desarrollado con un enfoque en permitir la experimentación rápida. Poder pasar de la idea al resultado con el menor retraso posible es clave para hacer una buena investigación.


### Importamos todas las bibliotecas que utilizaremos

In [1]:
#Generamos las semillas aleatorias iniciales
from numpy.random import seed
seed(101)

#import tensorflow as tf

#tf.random.set_random_seed(101)
#tf.set_random_seed(1013)

# numpy para el manejo de arreglos

# numpy y pandas para el manejo de los datos
import pandas as pd
import numpy as np

In [2]:
# tensorflow para el aprendizaje automatico
#  Keras backend para las redes neuronales
import tensorflow

# Capas, Renormalizadores y Optimizadores.
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import Adam

#Metricas y Modelos 
from tensorflow.keras.metrics import categorical_crossentropy
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.models import Model
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau, ModelCheckpoint

import os

from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
import itertools
import shutil
import matplotlib.pyplot as plt
#%matplotlib inline

### Archivos de datos (de entrada)

In [26]:
dir

<function dir>

In [16]:
!python ../src/data/make_dataset.py --help

Usage: make_dataset.py [OPTIONS] INPUT_FILEPATH OUTPUT_FILEPATH

  Runs data processing scripts to turn raw data from (../raw) into cleaned
  data ready to be analyzed (saved in ../processed).

Options:
  --help  Show this message and exit.


In [8]:
input_dir ='../data/raw/skin-cancer-mnist-ham10000/'
os.listdir(input_dir)

['hmnist_28_28_RGB.csv',
 'HAM10000_images_part_1',
 'hmnist_28_28_L.csv',
 'HAM10000_images_part_2',
 'hmnist_8_8_L.csv',
 'all_images',
 'HAM10000_metadata.csv',
 'hmnist_8_8_RGB.csv']

### Crea la estructura de directorios.

En estas carpetas almacenaremos las imágenes que luego se enviarán a los generadores Keras.

In [24]:
!cd ..
!ls

exploratory-Copy1.ipynb  exploratory.ipynb


In [20]:
# funcion para crear directorios
def crea_dir(nombre):
    return print('El directorio ', nombre, 'ya existe') if os.path.isdir(nombre) else os.mkdir(nombre)

# Crea un nuevo directorio 
base_dir = '../data/interim/base_dir'
crea_dir(base_dir)

El directorio  ../data/interim/base_dir ya existe


In [27]:
#[CREAR CARPETAS DENTRO DEL DIRECTORIO BASE]

# train_dir
train_dir = os.path.join(base_dir, 'train_dir')
crea_dir(train_dir)

# val_dir
val_dir = os.path.join(base_dir, 'val_dir')
crea_dir(val_dir)


El directorio  ../data/base_dir/train_dir ya existe
El directorio  ../data/base_dir/val_dir ya existe


In [28]:
# Tanto  train_dir como val_dir tienen los siguientes 7 archivos:

    # nv, mel, bkl, bcc, akiec, vasc, df

subdirectorios = ['nv', 'mel', 'bkl', 'bcc', 'akiec', 'vasc', 'df']    

for directorio in subdirectorios:
    
    crea_dir(os.path.join(train_dir, directorio))    
    crea_dir(os.path.join(val_dir, directorio))   

El directorio  ../data/base_dir/train_dir/nv ya existe
El directorio  ../data/base_dir/val_dir/nv ya existe
El directorio  ../data/base_dir/train_dir/mel ya existe
El directorio  ../data/base_dir/val_dir/mel ya existe
El directorio  ../data/base_dir/train_dir/bkl ya existe
El directorio  ../data/base_dir/val_dir/bkl ya existe
El directorio  ../data/base_dir/train_dir/bcc ya existe
El directorio  ../data/base_dir/val_dir/bcc ya existe
El directorio  ../data/base_dir/train_dir/akiec ya existe
El directorio  ../data/base_dir/val_dir/akiec ya existe
El directorio  ../data/base_dir/train_dir/vasc ya existe
El directorio  ../data/base_dir/val_dir/vasc ya existe
El directorio  ../data/base_dir/train_dir/df ya existe
El directorio  ../data/base_dir/val_dir/df ya existe


#### Carga de conjunto de datos 

In [29]:
df_data = pd.read_csv(input_dir + 'HAM10000_metadata.csv')

NameError: name 'pd' is not defined

In [30]:
### image_id es un buen indice
##df_data[df_data['image_id'].value_counts().values>1]

In [31]:
# establezca el nuevo indice
df_data.set_index('image_id', inplace=True)
df_data.sample(3)

NameError: name 'df_data' is not defined

#### Crea un conjunto de valores estratificado

In [10]:
# esto nos dirá cuántas imágenes están asociadas con cada lesion_id
lesion_counts = df_data['lesion_id'].value_counts()

# identifique las lesion_id's que tienen imágenes duplicadas y
#las que tienen una sola imagen. Para ello, crea una nueva columna

def is_unique(image):
    return lesion_counts[image['lesion_id']] == 1

df_data['non_duplicate'] = df_data.apply(is_unique , axis = 1).values

df_data.sample(3)

Unnamed: 0_level_0,lesion_id,dx,dx_type,age,sex,localization,non_duplicate
image_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
ISIC_0027711,HAM_0005057,nv,histo,40.0,male,back,True
ISIC_0034029,HAM_0002208,nv,histo,20.0,female,lower extremity,False
ISIC_0029401,HAM_0001009,nv,consensus,35.0,male,foot,True


#### Crea conjunto de entrenamiento que excluya las imágenes que están en el conjunto de valores¶

In [11]:
df = df_data[df_data['non_duplicate']]

_, df_val = train_test_split(df, test_size=0.17,
                             random_state=101, stratify=df['dx'] )
df_val.shape

(938, 7)

#### Nueva columna que etiqueta si la imagen es de validación

In [None]:
#### def is_in_val(image):
    return image.name in df_val.index

df_data['is_val'] = df_data.apply(is_in_val, axis = 1).values

In [13]:
df_data.sample(3)

Unnamed: 0_level_0,lesion_id,dx,dx_type,age,sex,localization,non_duplicate,is_val
image_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
ISIC_0033340,HAM_0005887,nv,histo,60.0,male,lower extremity,False,False
ISIC_0033260,HAM_0004142,bkl,consensus,80.0,male,trunk,False,False
ISIC_0024537,HAM_0001729,mel,histo,85.0,male,upper extremity,False,False


#### A partir del conjunto de validacion elija el conjunto de entrenamiento

In [14]:
df_train = df_data[~(df_data['is_val'])]
df_val = df_data[(df_data['is_val'])]

print(df_train.shape,df_val.shape)

(9077, 8) (938, 8)


### Fusione los directorios de imagenes en uno

In [17]:
images_dir

'/home/enrique/Documents/dataScience/datasets/skin-lesion/skin-cancer-mnist-ham10000/all_images'

In [15]:
def get_files(dir_relative):
    directory = input_dir + dir_relative
    return list(map(lambda file: directory + file, os.listdir(directory)))

                
images = get_files('HAM10000_images_part_1/') + \
          get_files('HAM10000_images_part_2/') 

images_dir = input_dir+'all_images'
crea_dir(images_dir)    

for image in images:
    shutil.move(image, images_dir)    
    
len(os.listdir(images_dir))

El directorio  /home/enrique/Documents/dataScience/datasets/skin-lesion/skin-cancer-mnist-ham10000/all_images ya existe


10015

#### Mueva las imagenes a los subdirectorios de atributos que estan en los correspondientes directorios de entrenamiento y validación

##### for image_id in df_data.index:
    
    image = df_data.loc[image_id]
    directory =  val_dir if image['is_val'] else train_dir
    
    destino = os.path.join(directory, image['dx'], image_id + '.jpg')
    fuente = os.path.join(images_dir,  image_id + '.jpg')
    
    shutil.copyfile(destino, fuente)        

In [35]:
# verificamos cuantos archivos hay en cada folder 

for sub in os.listdir(train_dir):
    
    num_train = len(os.listdir(os.path.join(train_dir,sub)))
    num_val = len(os.listdir(os.path.join(val_dir,sub)))
    
    print( sub, '  train:', num_train, ' val:', num_val) 
          

akiec   train: 301  val: 26
nv   train: 5954  val: 751
mel   train: 1074  val: 39
vasc   train: 131  val: 11
df   train: 109  val: 6
bkl   train: 1024  val: 75
bcc   train: 484  val: 30


In [72]:

tmp_dir = '../data/tmp'

shutil.copytree(train_dir,tmp_dir)
print(len(os.listdir(tmp_dir)))

for subdir in os.listdir(tmp_dir):
    
    num_files = len(os.listdir(os.path.join(tmp_dir,subdir)))
    
    print( subdir, '  num_files:', num_files) 


7
akiec   num_files: 301
nv   num_files: 5954
mel   num_files: 1074
vasc   num_files: 131
df   num_files: 109
bkl   num_files: 1024
bcc   num_files: 484


### [Aumento del conjunto de datos de imagen con Keras ImageDataGenerator](https://medium.com/@arindambaidya168/https-medium-com-arindambaidya168-using-keras-imagedatagenerator-b94a87cdefad)
Las técnicas de aumento de imagen son métodos para aumentar artificialmente las variaciones de imágenes en nuestro conjunto de datos mediante el uso de giros horizontales / verticales, rotaciones, variaciones en el brillo de las imágenes, cambios horizontales / verticales, etc.

#### ImageDataGenerator
Genera lotes de datos de imágenes de tensor con aumento de datos en tiempo real. Los datos se pasarán en bucles (en lotes).

In [74]:
# generador de datos de imagen
datagen = ImageDataGenerator(
                    rotation_range=180,
                    width_shift_range=0.1,
                    height_shift_range=0.1,
                    zoom_range=0.1,
                    horizontal_flip=True,
                    vertical_flip=True,
                    #brightness_range=(0.9,1.1),
                    fill_mode='nearest')

In [77]:
lote = 50
aug_datagen = datagen.flow_from_directory(train_dir,
                                           save_to_dir,
                                           save_format='jpg',
                                           target_size=(224,224),
                                           batch_size=lote)

Found 9077 images belonging to 7 classes.


In [None]:
# End of Data Preparation
### ===================================================================================== ###
# Start of Model Building

### Set Up the Generators

In [None]:
train_path = 'base_dir/train_dir'
valid_path = 'base_dir/val_dir'

num_train_samples = len(df_train)
num_val_samples = len(df_val)
train_batch_size = 10
val_batch_size = 10
image_size = 224

train_steps = np.ceil(num_train_samples / train_batch_size)
val_steps = np.ceil(num_val_samples / val_batch_size)


In [None]:


# dimensions of our images.
img_width, img_height = 224, 224

train_data_dir = train_dir
validation_data_dir = val_dir

num_train_samples = len(df_train)
num_val_samples = len(df_val)

epochs = 50
batch_size = 16

if K.image_data_format() == 'channels_first':
    input_shape = (3, img_width, img_height)
else:
    input_shape = (img_width, img_height, 3)

model = Sequential()
model.add(Conv2D(32, (3, 3), input_shape=input_shape))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(32, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(64, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

# this is the augmentation configuration we will use for training
train_datagen = ImageDataGenerator(
    rescale=1. / 255,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True)

# this is the augmentation configuration we will use for testing:
# only rescaling
test_datagen = ImageDataGenerator(rescale=1. / 255)

train_generator = train_datagen.flow_from_directory(
    train_data_dir,
    target_size=(img_width, img_height),
    batch_size=batch_size,
    class_mode='binary')

validation_generator = test_datagen.flow_from_directory(
    validation_data_dir,
    target_size=(img_width, img_height),
    batch_size=batch_size,
    class_mode='binary')

model.fit_generator(
    train_generator,
    steps_per_epoch=nb_train_samples // batch_size,
    epochs=epochs,
    validation_data=validation_generator,
    validation_steps=nb_validation_samples // batch_size)

model.save_weights('first_try.h5')

In [None]:

datagen = ImageDataGenerator(
    preprocessing_function= \
    tensorflow.keras.applications.mobilenet.preprocess_input)

train_batches = datagen.flow_from_directory(train_path,
                                            target_size=(image_size,image_size),
                                            batch_size=train_batch_size)

valid_batches = datagen.flow_from_directory(valid_path,
                                            target_size=(image_size,image_size),
                                            batch_size=val_batch_size)

# Note: shuffle=False causes the test dataset to not be shuffled
test_batches = datagen.flow_from_directory(valid_path,
                                            target_size=(image_size,image_size),
                                            batch_size=1,
                                            shuffle=False)

### Modify MobileNet Model

In [4]:
# create a copy of a mobilenet model

mobile = tensorflow.keras.applications.mobilenet.MobileNet()

In [5]:
mobile.summary()

Model: "mobilenet_1.00_224"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 224, 224, 3)]     0         
_________________________________________________________________
conv1_pad (ZeroPadding2D)    (None, 225, 225, 3)       0         
_________________________________________________________________
conv1 (Conv2D)               (None, 112, 112, 32)      864       
_________________________________________________________________
conv1_bn (BatchNormalization (None, 112, 112, 32)      128       
_________________________________________________________________
conv1_relu (ReLU)            (None, 112, 112, 32)      0         
_________________________________________________________________
conv_dw_1 (DepthwiseConv2D)  (None, 112, 112, 32)      288       
_________________________________________________________________
conv_dw_1_bn (BatchNormaliza (None, 112, 112, 32

In [6]:
type(mobile.layers)

list

In [7]:
# Numero de capas de Mobile
len(mobile.layers)

93

In [11]:
# CREATE THE MODEL ARCHITECTURE

# Exclude the last 5 layers of the above model.
# This will include all layers up to and including global_average_pooling2d_1
x = mobile.layers[-6].output

# Create a new dense layer for predictions
# 7 corresponds to the number of classes
x = Dropout(0.25)(x)
predictions = Dense(7, activation='softmax')(x)

# inputs=mobile.input selects the input layer, outputs=predictions refers to the
# dense layer we created above.

model = Model(inputs=mobile.input, outputs=predictions)

In [None]:
model.summary()

In [12]:
# We need to choose how many layers we actually want to be trained.

# Here we are freezing the weights of all layers except the
# last 23 layers in the new model.
# The last 23 layers of the model will be trained.

for layer in model.layers[:-23]:
    layer.trainable = False

### Train the Model

In [13]:
# Define Top2 and Top3 Accuracy

from tensorflow.keras.metrics import categorical_accuracy, top_k_categorical_accuracy

def top_3_accuracy(y_true, y_pred):
    return top_k_categorical_accuracy(y_true, y_pred, k=3)

def top_2_accuracy(y_true, y_pred):
    return top_k_categorical_accuracy(y_true, y_pred, k=2)

In [None]:
model.compile(Adam(lr=0.01), loss='categorical_crossentropy', 
              metrics=[categorical_accuracy, top_2_accuracy, top_3_accuracy])



In [None]:
# Get the labels that are associated with each index
print(valid_batches.class_indices)

In [None]:
# Add weights to try to make the model more sensitive to melanoma

class_weights={
    0: 1.0, # akiec
    1: 1.0, # bcc
    2: 1.0, # bkl
    3: 1.0, # df
    4: 3.0, # mel # Try to make the model more sensitive to Melanoma.
    5: 1.0, # nv
    6: 1.0, # vasc
}

In [14]:

filepath = "../data/model.h5"
checkpoint = ModelCheckpoint(filepath, monitor='val_top_3_accuracy', verbose=1, 
                             save_best_only=True, mode='max')

reduce_lr = ReduceLROnPlateau(monitor='val_top_3_accuracy', factor=0.5, patience=2, 
                                   verbose=1, mode='max', min_lr=0.00001)
                              
                              
callbacks_list = [checkpoint, reduce_lr]

history = model.fit_generator(train_batches, steps_per_epoch=train_steps, 
                              class_weight=class_weights,
                    validation_data=valid_batches,
                    validation_steps=val_steps,
                    epochs=30, verbose=1,
                   callbacks=callbacks_list)


NameError: name 'train_batches' is not defined

### Evaluate the model using the val set

In [10]:
# get the metric names so we can use evaulate_generator
model.metrics_names

NameError: name 'model' is not defined

In [9]:
# Here the the last epoch will be used.

val_loss, val_cat_acc, val_top_2_acc, val_top_3_acc = \
model.evaluate_generator(test_batches, 
                        steps=len(df_val))

print('val_loss:', val_loss)
print('val_cat_acc:', val_cat_acc)
print('val_top_2_acc:', val_top_2_acc)
print('val_top_3_acc:', val_top_3_acc)

NameError: name 'model' is not defined

In [None]:
# Here the best epoch will be used.

model.load_weights('model.h5')

val_loss, val_cat_acc, val_top_2_acc, val_top_3_acc = \
model.evaluate_generator(test_batches, 
                        steps=len(df_val))

print('val_loss:', val_loss)
print('val_cat_acc:', val_cat_acc)
print('val_top_2_acc:', val_top_2_acc)
print('val_top_3_acc:', val_top_3_acc)

### Plot the Training Curves

In [None]:
# display the loss and accuracy curves

import matplotlib.pyplot as plt

acc = history.history['categorical_accuracy']
val_acc = history.history['val_categorical_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']
train_top2_acc = history.history['top_2_accuracy']
val_top2_acc = history.history['val_top_2_accuracy']
train_top3_acc = history.history['top_3_accuracy']
val_top3_acc = history.history['val_top_3_accuracy']
epochs = range(1, len(acc) + 1)

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.figure()

plt.plot(epochs, acc, 'bo', label='Training cat acc')
plt.plot(epochs, val_acc, 'b', label='Validation cat acc')
plt.title('Training and validation cat accuracy')
plt.legend()
plt.figure()


plt.plot(epochs, train_top2_acc, 'bo', label='Training top2 acc')
plt.plot(epochs, val_top2_acc, 'b', label='Validation top2 acc')
plt.title('Training and validation top2 accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, train_top3_acc, 'bo', label='Training top3 acc')
plt.plot(epochs, val_top3_acc, 'b', label='Validation top3 acc')
plt.title('Training and validation top3 accuracy')
plt.legend()


plt.show()

### Create a Confusion Matrix

In [None]:
# Get the labels of the test images.

test_labels = test_batches.classes

In [None]:
# We need these to plot the confusion matrix.
test_labels

In [None]:
# Print the label associated with each class
test_batches.class_indices

In [None]:
# make a prediction
predictions = model.predict_generator(test_batches, steps=len(df_val), verbose=1)

In [None]:
predictions.shape

In [None]:
# Source: Scikit Learn website
# http://scikit-learn.org/stable/auto_examples/
# model_selection/plot_confusion_matrix.html#sphx-glr-auto-examples-model-
# selection-plot-confusion-matrix-py


def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.ylabel('True label')
    plt.xlabel('Predicted label')
    plt.tight_layout()




In [None]:
test_labels.shape

In [None]:
# argmax returns the index of the max value in a row
cm = confusion_matrix(test_labels, predictions.argmax(axis=1))

In [None]:
test_batches.class_indices

In [None]:
# Define the labels of the class indices. These need to match the 
# order shown above.
cm_plot_labels = ['akiec', 'bcc', 'bkl', 'df', 'mel','nv', 'vasc']

plot_confusion_matrix(cm, cm_plot_labels, title='Confusion Matrix')

### Generate the Classification Report

In [None]:
# Get the index of the class with the highest probability score
y_pred = np.argmax(predictions, axis=1)

# Get the labels of the test images.
y_true = test_batches.classes

In [None]:
from sklearn.metrics import classification_report

# Generate a classification report
report = classification_report(y_true, y_pred, target_names=cm_plot_labels)

print(report)

**Recall** = Given a class, will the classifier be able to detect it?<br>
**Precision** = Given a class prediction from a classifier, how likely is it to be correct?<br>
**F1 Score** = The harmonic mean of the recall and precision. Essentially, it punishes extreme values.

In [None]:
# End of Model Building
### ===================================================================================== ###
# Convert the Model from Keras to Tensorflow.js

### Install Tensorflow.js

In [None]:
#!pip install tensorflowjs

### Convert the model from Keras to Tensorflowjs
The conversion code below no longer works in kaggle kernels. I've left it in for reference. 

In order to convert this model the workaround is as follows:<br>
1. Recreate the model using native Keras.<br>
2. Use the command line conversion process to convert the model from Keras to Tensorflowjs.<br>
Here's how to do that: https://www.youtube.com/watch?v=Kc2_x6pBYGE

The above steps can be done in a kaggle kernel quite easily. Tensorflowjs is still fairly new so these type of bugs are not unusual.

In [None]:
# create a directory to store the model files
#os.mkdir('tfjs_dir')

# convert to Tensorflow.js
#import tensorflowjs as tfjs

# Error
# AttributeError: module 'tensorflow.python.data.ops.dataset_ops' 
    # has no attribute 'UnaryDataset'

#tfjs.converters.save_keras_model(model, 'tfjs_dir')

In [None]:
# check the the directory containing the model is available
#!ls

In [None]:
# view the files that make up the tensorflow.js model
#os.listdir('tfjs_dir')

In [None]:
# Delete the image data directory we created to prevent a Kaggle error.
# Kaggle allows a max of 500 files to be saved.

shutil.rmtree('base_dir')

In [None]:
for atributo  in os.listdir(tmp_dir):
    
    atributo_dir = os.path.join(tmp_dir,atributo)
    lote = 50

    # establezca como fluye las nuevas imagenes
    aug_datagen = datagen.flow_from_directory(atributo_dir,
                                               save_to_dir=train_dir,
                                               save_format='jpg',
                                               target_size=(224,224),
                                               batch_size=lote)

     # Genere las imágenes aumentadas y agréguelas a las carpetas de capacitación.
    ######
    num_aug_img = 6000 # Número total de imágenes en cada clase.
    ######

    num_files = len(os.listdir(atributo_dir))
    num_batches = np.rint( (num_aug_img - num_files) / lote)

    # run the generator and create about 6000 augmented images
    for i in range(0,num_batches):

        imgs, labels = next(aug_datagen)

In [76]:

shutil.rmtree(tmp_dir)    


In [None]:
### Copia las imágenes de entrenamiento en aug_dir¶


# note that we are not augmenting class 'nv'
class_list = ['mel','bkl','bcc','akiec','vasc','df']

for item in class_list:
    
    # We are creating temporary directories here because we delete these directories later
    # create a base dir
    
    aug_dir = 'aug_dir'
    os.mkdir(aug_dir)
    # create a dir within the base dir to store images of the same class
    img_dir = os.path.join(aug_dir, 'img_dir')
    os.mkdir(img_dir)

    # Choose a class
    img_class = item

    # list all images in that directory
    img_list = os.listdir('base_dir/train_dir/' + img_class)

    # Copy images from the class train dir to the img_dir e.g. class 'mel'
    for fname in img_list:
            # source path to image
            src = os.path.join('base_dir/train_dir/' + img_class, fname)
            # destination path to image
            dst = os.path.join(img_dir, fname)
            # copy the image from the source to the destination
            shutil.copyfile(src, dst)


    # point to a dir containing the images and not to the images themselves
    path = aug_dir
    save_path = 'base_dir/train_dir/' + img_class

    # Create a data generator
    datagen = ImageDataGenerator(
        rotation_range=180,
        width_shift_range=0.1,
        height_shift_range=0.1,
        zoom_range=0.1,
        horizontal_flip=True,
        vertical_flip=True,
        #brightness_range=(0.9,1.1),
        fill_mode='nearest')

    batch_size = 50

    aug_datagen = datagen.flow_from_directory(path,
                                           save_to_dir=save_path,
                                           save_format='jpg',
                                                    target_size=(224,224),
                                                    batch_size=batch_size)



    # Generate the augmented images and add them to the training folders
    
    ###########
    
    num_aug_images_wanted = 6000 # total number of images we want to have in each class
    
    ###########
    
    num_files = len(os.listdir(img_dir))
    num_batches = int(np.ceil((num_aug_images_wanted-num_files)/batch_size))

    # run the generator and create about 6000 augmented images
    for i in range(0,num_batches):

        imgs, labels = next(aug_datagen)
        
    # delete temporary directory with the raw image files
    shutil.rmtree('aug_dir')

In [None]:
### Para establecer las imagenes creamos un 

In [None]:
batch_size = 50

aug_datagen = datagen.flow_from_directory(path,
                                           save_to_dir=save_path,
                                           save_format='jpg',
                                                    target_size=(224,224),
                                                    batch_size=batch_size)