## *Lesiones de la piel*


### [Aprendizaje profundo: Redes Neuronales Convolutivas con TensorFlow](https://www.kaggle.com/vbookshelf/skin-lesion-analyzer-tensorflow-js-web-app)

### Motivación

La dermatoscopia es una técnica de diagnóstico ampliamente utilizada que mejora el diagnóstico de lesiones cutáneas benignas y malignas en comparación con el examen a simple vista. Las imágenes dermatoscópicas también son una fuente adecuada para entrenar redes neuronales artificiales para diagnosticar automáticamente lesiones cutáneas pigmentadas. 

Los avances recientes en las capacidades de las tarjetas gráficas y las técnicas de aprendizaje en máquinas establecen nuevos puntos de referencia con respecto a la complejidad de las redes neuronales y aumentan las expectativas de que pronto estarán disponibles sistemas de diagnóstico automatizados que diagnostican todo tipo de lesiones cutáneas pigmentadas sin la necesidad de experiencia humana (https://arxiv.org/abs/1803.10417).

La capacitación de algoritmos de diagnóstico basados ​​en redes neuronales requiere un gran número de imágenes anotadas (o etiquetadas), pero el número de imágenes dermatoscópicas de alta calidad con diagnósticos confiables está limitado o restringido a solo unas pocas clases de enfermedades.


### El archivo ISIC (International Skin Imaging Collaboration)

El archivo ISIC (https://isic-archive.com/) es una colección de múltiples bases de datos e incluye actualmente 13786 imágenes dermatoscópicas (a partír del 12 de febrero de 2018). Es la fuente estándar para la investigación de análisis de imágenes dermatoscópicas. Sin embargo, está sesgada hacia las lesiones melanocíticas (12893 de 13786 imágenes son nevi ormelanomas). 

Para impulsar la investigación sobre el diagnóstico automatizado de imágenes dermatoscópicas, recientemente investigadores de la Univ. Médica de Vienna y la Universidad de Queensland lanzaron el conjunto de datos HAM10000 [“Human Against Machine con 10000 imágenes de entrenamiento”]. Han colgado el conjunto de datos a través del archivo ISIC.




*El artículo original se encuentra en la siguiente liga: <br>*
> [El conjunto de datos HAM10000: una gran colección de imágenes dermatoscópicas de múltiples fuentes de lesiones cutáneas pigmentadas comunes](https://arxiv.org/abs/1803.10417)<br>



**Introduction y Objetivo de la Lección **

Este libro detalla un proceso que construye el modelo y luego convertirlo de Keras a Tensorflow.js. El código javascript, html y css para la aplicación está disponible en github. <br>

Si un modelo tiene una precisión del 60%, por lo general se consideraría un modelo malo. Sin embargo, si también tiene una precisión del 3% superior al 90% y el objetivo requiere que produzca 3 predicciones, entonces puede ser un buen modelo.

*Este es el objetivo que se ha definido para esta tarea:*

> Crear una herramienta en línea que pueda decirle a los médicos y tecnólogos de laboratorio los tres diagnósticos de mayor probabilidad para una lesión cutánea determinada. Esto les ayudará a identificar rápidamente a los pacientes de alta prioridad y acelerar su flujo de trabajo. La aplicación debe producir un resultado en menos de 3 segundos. Para garantizar la privacidad, las imágenes se deben preprocesar y analizar localmente y nunca se deben cargar en un servidor externo.




### [ Descripción de las categorías del diagnóstico:](https://arxiv.org/abs/1803.10417) <br>

 **nv** <br>
 Los nevos melanocíticos son neoplasias benignas de melanocitos y aparecen en una gran variedad de variantes, que están incluidas en nuestra serie. Las variantes pueden diferir significativamente desde un punto de vista dermatoscópico. <br>
 *[6705 imágenes]*
 ***

 
 **mel** <br>
 El melanoma es una neoplasia maligna derivada de melanocitos que puede aparecer en diferentes variantes. Si se extirpa en una etapa temprana, se puede curar por escisión quirúrgica simple. Los melanomas pueden ser invasivos o no invasivos (in situ). Se incluyen todas las variantes de melanoma, incluido el melanoma in situ, pero se excluye el melanoma no pigmentado, subungueal, ocular o mucoso. <br> 
 *[1113 imágenes]*

### [ Descripción de las categorías del diagnóstico:](https://arxiv.org/abs/1803.10417) <br>
 
** bkl ** <br>
 La "queratosis benigna" es una clase genérica que incluye queratosis seborreica ("verruga senil"), lentigo solar, que puede considerarse una variante plana de la queratosis seborreica y liquenoplus como queratosis (LPLK), que corresponde a una seborréica Queratosis o un lentigo solar con inflamación y regresión [22]. Los tres subgrupos pueden tener un aspecto dermatoscópico diferente, pero los agrupamos porque son biológicamente similares y, a menudo, se informan bajo el mismo término genérico histopatológicamente. Desde un punto de vista dermatoscópico, las queratosis de tipo liquen plano son especialmente desafiantes porque pueden mostrar características morfológicas que simulan un melanoma [23] y con frecuencia se realizan biopsias o se extirpan por razones diagnósticas.
*[1099 imágenes]*
***
**bcc** <br>
El carcinoma de células basales es una variante común del cáncer de piel epitelial que rara vez hace metástasis pero crece destructivamente si no se trata. Aparece en diferentes variantes morfológicas (plana, nodular, pigmentada, quística, etc.), todas incluidas en este conjunto. <br>
*[514 imágenes] *
*** 


** akiec ** <br>
Las queratosis actínicas (queratosis solares) y el carcinoma intraepitelial (enfermedad de Bowen) son variantes no invasivas comunes del carcinoma de células escamosas que pueden tratarse localmente sin cirugía. Algunos autores los consideran como precursores de carcinomas de células escamosas y no como carcinomas reales. Sin embargo, hay acuerdo en que estas lesiones pueden progresar a un carcinoma de células escamosas invasivo, que generalmente no está pigmentado. Ambas neoplasias comúnmente muestran escamas en la superficie y comúnmente están desprovistas de pigmento. Las queratosis actínicas son más comunes en la cara y la enfermedad de Bowen es más común en otros sitios del cuerpo. Debido a que ambos tipos están inducidos por la luz ultravioleta, la piel circundante generalmente se caracteriza por daños severos causados ​​por el sol, excepto en los casos de enfermedad de Bowen que son causados por la infección del virus del papiloma humano y no por los rayos UV. Existen variantes pigmentadas para la enfermedad de Bowen [19] y para las queratosis actínicas [20]. Ambos están incluidos en este conjunto. <br>
*[327 imágenes]*
***


** vasc ** <br>
Las lesiones vasculares de la piel en el conjunto de datos van desde los angiomas de cereza hasta los angioqueratomas [25] y los granulomas piógenos [26]. La hemorragia también se incluye en esta categoría. <br>
*[142 imágenes]*

** df ** <br>
El dermatofibroma es una lesión benigna de la piel considerada como una proliferación benigna o una reacción inflamatoria a un trauma mínimo. Es marrón y con frecuencia muestra una zona central de fibrosis dermatoscópica [24]. <br>
*[115 imágenes]*


<br> * [Imágenes totales = 10015] *

### [TensorFlow](https://www.tensorflow.org/)

TensorFlow es una plataforma de código abierto  para el aprendizaje automático. Cuenta con un ecosistema integral y flexible de herramientas, bibliotecas y recursos de la comunidad que permite a los investigadores impulsar el estado de la técnica en ML y los desarrolladores pueden crear y desplegar fácilmente aplicaciones potenciadas por ML.

### [Keras](https://keras.io/)

Keras es una interfaz de programación de aplicaciones (API) de redes neuronales de alto nivel, escrita en Python y capaz de ejecutarse sobre TensorFlow, CNTK o Theano. Fue desarrollado con un enfoque en permitir la experimentación rápida. Poder pasar de la idea al resultado con el menor retraso posible es clave para hacer una buena investigación.


### Importamos todas las bibliotecas que utilizaremos

In [1]:
#Generamos las semillas aleatorias iniciales
from numpy.random import seed
seed(101)

from tensorflow import set_random_seed
set_random_seed(101)

# numpy para el manejo de arreglos

# numpy y pandas para el manejo de los datos
import pandas as pd
import numpy as np

  from ._conv import register_converters as _register_converters


In [2]:
# tensorflow para el aprendizaje automatico
#  Keras backend para las redes neuronales
import tensorflow

# Capas, Renormalizadores y Optimizadores.
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import Adam

#Metricas y Modelos 
from tensorflow.keras.metrics import categorical_crossentropy
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.models import Model
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau, ModelCheckpoint

import os

from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
import itertools
import shutil
import matplotlib.pyplot as plt
#%matplotlib inline

### Archivos de datos (de entrada)

In [3]:
input_dir ='/home/enrique/Documents/dataScience/datasets/skin-lesion/skin-cancer-mnist-ham10000/'
os.listdir(input_dir)

['hmnist_28_28_RGB.csv',
 'HAM10000_images_part_1',
 'hmnist_28_28_L.csv',
 'HAM10000_images_part_2',
 'hmnist_8_8_L.csv',
 'HAM10000_metadata.csv',
 'hmnist_8_8_RGB.csv']

### Crea la estructura de directorios.

En estas carpetas almacenaremos las imágenes que luego se enviarán a los generadores Keras.

In [19]:
# funcion para crear directorios
def crea_dir(nombre):
    return print('El directorio ', nombre, 'ya existe') if os.path.isdir(nombre) else os.mkdir(nombre)

# Crea un nuevo directorio 
base_dir = '../data/base_dir'
crea_dir(base_dir)

El directorio  ../data/base_dir ya existe


In [20]:
#[CREAR CARPETAS DENTRO DEL DIRECTORIO BASE]

# train_dir
train_dir = os.path.join(base_dir, 'train_dir')
crea_dir(train_dir)

# val_dir
val_dir = os.path.join(base_dir, 'val_dir')
crea_dir(val_dir)

El directorio  ../data/base_dir/train_dir ya existe
El directorio  ../data/base_dir/val_dir ya existe


In [21]:
# Tanto  train_dir como val_dir tienen los siguientes 7 archivos:

    # nv, mel, bkl, bcc, akiec, vasc, df

subdirectorios = ['nv', 'mel', 'bkl', 'bcc', 'akiec', 'vasc', 'df']    

for directorio in subdirectorios:
    
    crea_dir(os.path.join(train_dir, directorio))    
    crea_dir(os.path.join(val_dir, directorio))   

El directorio  ../data/base_dir/train_dir/nv ya existe
El directorio  ../data/base_dir/val_dir/nv ya existe
El directorio  ../data/base_dir/train_dir/mel ya existe
El directorio  ../data/base_dir/val_dir/mel ya existe
El directorio  ../data/base_dir/train_dir/bkl ya existe
El directorio  ../data/base_dir/val_dir/bkl ya existe
El directorio  ../data/base_dir/train_dir/bcc ya existe
El directorio  ../data/base_dir/val_dir/bcc ya existe
El directorio  ../data/base_dir/train_dir/akiec ya existe
El directorio  ../data/base_dir/val_dir/akiec ya existe
El directorio  ../data/base_dir/train_dir/vasc ya existe
El directorio  ../data/base_dir/val_dir/vasc ya existe
El directorio  ../data/base_dir/train_dir/df ya existe
El directorio  ../data/base_dir/val_dir/df ya existe


#### Carga de conjunto de datos 

In [183]:
df_data = pd.read_csv(input_dir + 'HAM10000_metadata.csv')

In [184]:
### image_id es un buen indice
##df_data[df_data['image_id'].value_counts().values>1]

In [185]:
# establezca el nuevo indice
df_data = df_data.set_index('image_id')
df_data.sample(3)

Unnamed: 0_level_0,lesion_id,dx,dx_type,age,sex,localization
image_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ISIC_0031955,HAM_0001091,vasc,consensus,30.0,female,lower extremity
ISIC_0033939,HAM_0006329,nv,histo,50.0,female,abdomen
ISIC_0030428,HAM_0002508,nv,follow_up,50.0,female,lower extremity


#### Crea un conjunto de valores estratificado

In [186]:
# esto nos dirá cuántas imágenes están asociadas con cada lesion_id
lesion_counts = df_data['lesion_id'].value_counts()

# identifique las lesion_id's que tienen imágenes duplicadas y
#las que tienen una sola imagen. Para ello, crea una nueva columna

def is_unique(image):
    return lesion_counts[image['lesion_id']] == 1

df_data['non_duplicate'] = df_data.apply(is_unique , axis = 1).values

df_data.sample(3)

Unnamed: 0_level_0,lesion_id,dx,dx_type,age,sex,localization,non_duplicate
image_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
ISIC_0030753,HAM_0005694,nv,follow_up,45.0,male,lower extremity,True
ISIC_0033677,HAM_0005258,bkl,histo,60.0,female,lower extremity,False
ISIC_0033413,HAM_0002615,akiec,histo,70.0,male,scalp,False


In [191]:

df_train, df_val = train_test_split(df_data,train_size = 0.8,
                             random_state=101, stratify=df_data['dx'] )



In [220]:
df = df_data[df_data['non_duplicate']]

_, df_val = train_test_split(df, test_size=0.17,
                             random_state=101, stratify=df['dx'] )


In [236]:


ef is_in_val(image):
    return image.name in df_val.index

df_data['is_val'] = df_data.apply(is_in_val, axis = 1).values


Unnamed: 0_level_0,lesion_id,dx,dx_type,age,sex,localization,non_duplicate,is_val
image_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
ISIC_0025276,HAM_0001396,bkl,histo,55.0,female,trunk,True,False
ISIC_0031326,HAM_0007207,bkl,histo,65.0,male,back,True,False
ISIC_0032343,HAM_0006071,bkl,histo,70.0,female,face,True,False
ISIC_0024981,HAM_0005612,bkl,histo,80.0,male,scalp,True,False
ISIC_0027815,HAM_0005388,bkl,histo,80.0,male,chest,True,False
ISIC_0030105,HAM_0003670,bkl,histo,80.0,female,unknown,True,False
ISIC_0030377,HAM_0001983,bkl,histo,70.0,male,back,True,False
ISIC_0028052,HAM_0000700,bkl,histo,60.0,male,face,True,False
ISIC_0025286,HAM_0000728,bkl,histo,50.0,male,lower extremity,True,False
ISIC_0024698,HAM_0001751,nv,consensus,70.0,male,face,True,False


In [30]:
#filtre las imágenes que no tienen duplicados y crea un conjunto de valores con estas
# imágenes  que no tienen duplicados aumentados en el conjunto de entrenamiento

df = df_data[df_data['non_duplicate']]

_, df_val = train_test_split(df, test_size=0.17,
                             random_state=101, stratify=df['dx'] )

df_train['train'] = df_data['lesion_id'].apply(lambda x)

print(df.shape,df_val.shape)

(5514, 8) (938, 8)


In [41]:
df_val.sample(5)

Unnamed: 0,lesion_id,image_id,dx,dx_type,age,sex,localization,non_duplicate
4899,HAM_0001089,ISIC_0029941,nv,follow_up,40.0,male,trunk,True
1011,HAM_0006601,ISIC_0031511,bkl,consensus,80.0,male,abdomen,True
5322,HAM_0001182,ISIC_0029361,nv,follow_up,50.0,male,trunk,True
9485,HAM_0002413,ISIC_0032543,nv,consensus,30.0,male,back,True
3005,HAM_0005366,ISIC_0026211,nv,follow_up,50.0,male,abdomen,True


#### Crea un conjunto de entrenamiento que excluya las imágenes que están en el conjunto de valores.

In [42]:
#df_data['train'] = True
#df_data['train'] = df_data['lesion_id'].apply(lambda x:  )

In [None]:
# This set will be df_data excluding all rows that are in the val set

# This function identifies if an image is part of the train
# or val set.
def identify_val_rows(x):
    # create a list of all the lesion_id's in the val set
    val_list = list(df_val['image_id'])
    
    if str(x) in val_list:
        return 'val'
    else:
        return 'train'

# identify train and val rows

# create a new colum that is a copy of the image_id column
df_data['train_or_val'] = df_data['image_id']
# apply the function to this new column
df_data['train_or_val'] = df_data['train_or_val'].apply(identify_val_rows)
   
# filter out train rows
df_train = df_data[df_data['train_or_val'] == 'train']


print(len(df_train))
print(len(df_val))