# Clasificación de imágenes pulmonares de rayos X mediante redes neuronales convolucionales

Autores:


*   Alicia Portela Estévez
*   Álvaro García López
*   Álvaro Marínez Petit


## Introducción

La neumonía es una infección que puede afectar a uno a ambos pulmones, causada tanto por virus como por hongos o bacterias. Según la OMS, en 2019 el número de fallecidos a causa de esta enfermedad fue de más de 2 millones de personas en todo el mundo, por lo que un diágnóstico temprano ayudaría a disminuir este número [[Ref.]](https://www.who.int/es/news-room/fact-sheets/detail/the-top-10-causes-of-death)

En el trabajo final de la asignatura "Ingeniería de Grandes Volúmenes de Datos" pretendemos crear un modelo de "Deep Learning" basado en Redes Neuronales Convolucionales que sea capaz de distinguir entre imágenes pulmonares de rayos X procedentes de pacientes con y sin neumonía. De esta forma, podríamos desarrollar una herramienta informática que automatice con cierta calidad el diagnóstico temprano de estos casos.

Dada la gran cantidad de datos que manejamos, hemos utilizado una solución basada en Apache Spark para llevar a cabo el entrenamiento de la red neuronal. De esta forma, el proceso se realiza de forma óptima.

## Preparación del entorno de trabajo

Instalar JAVA (jdk8)

In [None]:
# Instalamos jdk8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

import os
# Establecemos la ruta del entorno jdk para poder ejecutar Pyspark en Colab
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
!update-alternatives --set java /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java


update-alternatives: using /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java to provide /usr/bin/java (java) in manual mode


Instalar Analytics Zoo

In [None]:
# Instalamos la última versión de Analytics Zoo
# Mediante esta acción se instalan automáticamente pyspark, bigdl y sus dependencias.
!pip install --pre --upgrade analytics-zoo[ray]
exit()

Collecting analytics-zoo[ray]
  Downloading analytics_zoo-0.12.0b2022021001-py2.py3-none-manylinux1_x86_64.whl (194.7 MB)
[K     |████████████████████████████████| 194.7 MB 64 kB/s 
Collecting bigdl==0.13.1.dev0
  Downloading BigDL-0.13.1.dev0-py2.py3-none-manylinux1_x86_64.whl (114.0 MB)
[K     |████████████████████████████████| 114.0 MB 29 kB/s 
[?25hCollecting conda-pack==0.3.1
  Downloading conda_pack-0.3.1-py2.py3-none-any.whl (27 kB)
Collecting pyspark==2.4.6
  Downloading pyspark-2.4.6.tar.gz (218.4 MB)
[K     |████████████████████████████████| 218.4 MB 59 kB/s 
Collecting async-timeout==3.0.1
  Downloading async_timeout-3.0.1-py3-none-any.whl (8.2 kB)
Collecting setproctitle
  Downloading setproctitle-1.2.2-cp37-cp37m-manylinux1_x86_64.whl (36 kB)
Collecting aioredis==1.1.0
  Downloading aioredis-1.1.0-py3-none-any.whl (65 kB)
[K     |████████████████████████████████| 65 kB 4.4 MB/s 
[?25hCollecting ray==1.2.0
  Downloading ray-1.2.0-cp37-cp37m-manylinux2014_x86_64.whl (4

Importamos Orca

In [None]:
# Importamos las librerías y módulos necesarios
from zoo.orca import init_orca_context, stop_orca_context
from zoo.orca import OrcaContext

# Fijando este parámetro a 'True' se muestra en el terminal del Jupyter Notebook el stdout y el stderr
OrcaContext.log_output = True

# Iniciamos el contexto Orca
init_orca_context(cluster_mode="local", cores=1)

# Obtenemos la sesión de spark iniciada por Orca
spark = OrcaContext.get_spark_session()

Initializing orca context
Current pyspark location is : /usr/local/lib/python3.7/dist-packages/pyspark/__init__.py
Start to getOrCreate SparkContext
pyspark_submit_args is:  --driver-class-path /usr/local/lib/python3.7/dist-packages/zoo/share/lib/analytics-zoo-bigdl_0.13.1-SNAPSHOT-spark_2.4.6-0.12.0-SNAPSHOT-jar-with-dependencies.jar:/usr/local/lib/python3.7/dist-packages/bigdl/share/lib/bigdl-0.13.1-SNAPSHOT-jar-with-dependencies.jar pyspark-shell 
2022-02-10 11:26:07 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).

User settings:

   KMP_AFFINITY=granularity=fine,compact,1,0
   KMP_BLOCKTIME=0
   KMP_SETTINGS=1
   OMP_NUM_THREADS=1

Effective settings:

   KMP_ABORT_DELAY=0
   KMP_ADAPTIVE_LOCK_PROPS='1,1024'
   KMP_ALIGN_ALLOC=64
   KMP_ALL_THREADPRIVATE=128
   KMP_ATOMIC_MODE=2
   KMP_BLOCKTIME=0
   KMP_CPUINFO_FILE: value is not defined
   KMP_DETERMINISTIC_REDUCTION=false
   KMP_DEVICE_THREAD_LIMIT=2147483647
   KMP_DISP_HAND_THREAD=false
   KMP_DISP_NUM_BUFFERS=7
   KMP_DUPLICATE_LIB_OK=false
   KMP_FORCE_REDUCTION: value is not defined
   KMP_FOREIGN_THREADS_THREADPRIVATE=true
   KMP_FORKJOIN_BARRIER='2,2'
   KMP_FORKJOIN_BARRIER_PATTERN='hyper,hyper'
   KMP_FORKJOIN_FRAMES=true
   KMP_FORKJOIN_FRAMES_MODE=3
   KMP_GTID_MODE=3
   KMP_HANDLE_SIGNALS=false
   KMP_HOT_TEAMS_MAX_LEVEL=1
   KMP_HOT_TEAMS_MODE=0
   KMP_INIT_AT_FORK=true
   KMP_ITT_PREPARE_DELAY=0
   K

cls.getname: com.intel.analytics.bigdl.python.api.Sample
BigDLBasePickler registering: bigdl.util.common  Sample
cls.getname: com.intel.analytics.bigdl.python.api.EvaluatedResult
BigDLBasePickler registering: bigdl.util.common  EvaluatedResult
cls.getname: com.intel.analytics.bigdl.python.api.JTensor
BigDLBasePickler registering: bigdl.util.common  JTensor
cls.getname: com.intel.analytics.bigdl.python.api.JActivity
BigDLBasePickler registering: bigdl.util.common  JActivity
Successfully got a SparkContext


Importamos otras librerías y módulos necesarios

In [None]:
import os
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.image import ImageDataGenerator

Comprobamos la versión instalada de TensorFlow y Keras

In [None]:
tf.__version__

'2.7.0'

In [None]:
keras.__version__

'2.7.0'

## Importación de los datos y creación del modelo

Definimos tres funciones que serán llamadas posteriormente en el modelo, cuya finalidad es cargar los datos.

Cada una de ellas se encarga de cargar uno de los subconjuntos utilizados en el desarrollo del modelo (entrenamiento, validación y evaluación).

In [None]:
# Ruta al directorio base que contiene todas las imágenes de rayos X a utilizar
basepath = "/content/drive/MyDrive/MBC/Big_Data_Engineering/Big_Data_Final_Project/chest_xray"

# Función para cargar los datos de entrenamiento
def train_data_creator(config, batch_size):
    # Creamos una instancia de ImageDataGenerator que reescala los colores 
    # (en formato RGB) de los píxeles de 0 a 1 en lugar de la codificación 
    # original de 0 a 255, y voltea algunas imágenes horizontalmente al azar
    # para aumentar la diversidad de los datos y que el modelo no pierda
    # precisión por la orientación de la persona a la hora de tomar la radiografía.
    # Esto último solo es necesario en los datos de entrenamiento, por lo que
    # no lo repetimos en los datos de validación y evaluación
    datagen_train = ImageDataGenerator(rescale=1./255, horizontal_flip=True)

    # Usamos la instancia de ImageDataGenerator para cargar los datos del directorio
    # especificado con el tamaño, modo de color y tamaño de 'batch' requerido
    training_set = datagen_train.flow_from_directory(os.path.join(basepath, "train"),
                                              target_size=(150, 150),
                                              color_mode="grayscale",
                                              batch_size=batch_size)

    return training_set

# Función para cargar los datos de validación
def val_data_creator(config, batch_size):
    # Creamos una instancia de ImageDataGenerator que reescala los colores 
    # (en formato RGB) de los píxeles de 0 a 1 en lugar de la codificación 
    # original de 0 a 255.
    datagen_val = ImageDataGenerator(rescale=1./255)

    # Usamos la instancia de ImageDataGenerator para cargar los datos del directorio
    # especificado con el tamaño, modo de color y tamaño de 'batch' requerido
    val_set = datagen_val.flow_from_directory(os.path.join(basepath, "val"),
                                          target_size=(150, 150),
                                          color_mode="grayscale",
                                          batch_size=batch_size)
    return val_set

# Función para cargar los datos de evaluación
def test_data_creator(config, batch_size):
    # Creamos una instancia de ImageDataGenerator que reescala los colores 
    # (en formato RGB) de los píxeles de 0 a 1 en lugar de la codificación 
    # original de 0 a 255.
    datagen_test = ImageDataGenerator(rescale=1./255)

    # Usamos la instancia de ImageDataGenerator para cargar los datos del directorio
    # especificado con el tamaño, modo de color y tamaño de 'batch' requerido
    test_set = datagen_test.flow_from_directory(os.path.join(basepath, "test"),
                                          target_size=(150, 150),
                                          color_mode="grayscale",
                                          batch_size=batch_size)
    return test_set

Definimos el modelo que vamos a utilizar

In [None]:
# Función en la que se define el modelo de red neuronal
def model_creator(config):
    # Utilizamos el modo Secuencial de keras para la construcción de la red
    model = tf.keras.Sequential()

    # Creamos 5 capas de 32 neuronas convolucionales, definiendo la función de
    # activación como 'relu' y el tamaño de los datos de entrada en la primera de todas
    model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), input_shape=(150, 150, 1), activation="relu"))
    model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation="relu"))
    model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation="relu"))
    model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation="relu"))
    model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation="relu"))
    # Creamos una capa de MaxPooling para reducir la dimensionalidad de la imagen y
    # así reducir el coste computacional y minimizar la posibilidad de 'overfitting'
    model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2)))
    # Creamos una capa Flatten para convertir la salida bidimensional de la capa
    # anterior en una entrada unidimensional de la siguiente
    model.add(tf.keras.layers.Flatten())
    # Creamos una capa de 10 neuronas completamente conectadas
    model.add(tf.keras.layers.Dense(10, activation="relu"))
    # Creamos una capa de 2 neuronas como salida, con función de activación 'softmax'
    # para realizar una clasificación binaria
    model.add(tf.keras.layers.Dense(2, activation="softmax"))

    # Compilamos el modelo con 'adam' como optimizador, 'categorical_crossentropy'
    # como función de pérdida y obteniendo métricas de 'accuracy', 'precision', 
    # 'recall' y 'area under the curve' (AUC)
    model.compile(optimizer="Adam", 
                  loss="categorical_crossentropy", 
                  metrics=["accuracy",
                            keras.metrics.Precision(name='precision'), 
                            keras.metrics.Recall(name='recall'), 
                            keras.metrics.AUC(name='prc', curve='PR') # precision-recall curve
                           ])
    
    return model

Creamos una instancia del 'Estimator' proporcionado por Orca (Analytics Zoo) a partir del modelo previamente definido

In [None]:
from zoo.orca.learn.tf2 import Estimator

est = Estimator.from_keras(model_creator=model_creator, workers_per_node=1)

[2m[36m(pid=5224)[0m Instructions for updating:
[2m[36m(pid=5224)[0m use distribute.MultiWorkerMirroredStrategy instead
[2m[36m(pid=5224)[0m 2022-02-10 12:30:48.294105: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected


## Entrenamiento del modelo

Definimos 3 épocas y 32 como tamaño de 'batch' para entrenar el Estimador, llamando a las funciones que cargan los datos

In [None]:
max_epoch = 3
batch_size = 32

stats = est.fit(train_data_creator,
                epochs=max_epoch,
                batch_size=batch_size,
                validation_data=val_data_creator)


[2m[36m(pid=5224)[0m Found 5043 images belonging to 2 classes.
[2m[36m(pid=5224)[0m Found 10 images belonging to 2 classes.


[2m[36m(pid=5224)[0m 2022-02-10 12:30:52.195401: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:766] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Did not find a shardable source, walked to a node which is not a dataset: name: "FlatMapDataset/_2"
[2m[36m(pid=5224)[0m op: "FlatMapDataset"
[2m[36m(pid=5224)[0m input: "TensorDataset/_1"
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "Targuments"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     list {
[2m[36m(pid=5224)[0m     }
[2m[36m(pid=5224)[0m   }
[2m[36m(pid=5224)[0m }
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "_cardinality"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     i: -2
[2m[36m(pid=5224)[0m   }
[2m[36m(pid=5224)[0m }
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "f"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     func {


[2m[36m(pid=5224)[0m Epoch 1/3
  1/158 [..............................] - ETA: 32:59 - loss: 0.6978 - accuracy: 0.3125 - precision: 0.3125 - recall: 0.3125 - prc: 0.4036
  2/158 [..............................] - ETA: 17:46 - loss: 0.6938 - accuracy: 0.4375 - precision: 0.4375 - recall: 0.4375 - prc: 0.4848
  3/158 [..............................] - ETA: 16:36 - loss: 0.6808 - accuracy: 0.5208 - precision: 0.5208 - recall: 0.5208 - prc: 0.6277
  4/158 [..............................] - ETA: 14:12 - loss: 0.6653 - accuracy: 0.5565 - precision: 0.5565 - recall: 0.5565 - prc: 0.6323
  5/158 [..............................] - ETA: 14:26 - loss: 0.6580 - accuracy: 0.5986 - precision: 0.5986 - recall: 0.5986 - prc: 0.6620
  6/158 [>.............................] - ETA: 15:18 - loss: 0.6558 - accuracy: 0.6145 - precision: 0.6145 - recall: 0.6145 - prc: 0.6647
  7/158 [>.............................] - ETA: 15:13 - loss: 0.6336 - accuracy: 0.6493 - precision: 0.6493 - recall: 0.6493 - prc: 

[2m[36m(pid=5224)[0m 2022-02-10 12:47:11.720466: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:766] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Did not find a shardable source, walked to a node which is not a dataset: name: "FlatMapDataset/_2"
[2m[36m(pid=5224)[0m op: "FlatMapDataset"
[2m[36m(pid=5224)[0m input: "TensorDataset/_1"
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "Targuments"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     list {
[2m[36m(pid=5224)[0m     }
[2m[36m(pid=5224)[0m   }
[2m[36m(pid=5224)[0m }
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "_cardinality"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     i: -2
[2m[36m(pid=5224)[0m   }
[2m[36m(pid=5224)[0m }
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "f"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     func {


[2m[36m(pid=5224)[0m Epoch 2/3
  1/158 [..............................] - ETA: 18:27 - loss: 0.2018 - accuracy: 0.9375 - precision: 0.9375 - recall: 0.9375 - prc: 0.9805
  2/158 [..............................] - ETA: 15:54 - loss: 0.2297 - accuracy: 0.9219 - precision: 0.9219 - recall: 0.9219 - prc: 0.9770
  3/158 [..............................] - ETA: 15:38 - loss: 0.2831 - accuracy: 0.9062 - precision: 0.9062 - recall: 0.9062 - prc: 0.9651
  4/158 [..............................] - ETA: 15:32 - loss: 0.2966 - accuracy: 0.8906 - precision: 0.8906 - recall: 0.8906 - prc: 0.9605
  5/158 [..............................] - ETA: 15:25 - loss: 0.2869 - accuracy: 0.9062 - precision: 0.9062 - recall: 0.9062 - prc: 0.9671
  6/158 [>.............................] - ETA: 15:18 - loss: 0.2908 - accuracy: 0.9010 - precision: 0.9010 - recall: 0.9010 - prc: 0.9637
  7/158 [>.............................] - ETA: 15:13 - loss: 0.2900 - accuracy: 0.9018 - precision: 0.9018 - recall: 0.9018 - prc: 

[2m[36m(pid=5224)[0m 2022-02-10 13:03:09.542188: W tensorflow/core/framework/dataset.cc:744] Input of GeneratorDatasetOp::Dataset will not be optimized because the dataset does not implement the AsGraphDefInternal() method needed to apply optimizations.


[2m[36m(pid=5224)[0m Epoch 3/3
  1/158 [..............................] - ETA: 18:32 - loss: 0.1764 - accuracy: 1.0000 - precision: 1.0000 - recall: 1.0000 - prc: 1.0000
  2/158 [..............................] - ETA: 15:49 - loss: 0.2242 - accuracy: 0.9688 - precision: 0.9688 - recall: 0.9688 - prc: 0.9807
  3/158 [..............................] - ETA: 15:42 - loss: 0.2216 - accuracy: 0.9688 - precision: 0.9688 - recall: 0.9688 - prc: 0.9841
  4/158 [..............................] - ETA: 15:38 - loss: 0.2464 - accuracy: 0.9453 - precision: 0.9453 - recall: 0.9453 - prc: 0.9771
  5/158 [..............................] - ETA: 15:31 - loss: 0.2336 - accuracy: 0.9563 - precision: 0.9563 - recall: 0.9563 - prc: 0.9823
  6/158 [>.............................] - ETA: 15:25 - loss: 0.2506 - accuracy: 0.9375 - precision: 0.9375 - recall: 0.9375 - prc: 0.9745
  7/158 [>.............................] - ETA: 15:18 - loss: 0.2540 - accuracy: 0.9286 - precision: 0.9286 - recall: 0.9286 - prc: 

[2m[36m(pid=5224)[0m 2022-02-10 13:19:33.039456: W tensorflow/core/framework/dataset.cc:744] Input of GeneratorDatasetOp::Dataset will not be optimized because the dataset does not implement the AsGraphDefInternal() method needed to apply optimizations.




## Evaluación del modelo

Una vez el Estimador ha entrenado correctamente, lo evaluamos cargando los datos de evaluación llamando a su función correspondiente

In [None]:
stats = est.evaluate(test_data_creator, 
                     batch_size = batch_size)

print(stats)

[2m[36m(pid=5224)[0m Found 586 images belonging to 2 classes.


[2m[36m(pid=5224)[0m 2022-02-10 13:35:32.274057: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:766] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Did not find a shardable source, walked to a node which is not a dataset: name: "FlatMapDataset/_2"
[2m[36m(pid=5224)[0m op: "FlatMapDataset"
[2m[36m(pid=5224)[0m input: "TensorDataset/_1"
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "Targuments"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     list {
[2m[36m(pid=5224)[0m     }
[2m[36m(pid=5224)[0m   }
[2m[36m(pid=5224)[0m }
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "_cardinality"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     i: -2
[2m[36m(pid=5224)[0m   }
[2m[36m(pid=5224)[0m }
[2m[36m(pid=5224)[0m attr {
[2m[36m(pid=5224)[0m   key: "f"
[2m[36m(pid=5224)[0m   value {
[2m[36m(pid=5224)[0m     func {


 1/19 [>.............................] - ETA: 40s - loss: 0.4005 - accuracy: 0.8438 - precision: 0.8438 - recall: 0.8438 - prc: 0.9261
 2/19 [==>...........................] - ETA: 22s - loss: 0.6308 - accuracy: 0.7812 - precision: 0.7812 - recall: 0.7812 - prc: 0.8775
 3/19 [===>..........................] - ETA: 21s - loss: 0.5747 - accuracy: 0.8021 - precision: 0.8021 - recall: 0.8021 - prc: 0.8725
 4/19 [=====>........................] - ETA: 19s - loss: 0.6951 - accuracy: 0.7891 - precision: 0.7891 - recall: 0.7891 - prc: 0.8401
{'validation_loss': 0.7188912630081177, 'validation_accuracy': 0.7798634767532349, 'validation_precision': 0.7798634767532349, 'validation_recall': 0.7798634767532349, 'validation_prc': 0.8432269096374512}


Mejoramos la visualización de las métricas obtenidas tras la evaluación

In [None]:
for stat, value in stats.items():
  print (stat, "\t", value, sep = "")

validation_loss	0.7188912630081177
validation_accuracy	0.7798634767532349
validation_precision	0.7798634767532349
validation_recall	0.7798634767532349
validation_prc	0.8432269096374512


Conseguimos finalmente un 'accuracy' del 78%, lo que nos da una visión global de la calidad de la clasificación.

De forma más específica, los resultados de 'precision' y 'recall' nos muestran que se producen el mismo número de errores en la clasificación de falsos negativos como de falsos positivos.

Por último, el resultado de 'Precision-Recall curve' es de 0'84, un valor superior al umbral de 0'5 para considerar válido el modelo.

Consideramos que este resultado es suficientemente alto para utilizar el modelo como una primera aproximación al diagnóstico de neumonía, pero siempre con la supervisión de un profesional.



## Guardado del modelo

Guardamos el modelo entrenado para poder usarlo en el futuro

In [None]:
model_path = "/content/drive/MyDrive/MBC/Big_Data_Engineering/Big_Data_Final_Project/"
est.save(os.path.join(model_path, "big_data_final_model_1"))
# est.shutdown()

'/content/drive/MyDrive/MBC/Big_Data_Engineering/Big_Data_Final_Project/big_data_final_model_1'

## Comentarios finales

Como hemos visto a lo largo del código, hemos utilizado datos en grandes cantidades para generar un modelo que pueda predecir con relativamente alta precisión (78%) si una radiografía corresponde a un paciente con neumonía o no.

Con la idea de explorar más opciones, nos planteamos realizar más transformaciones a las imágenes de entrenamiento, como se muestra en el código a continuación, con el fin de introducir más variabilidad en el modelo. Sin embargo, las métricas de los resultados (precisión del 72%) no mejoraban las del modelo final expuesto. Además, consideramos que tampoco se genera tanta variabilidad en el entorno en el que se consiguen las imágenes, ya que la toma de radiografías de pecho es un proceso bastante estandarizado y no suele tener variaciones de brillo o ángulo.

In [None]:
#datagen_train = ImageDataGenerator(rescale=1./255, 
#                                   horizontal_flip=True,
#                                   rotation_range=15,
#                                   brightness_range=[0.5,1.0],
#                                   zoom_range=[0.9,1.0])