# Pulmonary Chest X-Ray Abnormalities - Experimento 2

## Dataset Kaggle
***
- [Chest X-Ray Pneumonia](https://www.kaggle.com/paultimothymooney/chest-xray-pneumonia)

## Contexto do problema
***
> A tuberculose é uma doença que afeta muitas pessoas nos países em desenvolvimento. Embora o tratamento seja possível, ela requer um diagnóstico preciso primeiro. Nos projetos de países, há em muitos casos máquinas de raio-X disponíveis (por meio de projetos de baixo custo e doações), mas muitas vezes falta a experiência radiológica para avaliar com precisão as imagens. Um algoritmo que pudesse realizar essa tarefa de forma rápida e barata poderia melhorar drasticamente a capacidade de diagnosticar e, em última análise, tratar a doença.  
***
> Em países mais desenvolvidos, a radiografia de raio-X é frequentemente usada para rastrear recém-chegados e determinar a elegibilidade para uma autorização de trabalho. A tarefa de examinar manualmente as imagens é demorada e um algoritmo pode aumentar a eficiência, melhorar o desempenho e, por fim, reduzir o custo dessa triagem.  
***
> Este conjunto de dados contém mais de 500 exames de raios-x com rótulos clínicos coletados por radiologistas.

## Conjunto de Dados 3: Chest X-Ray Pneumonia
***
O conjunto de dados é organizado em 3 pastas de treinamento, validação e teste, e contém subpastas para cada categoria de imagem (Pneumonia / Normal). Existem 5.863 imagens de Raios-X (JPEG) e 2 categorias (Pneumonia / Normal). Imagens de raio-X de tórax (ântero-posterior) foram selecionadas de pacientes pediátricos de um a cinco anos de idade do Guangzhou Women and Children’s Medical Center, Guangzhou. Todas as imagens de raios-X de tórax foram realizadas como parte dos cuidados clínicos de rotina dos pacientes. Para a análise das imagens de raios-X de tórax, todas as radiografias de tórax foram inicialmente selecionadas para controle de qualidade, removendo todas as imagens de baixa qualidade ou ilegíveis. Os diagnósticos para as imagens foram então avaliados por dois médicos especialistas antes de serem liberados para o treinamento do sistema de IA. A fim de contabilizar quaisquer erros de classificação, o conjunto de avaliação também foi verificado por um terceiro especialista [1].

## Referências
***
[1] Daniel S. Kermany, Michael Goldbaum, Wenjia Cai, Carolina C.S. Valentim, Huiying Liang, Sally L. Baxter, Alex McKeown, Ge Yang, Xiaokang Wu, Fangbing Yan, Justin Dong, Made K. Prasadha, Jacqueline Pei, Magdalene Y.L. Ting, Jie Zhu, Christina Li, Sierra Hewett, Jason Dong, Ian Ziyar, Alexander Shi, Runze Zhang, Lianghong Zheng, Rui Hou, William Shi, Xin Fu, Yaou Duan, Viet A.N. Huu, Cindy Wen, Edward D. Zhang, Charlotte L. Zhang, Oulan Li, Xiaobo Wang, Michael A. Singer, Xiaodong Sun, Jie Xu, Ali Tafreshi, M. Anthony Lewis, Huimin Xia, & Kang Zhang (2018). **Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep LearningCell**, 172(5), 1122-1131.e9.

## Importação dos pacotes

In [None]:
# importando os pacotes necessários
import urllib.request
import os 
from keras.preprocessing.image import ImageDataGenerator
import tensorflow as tf
from tensorflow.keras import layers
from tensorflow.keras import Model
from tensorflow.keras.applications.inception_v3 import InceptionV3
from tensorflow.keras.optimizers import RMSprop
from tensorflow.keras.callbacks import ModelCheckpoint, ReduceLROnPlateau
urllib.request.urlretrieve('https://raw.githubusercontent.com/Alyssonmach/histogram-equalization/main/histogram_equalization.py', 'histogram_equalization.py')
from histogram_equalization import histogram_equalization

## Pré-processamento nos dados

In [None]:
# baixando o dataset
urllib.request.urlretrieve('https://storage.googleapis.com/kaggle-data-sets/17810/23812/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20210218%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210218T133343Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=4de0009cf9f67c0e45ef4d0126108328a6872b664297962be040d6193ed274499170a1468f2a56c29c998bf088ba11a5260f55b155d950ec6e1170adae966eeea1cac8f02a3b24501d35d78de44b8433086c0fdb993c8bf49d0d1a119d43028634e9500419e05822a1b4392cd8569cfa1706c1d624ac310249012079db8c53240ef905f7940f4ffecf3a3ef682c8c646f7797bcbc555d65fc56a942b974ed866061fbcbaec838dc9104875dcaba724d6f08add0b17afe6f3f6cf0559038fc90af2b11425b67aad7ac567cf527ea8ec619b138c372721645c204b8a815ac93944a5cdc1d31959171d7919a1eebacc8ebcfbe6e8265f85688c9609c4c19aa43ad1', 'dataset.zip')

('dataset.zip', <http.client.HTTPMessage at 0x7f47ae65f358>)

In [None]:
# descompactando as imagens e removendo arquivo compactado
!unzip dataset.zip
!rm /content/dataset.zip

In [None]:
# definindo os caminhos dos diretórios para treinamento, validação e teste  
train_dir = '/content/chest_xray/chest_xray/train'
valid_dir = '/content/chest_xray/chest_xray/val'
test_dir = '/content/chest_xray/chest_xray/test'

In [None]:
# pegando a indexação das imagens no diretório para treinamento, validação e teste
train_normal = os.path.join(train_dir, 'NORMAL')
train_pneumonia = os.path.join(train_dir, 'PNEUMONIA')
valid_normal = os.path.join(valid_dir, 'NORMAL')
valid_pneumonia = os.path.join(valid_dir, "PNEUMONIA")
test_normal = os.path.join(test_dir, "NORMAL")
test_pneumonia = os.path.join(test_dir, 'PNEUMONIA')

In [None]:
# definindo o padrão de pré-processamento para os dados de treinamento 
train_datagen = ImageDataGenerator(
    preprocessing_function = histogram_equalization,
    rescale = 1./255.,
    rotation_range = 10,
    zoom_range = 0.3)

# definindo o padrão de pré-processamento para os dados de validação e teste
test_datagen = ImageDataGenerator(rescale = 1./255)

In [None]:
# gerador de imagens para o conjunto de dados de treinamento 
train_generator = train_datagen.flow_from_directory(
    train_dir,
    class_mode = 'binary',
    batch_size = 32,
    target_size = (256, 256)
)

# gerador de imagens para o conjunto de dados de teste
test_generator = test_datagen.flow_from_directory(
    test_dir,
    class_mode = 'binary',
    batch_size = 32,
    target_size = (256, 256)
)

# gerador de imagens para o conjunto de dados de validação 
validation_generator = test_datagen.flow_from_directory(
    valid_dir,
    class_mode = 'binary',
    batch_size = 32,
    target_size = (256, 256)
)

Found 5216 images belonging to 2 classes.
Found 624 images belonging to 2 classes.
Found 16 images belonging to 2 classes.


## Definindo a rede neural convolucional 

In [None]:
# baixando os pesos treinados da rede inception
!wget --no-check-certificate \
    https://storage.googleapis.com/mledu-datasets/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5 \
    -O /tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5

--2021-02-18 18:43:14--  https://storage.googleapis.com/mledu-datasets/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5
Resolving storage.googleapis.com (storage.googleapis.com)... 142.250.31.128, 172.217.8.16, 172.217.13.80, ...
Connecting to storage.googleapis.com (storage.googleapis.com)|142.250.31.128|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 87910968 (84M) [application/x-hdf]
Saving to: ‘/tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5’


2021-02-18 18:43:15 (188 MB/s) - ‘/tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5’ saved [87910968/87910968]



In [None]:
# referenciando o local em que os pesos estão armazenados
local_weights_file = '/tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5'

# carregando a arquitetura inception pré-treinada
pre_trained_model = InceptionV3(input_shape = (256, 256, 3), 
                                include_top = False, 
                                weights = None)

# carregando os pesos treinados com outros dados 
pre_trained_model.load_weights(local_weights_file)

# definindo as flags iniciais  
pre_trained_model.trainable = True
set_trainable = False

# para a arquitetura inception, a rede será retreinada a partir da camada 'mixed6'
for layer in pre_trained_model.layers:
  if layer.name == 'mixed5':
    set_trainable = True
  if set_trainable:
    layer.trainable = True
  else:
    layer.trainable = False

# visualizando a arquitetura definida
pre_trained_model.summary()

# obtendo a última camada como sendo a nomeada por 'mixed7'
last_layer = pre_trained_model.get_layer('mixed6')
last_output = last_layer.output

Model: "inception_v3"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 256, 256, 3) 0                                            
__________________________________________________________________________________________________
conv2d (Conv2D)                 (None, 127, 127, 32) 864         input_1[0][0]                    
__________________________________________________________________________________________________
batch_normalization (BatchNorma (None, 127, 127, 32) 96          conv2d[0][0]                     
__________________________________________________________________________________________________
activation (Activation)         (None, 127, 127, 32) 0           batch_normalization[0][0]        
_______________________________________________________________________________________

In [None]:
# definindo uma camada de achatamento
x = layers.Flatten()(last_output)
# conecatando a rede uma camada com 1024 neurônios e função de ativação relu
x = layers.Dense(units = 1024, activation = 'relu')(x)
# aplicando uma camada de dropout com uma taxa de 20% (normalização)
x = layers.Dropout(rate = 0.2)(x)      
# conecatando a rede uma camada com 128 neurônios e função de ativação relu
x = layers.Dense(units = 128, activation = 'relu')(x) 
# aplicando uma camada de dropout com uma taxa de 20% (normalização)
x = layers.Dropout(rate = 0.2)(x)       
# conecatando a rede uma camada com 64 neurônios e função de ativação relu
x = layers.Dense(units = 64, activation = 'relu')(x)              
# adicionando uma camada de saída com um neurônio e uma função de ativação sigmoide
x = layers.Dense  (units = 1, activation = 'sigmoid')(x)           

# conecatando as camadas definidas acima com a arquitetura inception
model = Model(pre_trained_model.input, x) 

# compilando a rede 
model.compile(optimizer = RMSprop(lr = 0.0001), loss = 'binary_crossentropy', metrics = ['acc']) 

## Definindo os callbacks

In [None]:
# definindo o caminho pelo qual os pesos serão armazenados 
filepath = "transferlearning_weights.hdf5"
# callback para salvar o melhor valor dos pesos em relação ao desempenho com os dados de validação 
checkpoint = ModelCheckpoint(filepath, monitor = 'val_acc', verbose = 1, save_best_only = True, mode = 'max')
# callback para reduzir a taxa de aprendizado caso a rede estagne em seu desempenho
lr_reduce = ReduceLROnPlateau(monitor = 'val_acc', factor = 0.1, min_delta = 0.0001, patience = 5, verbose = 1)

## Treinando a rede

In [None]:
# treinando a rede 
history = model.fit(train_generator,
                    validation_data = validation_generator,
                    epochs = 15, verbose = 1,
                    callbacks = [checkpoint, lr_reduce])

Epoch 1/15

Epoch 00001: val_acc improved from -inf to 0.87500, saving model to transferlearning_weights.hdf5
Epoch 2/15

Epoch 00002: val_acc did not improve from 0.87500
Epoch 3/15

Epoch 00003: val_acc did not improve from 0.87500
Epoch 4/15

Epoch 00004: val_acc did not improve from 0.87500
Epoch 5/15

Epoch 00005: val_acc improved from 0.87500 to 1.00000, saving model to transferlearning_weights.hdf5
Epoch 6/15

Epoch 00006: val_acc did not improve from 1.00000
Epoch 7/15

Epoch 00007: val_acc did not improve from 1.00000
Epoch 8/15

Epoch 00008: val_acc did not improve from 1.00000
Epoch 9/15

Epoch 00009: val_acc did not improve from 1.00000
Epoch 10/15

KeyboardInterrupt: ignored

## Analisando a capacidade de generalização do modelo

In [None]:
# computando o desempenho da rede treinada com os dados de teste 
model.evaluate(test_generator)



[0.5666497349739075, 0.9262820482254028]

In [None]:
# salvando o modelo treinado
model.save('cxr2_model')

INFO:tensorflow:Assets written to: cxr2_model/assets


In [None]:
# adicionando o modelo treinando ao google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive
