<a href="https://colab.research.google.com/github/Alyssonmach/cnn-lung-diseases/blob/main/cxr_model_final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pulmonary Chest X-Ray Abnormalities - Experimento 1

## Dataset Kaggle
***
- [Pulmonary Chest X-Ray Abnormalities](https://www.kaggle.com/kmader/pulmonary-chest-xray-abnormalities) [1]


## Contexto do problema
***
> A tuberculose é uma doença que afeta muitas pessoas nos países em desenvolvimento. Embora o tratamento seja possível, ela requer um diagnóstico preciso primeiro. Nos projetos de países, há em muitos casos máquinas de raio-X disponíveis (por meio de projetos de baixo custo e doações), mas muitas vezes falta a experiência radiológica para avaliar com precisão as imagens. Um algoritmo que pudesse realizar essa tarefa de forma rápida e barata poderia melhorar drasticamente a capacidade de diagnosticar e, em última análise, tratar a doença.  
***
> Em países mais desenvolvidos, a radiografia de raio-X é frequentemente usada para rastrear recém-chegados e determinar a elegibilidade para uma autorização de trabalho. A tarefa de examinar manualmente as imagens é demorada e um algoritmo pode aumentar a eficiência, melhorar o desempenho e, por fim, reduzir o custo dessa triagem.  
***
> Este conjunto de dados contém mais de 500 exames de raios-x com rótulos clínicos coletados por radiologistas.  

### Conjunto de Dados 1: Montgomery County X-ray Set
***
As imagens de raios-X neste conjunto de dados foram adquiridas do programa de controle da tuberculose do Departamento de Saúde e Serviços Humanos do Condado de Montgomery, MD, EUA. Esse conjunto de dados contém 138 radiografias póstero-anterior, das quais 80 são radiografias normais e 58 são anormais com manifestações de tuberculose. Todas as imagens são desidentificadas e disponíveis no formato DICOM (Digital Imaging and Communications in Medicine). O conjunto cobre uma ampla gama de anormalidades, incluindo efusões e padrões miliares. O conjunto de dados inclui leituras de radiologia disponíveis como um arquivo de texto (preservando a identidade dos pacientes) [2].

### Conjunto de Dados 2: China Set - The Shenzhen set - Chest X-ray Database
***
O banco de dados de imagem digital padrão para tuberculose foi criado pela Biblioteca Nacional de Medicina, Maryland, EUA, em colaboração com o Hospital Popular de Shenzhen No.3, Faculdade de Medicina de Guangdong, Shenzhen, China. As radiografias de tórax são de clínicas ambulatoriais e foram capturadas como parte da rotina diária usando os sistemas Philips DR Digital Diagnose. O conjunto de dados contém 336 casos com manifestação de tuberculose e 326 casos normais [3].

### Referências
***
[1] Jaeger S, Candemir S, Antani S, Wáng YX, Lu PX, Thoma G. **Two public chest X-ray datasets for computer-aided screening of pulmonary diseases**. Quant Imaging Med Surg. 2014;4(6):475-477. doi:10.3978/j.issn.2223-4292.2014.11.20  

[2] Jaeger S, Karargyris A, Candemir S, Folio L, Siegelman J, Callaghan F, Xue Z, Palaniappan K, Singh RK, Antani S, Thoma G, Wang YX, Lu PX, McDonald CJ. **Automatic tuberculosis screening using chest radiographs**. IEEE Trans Med Imaging. 2014 Feb;33(2):233-45. doi: 10.1109/TMI.2013.2284099. PMID: 24108713  

[3] Candemir S, Jaeger S, Palaniappan K, Musco JP, Singh RK, Xue Z, Karargyris A, Antani S, Thoma G, McDonald CJ. **Lung segmentation in chest radiographs using anatomical atlases with nonrigid registration**. IEEE Trans Med Imaging. 2014 Feb;33(2):577-90. doi: 10.1109/TMI.2013.2290491. PMID: 24239990

## Importação dos pacotes

In [1]:
# importando os pacotes necessários
import glob
import re
from tqdm import tqdm
import urllib.request
import pandas as pd
from sklearn.model_selection import train_test_split
from keras.preprocessing.image import ImageDataGenerator
import tensorflow as tf
from tensorflow.keras import layers
from tensorflow.keras import Model
from tensorflow.keras.applications.inception_v3 import InceptionV3
from tensorflow.keras.optimizers import RMSprop
urllib.request.urlretrieve('https://raw.githubusercontent.com/Alyssonmach/histogram-equalization/main/histogram_equalization.py', 'histogram_equalization.py')
from histogram_equalization import histogram_equalization
from tensorflow.keras.callbacks import ModelCheckpoint, ReduceLROnPlateau

## Pré-processamento nos dados

In [2]:
# baixando o dataset 
#urllib.request.urlretrieve('https://storage.googleapis.com/kaggle-data-sets/15700/20797/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20210218%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210218T125553Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=17f83e54cc37c451f0906e6b9aff99e19bcf505de4b661d9dbe17c643ebff836c5e0c12e60427166b2705ee37df82cab97cf7cf9f0981c7e2bf455000c6dba116d7b9c38f1af98ba5cf08ed2e5a7433fb3d36f3a4f69cad4dc63eebb1810a33980f8c2fb5f191d596bd05a18f4736d4397ceff09a22fbdf1137cf2e3931805a18f9b4da8a99315dba5f80d41e4e974ca9d5f76cd1d6802586dda465352f3d40537ec16d1466653bec986990924d96d696ead103d172966f0e67889ce94aa2ab9c4650ed39c4ff74a63d8a79226f30b5bcbd74a30261b92ccf598aed2166c29f15bab129479ae6ff762a6309506c082cc6e94433c6d7c75cfe60f7972ad2508cb', 'datasets.zip')

In [3]:
# descompactando o dataset e removendo o arquivo compactado
#!unzip datasets.zip
#!rm /content/datasets.zip

In [4]:
# coletando o caminho dos arquivos dos dados do hospital montgomery
filelist_montgomery = glob.glob('/content/Montgomery/MontgomerySet/CXR_png/*.png')
# coletando o caminho dos arquivos dos dados do hospital shenzen
filelist_shenzen = glob.glob('/content/ChinaSet_AllFiles/ChinaSet_AllFiles/CXR_png/*.png')
# unindo o caminho dos arquivos dos hospitais montgomery e shenzen
filelist = filelist_montgomery + filelist_shenzen

In [5]:
# quantidade de imagens disponíveis no dataset
print('quantidade de imagens:', str(len(filelist)))

quantidade de imagens: 800


In [6]:
def extract_label(file_list):
  '''função para extrair os rótulos do conjunto de dados'''
    
  # inicializando uma lista vazia
  labels = []
    
  # iterando na lista de arquivos
  for file in tqdm(file_list):
      # detectando as classes presentes no nome da imagem
      current_label = re.findall('[0-9]{4}_(.+?).png', file)
      # adicionando a lista de rótulos as classes correspondentes a cada uma das imagens
      labels.append(current_label[0])
        
  return labels

In [7]:
# extraindo os rótulos
labels = extract_label(filelist)

100%|██████████| 800/800 [00:00<00:00, 193330.44it/s]


In [8]:
# visualizando a quantidade de rótulos
print('quantidade de rótulos:', str(len(labels)))

quantidade de rótulos: 800


In [9]:
# criando um dataframe com os caminhos das imagens
full_data = pd.DataFrame(filelist, columns = ['filepath'])
# adicionando os rótulos em cada imagem
full_data['target'] = labels

In [10]:
# transformando os valores do dataframe em números reais 
dict_type = {'target': 'float32'}
full_data = full_data.astype(dict_type)

In [11]:
# separando os dados de treinamento e de teste
train_df, test_df = train_test_split(full_data, stratify = full_data['target'],
                                     test_size = 0.2, random_state = 42)

In [12]:
# separando os dados de validação dos dados de treinamento
train_df, validation_df = train_test_split(train_df, stratify = train_df['target'],
                                           test_size = 0.2, random_state = 42)

In [13]:
# visualizando a quantidade de dados
print('quantidade de imagens de treinamento:', len(train_df['filepath']))
print('quantidade de rótulos de treinamento:', len(train_df['target']))
print('quantidade de imagens de teste:', len(test_df['filepath']))
print('quantidade de rótulos de teste:', len(test_df['target']))
print('quantidade de imagens de validação:', len(validation_df['filepath']))
print('quantidade de rótulos de validação:', len(validation_df['target']))

quantidade de imagens de treinamento: 512
quantidade de rótulos de treinamento: 512
quantidade de imagens de teste: 160
quantidade de rótulos de teste: 160
quantidade de imagens de validação: 128
quantidade de rótulos de validação: 128


In [14]:
# normalizando as imagens de treinamento e aplicando aumento de dados
image_generator = ImageDataGenerator(preprocessing_function = histogram_equalization,
                                     rescale = 1./255., 
                                     rotation_range = 10, zoom_range = 0.1)

# normalizando as imagens de validação e de teste  
test_datagen = ImageDataGenerator(rescale = 1./255.)

# criando o gerador de imagens de treinamento 
train_generator = image_generator.flow_from_dataframe(
                                                      dataframe = train_df,
                                                      directory = '',
                                                      x_col = 'filepath',
                                                      y_col = 'target',
                                                      batch_size = 32,
                                                      seed = 42,
                                                      shuffle = True,
                                                      class_mode = 'raw',
                                                      color_mode = 'rgb',
                                                      target_size = (350, 350))
# criando o gerador de imagens de validação 
valid_generator = test_datagen.flow_from_dataframe(
                                                    dataframe = validation_df,
                                                    directory = '.', 
                                                    x_col = 'filepath',
                                                    y_col = 'target',
                                                    batch_size = 32,
                                                    seed = 42,
                                                    shuffle = True,
                                                    class_mode = 'raw',
                                                    target_size = (350, 350))

test_generator = test_datagen.flow_from_dataframe(
                                                  dataframe = test_df, 
                                                  directory = '.',
                                                  x_col = 'filepath',
                                                  y_col = 'target',
                                                  batch_size = 32,
                                                  seed = 42,
                                                  shuffle = True,
                                                  class_mode = 'raw',
                                                  target_size = (350, 350))

Found 512 validated image filenames.
Found 128 validated image filenames.
Found 160 validated image filenames.


## Definindo a rede neural convolucional

In [15]:
# baixando os pesos treinados da rede inception
!wget --no-check-certificate \
    https://storage.googleapis.com/mledu-datasets/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5 \
    -O /tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5

--2021-02-18 15:26:51--  https://storage.googleapis.com/mledu-datasets/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5
Resolving storage.googleapis.com (storage.googleapis.com)... 172.253.122.128, 172.253.63.128, 172.217.13.80, ...
Connecting to storage.googleapis.com (storage.googleapis.com)|172.253.122.128|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 87910968 (84M) [application/x-hdf]
Saving to: ‘/tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5’


2021-02-18 15:26:53 (42.4 MB/s) - ‘/tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5’ saved [87910968/87910968]



In [16]:
# referenciando o local em que os pesos estão armazenados
local_weights_file = '/tmp/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5'

# carregando a arquitetura inception pré-treinada
pre_trained_model = InceptionV3(input_shape = (350, 350, 3), 
                                include_top = False, 
                                weights = None)

# carregando os pesos treinados com outros dados 
pre_trained_model.load_weights(local_weights_file)

# definindo as flags iniciais  
pre_trained_model.trainable = True
set_trainable = False

# para a arquitetura inception, a rede será retreinada a partir da camada 'mixed6'
for layer in pre_trained_model.layers:
  if layer.name == 'mixed6':
    set_trainable = True
  if set_trainable:
    layer.trainable = True
  else:
    layer.trainable = False

# visualizando a arquitetura definida
pre_trained_model.summary()

# obtendo a última camada como sendo a nomeada por 'mixed7'
last_layer = pre_trained_model.get_layer('mixed7')
last_output = last_layer.output

Model: "inception_v3"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 350, 350, 3) 0                                            
__________________________________________________________________________________________________
conv2d (Conv2D)                 (None, 174, 174, 32) 864         input_1[0][0]                    
__________________________________________________________________________________________________
batch_normalization (BatchNorma (None, 174, 174, 32) 96          conv2d[0][0]                     
__________________________________________________________________________________________________
activation (Activation)         (None, 174, 174, 32) 0           batch_normalization[0][0]        
_______________________________________________________________________________________

In [17]:
# definindo uma camada de achatamento
x = layers.Flatten()(last_output)
# conecatando a rede uma camada com 1024 neurônios e função de ativação relu
x = layers.Dense(units = 1024, activation = 'relu')(x)
# aplicando uma camada de dropout com uma taxa de 20% (normalização)
x = layers.Dropout(rate = 0.2)(x)      
# conecatando a rede uma camada com 128 neurônios e função de ativação relu
x = layers.Dense(units = 128, activation = 'relu')(x)            
# adicionando uma camada de saída com um neurônio e uma função de ativação sigmoide
x = layers.Dense  (units = 1, activation = 'sigmoid')(x)           

# conecatando as camadas definidas acima com a arquitetura inception
model = Model(pre_trained_model.input, x) 

# compilando a rede 
model.compile(optimizer = RMSprop(lr = 0.0001), loss = 'binary_crossentropy', metrics = ['acc']) 

## Definindo os callbacks

In [18]:
# definindo o caminho pelo qual os pesos serão armazenados 
filepath = "transferlearning_weights.hdf5"
# callback para salvar o melhor valor dos pesos em relação ao desempenho com os dados de validação 
checkpoint = ModelCheckpoint(filepath, monitor = 'val_acc', verbose = 1, save_best_only = True, mode = 'max')
# callback para reduzir a taxa de aprendizado caso a rede estagne em seu desempenho
lr_reduce = ReduceLROnPlateau(monitor = 'val_acc', factor = 0.1, min_delta = 0.0001, patience = 5, verbose = 1)

## Treinando a rede 

In [19]:
# treinando a rede 
history = model.fit(train_generator,
                    steps_per_epoch = 512 // 32, 
                    validation_data = valid_generator,
                    validation_steps = 128 // 32,
                    epochs = 50, verbose = 1,
                    callbacks = [checkpoint, lr_reduce])

Epoch 1/50

Epoch 00001: val_acc improved from -inf to 0.79688, saving model to transferlearning_weights.hdf5
Epoch 2/50

Epoch 00002: val_acc did not improve from 0.79688
Epoch 3/50

Epoch 00003: val_acc did not improve from 0.79688
Epoch 4/50

Epoch 00004: val_acc improved from 0.79688 to 0.84375, saving model to transferlearning_weights.hdf5
Epoch 5/50

Epoch 00005: val_acc improved from 0.84375 to 0.86719, saving model to transferlearning_weights.hdf5
Epoch 6/50

Epoch 00006: val_acc did not improve from 0.86719
Epoch 7/50

Epoch 00007: val_acc did not improve from 0.86719
Epoch 8/50

Epoch 00008: val_acc did not improve from 0.86719
Epoch 9/50

Epoch 00009: val_acc did not improve from 0.86719
Epoch 10/50

Epoch 00010: val_acc did not improve from 0.86719

Epoch 00010: ReduceLROnPlateau reducing learning rate to 9.999999747378752e-06.
Epoch 11/50

Epoch 00011: val_acc did not improve from 0.86719
Epoch 12/50

Epoch 00012: val_acc did not improve from 0.86719
Epoch 13/50

Epoch 000

## Avaliando o desempenho da rede 

In [20]:
# observando a capacidade de generalização da rede com os dados de teste  
model.evaluate(test_generator)



[0.7148276567459106, 0.7749999761581421]

## Salvando o modelo

In [None]:
# salvando o modelo treinado 
model.save('inception-model')

In [22]:
# publicando o modelo treinado no google drive 
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.activity.readonly&response_type=code

Enter your authorization code:
4/1AY0e-g4XBMkBOv-TX9xTDw0GjjXeegp5O8geMgIJY34XmCzorxiY_uHCq9c
Mounted at /content/drive
