# Conjunto de Dados 1: _Montgomery County X-ray Set_
***
> Disponível em: <https://www.kaggle.com/kmader/pulmonary-chest-xray-abnormalities>. Acesso em 19 fev. 2021.

### Importação dos pacotes necessários

In [1]:
import glob
import re
from tqdm import tqdm
import urllib.request
import pandas as pd
from sklearn.model_selection import train_test_split
from keras.preprocessing.image import ImageDataGenerator

import warnings
warnings.filterwarnings("ignore")

### Baixando os dados

In [7]:
# baixando o dataset 
urllib.request.urlretrieve('https://storage.googleapis.com/kaggle-data-sets/15700/20797/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20210212%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210212T011952Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=5eacca38e85ec1b1aa31998c47098bcb8c762b1e90130d80400d96c20f19baed9ff447d160c77e6eb84a3d7723707f5baf92638c3098dab7a03fec2c9a2ce0bbb3471952cf4e1d3fb74157e5e01894112200556b3ab8542251fb4dc68b893b6cbfe749da94056bf7ce46bb7867bd3629cfe2d424d24c0af8060571ef8afb948ee76a5b5d422828afb065a17feea77c6a53a4fdd554e102ccc7859beadc604f82c73e7650ac6f69dff488d3af32419c9e70703289e02e6d49dcb7595c4a1d9dd015afe52527f54d956dcfd57d6d85fac7f3a30df250bde1dffcefc6cfa0f43514ec4867c6aa6a4781accb537d10e24dc77d79a8dc2e4715f7589aab01c23e9b15', 'datasets.zip')

In [8]:
# descompactando o dataset e removendo o arquivo compactado
!unzip datasets.zip
!rm /content/datasets.zip

### Pré-processando os dados

In [2]:
# coletando o caminho dos arquivos dos dados do hospital montgomery
filelist_montgomery = glob.glob('../datasets/archive/Montgomery/MontgomerySet/CXR_png/*.png')

In [3]:
# quantidade de imagens disponíveis no dataset
print('quantidade de imagens:', str(len(filelist_montgomery)))

quantidade de imagens: 138


In [4]:
def extract_label(file_list):
    
    # inicializando uma lista vazia
    labels = []
    
    # iterando na lista de arquivos
    for file in tqdm(file_list):
        # detectando as classes presentes no nome da imagem
        current_label = re.findall('[0-9]{4}_(.+?).png', file)
        # adicionando a lista de rótulos as classes correspondentes a cada uma das imagens
        labels.append(current_label[0])
        
    return labels

In [5]:
# extraindo os rótulos
labels = extract_label(filelist_montgomery)

100%|████████████████████████████████████████████████████████████████████████████████████████| 138/138 [00:00<?, ?it/s]


In [6]:
# visualizando a quantidade de rótulos
print('quantidade de rótulos:', str(len(labels)))

quantidade de rótulos: 138


In [8]:
# criando um dataframe com os caminhos das imagens
full_data = pd.DataFrame(filelist_montgomery, columns = ['filepath'])
# adicionando os rótulos em cada imagem
full_data['target'] = labels

In [9]:
# modificando o formato dos dados para float32
dict_type = {'target': 'float32'}
full_data = full_data.astype(dict_type)

In [10]:
# separando os dados de treinamento e de teste
train_df, test_df = train_test_split(full_data, stratify = full_data['target'],
                                     test_size = 0.2, random_state = 42)

In [11]:
# separando os dados de validação dos dados de treinamento
train_df, validation_df = train_test_split(train_df, stratify = train_df['target'],
                                           test_size = 0.2, random_state = 42)

In [12]:
# visualizando a quantidade de dados
print('quantidade de imagens de treinamento:', len(train_df['filepath']))
print('quantidade de rótulos de treinamento:', len(train_df['target']))
print('quantidade de imagens de teste:', len(test_df['filepath']))
print('quantidade de rótulos de teste:', len(test_df['target']))
print('quantidade de imagens de validação:', len(validation_df['filepath']))
print('quantidade de rótulos de validação:', len(validation_df['target']))

quantidade de imagens de treinamento: 88
quantidade de rótulos de treinamento: 88
quantidade de imagens de teste: 28
quantidade de rótulos de teste: 28
quantidade de imagens de validação: 22
quantidade de rótulos de validação: 22


### Gerados de dados para a rede pelo Tensorflow

- **Opção 1**

In [14]:
# normalizando as imagens de treinamento e aplicando aumento de dados
image_generator = ImageDataGenerator(samplewise_center = True, samplewise_std_normalization = True,
                                     rotation_range = 20, zoom_range = 0.2)

# criando o gerador de imagens de treinamento 
train_generator = image_generator.flow_from_dataframe(
                                                      dataframe = train_df,
                                                      directory = '',
                                                      x_col = 'filepath',
                                                      y_col = 'target',
                                                      batch_size = 32,
                                                      seed = 42,
                                                      shuffle = True,
                                                      class_mode = 'raw',
                                                      color_mode = 'rgb',
                                                      target_size = (256, 256))
# criando o gerador de imagens de validação 
valid_generator = image_generator.flow_from_dataframe(
                                                      dataframe = validation_df,
                                                      directory = '.', 
                                                      x_col = 'filepath',
                                                      y_col = 'target',
                                                      batch_size = 32,
                                                      seed = 42,
                                                      shuffle = True,
                                                      class_mode = 'raw',
                                                      target_size = (256, 256))

# normalizando as imagens de teste 
test_datagen = ImageDataGenerator(samplewise_center = True, samplewise_std_normalization = True)

test_generator = test_datagen.flow_from_dataframe(
                                                  dataframe = test_df, 
                                                  directory = '.',
                                                  x_col = 'filepath',
                                                  y_col = 'target',
                                                  batch_size = 32,
                                                  seed = 42,
                                                  shuffle = True,
                                                  class_mode = 'raw',
                                                  target_size = (256, 256))

Found 88 validated image filenames.
Found 22 validated image filenames.
Found 28 validated image filenames.


- **Opção 2**

In [15]:
# normalizando as imagens de treinamento e aplicando aumento de dados
image_generator = ImageDataGenerator(rescale = 1./255.,
                                     rotation_range = 20, zoom_range = 0.2)

# criando o gerador de imagens de treinamento 
train_generator = image_generator.flow_from_dataframe(
                                                      dataframe = train_df,
                                                      directory = '',
                                                      x_col = 'filepath',
                                                      y_col = 'target',
                                                      batch_size = 32,
                                                      seed = 42,
                                                      shuffle = True,
                                                      class_mode = 'raw',
                                                      color_mode = 'rgb',
                                                      target_size = (256, 256))
# criando o gerador de imagens de validação 
valid_generator = image_generator.flow_from_dataframe(
                                                      dataframe = validation_df,
                                                      directory = '.', 
                                                      x_col = 'filepath',
                                                      y_col = 'target',
                                                      batch_size = 32,
                                                      seed = 42,
                                                      shuffle = True,
                                                      class_mode = 'raw',
                                                      target_size = (256, 256))

# normalizando as imagens de teste 
test_datagen = ImageDataGenerator(rescale = 1./255.)

test_generator = test_datagen.flow_from_dataframe(
                                                  dataframe = test_df, 
                                                  directory = '.',
                                                  x_col = 'filepath',
                                                  y_col = 'target',
                                                  batch_size = 32,
                                                  seed = 42,
                                                  shuffle = True,
                                                  class_mode = 'raw',
                                                  target_size = (256, 256))

Found 88 validated image filenames.
Found 22 validated image filenames.
Found 28 validated image filenames.
