# Geração do dataset
O dataset gerado por este scrip está separado em treino/teste e organizado por classes, pronto para ser utilizado como generator do Tensorflow.
Foi criado uma classe Dataset, de onde cada dataset herda uma classe específica. Ex.: o dataset "covid-chestxray-dataset (<https://github.com/ieee8023/covid-chestxray-dataset>)" é instanciado pela classe *cohen()*.

O pipeline de processamento é:<br>
1 - import das bibliotecas<br>
2 - instanciação dos objetos de cada dataset<br>
3 - Rotina de leitura de cada dataset, aplicando as devidas funções<br>
Obs.: nem todos os datasets possuem funções de prefiltragem/posfiltragem. Essas funções foram definidas conforme o processamento feito em <https://github.com/lindawangg/COVID-Net><br>
4 - Junção das tabelas de cada ds em uma só (com excessão do RSNA)<br>
5.1a - Filtragem das classes de interesse na tabela de imagens<br>
5.1b - Separação de imagens específicas para teste, conforme <https://github.com/lindawangg/COVID-Net><br>
5.2a - Filtragem das classes de interesse na tabela do RSNA<br>
5.2b - Aplica *split* no dataset RSNA<br>
6 - Junta as tabelas de treino e teste<br>
7 - Monta o dataset no path destino, copiando as imagens que já estão em formato de leitura e escrevendo as imagens em ```.dcm```<br>
<br>
Obs.: as estapas 3 e 7 podem demorar consideravelmente devido ao dataset RSNA que possui mais de 15k imagens. A fim de verificar a validade do script recomenda-se rodá-lo sem este dataset.<br>
<br>
As tables ou tabelas referidas nesse script são listas de dicionário do tipo \[{"path": target_path, "filename": filename, "class": finding, "url": url, "id": patientid}\], onde:<br>
- target_path = localização da imagem dentro do diretorio do dataset;<br>
- filename = nome do arquivo, presente no dataset;<br>
- class = classe de classificação da imagem. Ex.: Normal, COVID-19, etc;<br>
- url = URL da imagem, usado para detecção de imagens presentes simultaneamente em dois ou mais datasets. Se não há "url" no dataset, o valor None é preenchido na tabela;<br>
- patientid = utilizado para busca rapida de alguns paciente. Se não há "patientid" no dataset, o nome do arquivo sem extensão é utilizado.<br>



## IMPORT DA LIBS E FUNÇÕES

In [None]:
import numpy as np
import pandas as pd
import os
import random 
import pydicom as dicom
import cv2

In [None]:
from datasets import rsna, actualmed, cohen, fig1, sirm
from ds_utils import mount_dataset, filter_table, split_table, table_info, remove_dupl_field

## CONSTROI OS OBJ DE CADA DS

In [None]:
datasets_path = os.path.join(os.getcwd(), "datasets")

cohen = cohen(datasets_path)
rsna = rsna(datasets_path)
actualmed = actualmed(datasets_path)
fig1 = fig1(datasets_path)
sirm = sirm(datasets_path)

## LE CADA DS E CONSTROI SUA TABELA APLICANDO AS FUNCOES NECESSARIAS

In [None]:
datasets = [cohen, actualmed, fig1, sirm, rsna]
for ds in datasets:
    ds.read()
    ds.prefilter()
    ds.mount_table()
    ds.postfilter()
    ds.mount_count_table()
    if ds.__name__ is sirm.__name__:
        remove_dupl_field(sirm, cohen, "url")

## JUNTA AS TABELAS EM UMA SÓ

In [None]:
target_ds = [cohen, actualmed, fig1, sirm]
file_table = []
for ds in target_ds:
    print(f"Dataset: {ds.__name__.upper()}")
    print("-----------------------------------------")
    print(f"Imagens: {ds.count}")
    print(f"Contagem de cada classe por dataset: {ds.count_table}\n")
    file_table += ds.table

print(f"Total de imagens: {len(file_table)}")

## FILTRA A TABELA PARA USO APENAS DAS CLASSES DE INTERESSE
Se general_case="remove":<br>
    - Se a classe da imagen não está em mapping, a imagem é removida da table<br>
Se general_case="subst":<br>
    - Se a classe da imagen não está em mapping, a classe da imagem é modificada para o valor em "std_subst"<br>
        Para este caso é possível passar uma lista ```remove_classes```, assim a classe não presente em mapping será substituída no caso padrão mas será removida da table se estiver presente na lista. <br>
        Ex.:<br>
        - class = "blabla" será atribuída o valor de mapping["std_subst"]<br>
        - class = "todo" terá a imagem removida da tabela<br>

In [None]:
mapping = {"COVID-19": "COVID-19",
           "COVID-19, ARDS": "COVID-19",
           "Normal": "Normal",
           "Pneumonia": "Pneumonia", # OBS.: Linda ignora essa classe
           "SARS": "Pneumonia",
           "MERS": "Pneumonia",
           "Streptococcus": "Pneumonia",
           "Klebsiella": "Pneumonia",
           "Chlamydophila": "Pneumonia",
           "Legionella": "Pneumonia",
           "Lung Opacity": "Pneumonia",
           "1": "Pneumonia",
           "std_subst": "Non-COVID"}
# remove_classes = ["todo", "nan", "Unknown"]

filtered_table = filter_table(file_table, mapping, general_case="remove")
table_info(filtered_table)

## SEPARAÇÃO DE TESTES PARA COHEN, FIG1, ACTUALMED E SIRM

In [None]:
test_patients = {"Pneumonia": ['8', '31'],
                 "COVID-19": ['19', '20', '36', '42', '86', 
                              '94', '97', '117', '132', 
                              '138', '144', '150', '163', '169', '174', '175', '179', '190', '191',
                              'COVID-00024', 'COVID-00025', 'COVID-00026', 'COVID-00027', 'COVID-00029',
                              'COVID-00030', 'COVID-00032', 'COVID-00033', 'COVID-00035', 'COVID-00036',
                              'COVID-00037', 'COVID-00038',
                              'ANON24', 'ANON45', 'ANON126', 'ANON106', 'ANON67',
                              'ANON153', 'ANON135', 'ANON44', 'ANON29', 'ANON201', 
                              'ANON191', 'ANON234', 'ANON110', 'ANON112', 'ANON73', 
                              'ANON220', 'ANON189', 'ANON30', 'ANON53', 'ANON46',
                              'ANON218', 'ANON240', 'ANON100', 'ANON237', 'ANON158',
                              'ANON174', 'ANON19', 'ANON195',
                              'COVID-19(119)', 'COVID-19(87)', 'COVID-19(70)', 'COVID-19(94)', 
                              'COVID-19(215)', 'COVID-19(77)', 'COVID-19(213)', 'COVID-19(81)', 
                              'COVID-19(216)', 'COVID-19(72)', 'COVID-19(106)', 'COVID-19(131)', 
                              'COVID-19(107)', 'COVID-19(116)', 'COVID-19(95)', 'COVID-19(214)', 
                              'COVID-19(129)']}

test_table = []
train_table = []
for row in filtered_table:
    if row["class"] in test_patients and row["id"] in test_patients[row["class"]]:
        test_table.append(row)
    else:
        train_table.append(row)
    
print(f"\nTRAIN:\n-------------------")
table_info(train_table)
print(f"\nTEST:\n-------------------")
table_info(test_table)

## FILTRAGEM DAS CLASSES DE INTERESSE DO RSNA

In [None]:
rsna_filtered_table = filter_table(rsna.table, mapping, general_case="remove")
table_info(rsna_filtered_table)

## SEPARAÇÃO DE TESTES RSNA

In [None]:
split = 0.2
rsna_train, rsna_test = split_table(rsna_filtered_table, split)
print(f"\nTRAIN:\n-------------------")
table_info(rsna_train)
print(f"\nTEST:\n-------------------")
table_info(rsna_test)

## JUNTA AS TABLES DE TESTE E TREINO

In [None]:
train_table += rsna_train
test_table += rsna_test

print(f"\nTRAIN:\n-------------------")
table_info(train_table)
print(f"\nTEST:\n-------------------")
table_info(test_table)

## MONTA O DATASET COPIANDO OS ARQUIVOS DA TABLE (SEPARADOS POR CLASSE)

In [None]:
dst_path = "./target_dataset"
if not os.path.isdir(dst_path):
    os.mkdir(dst_path)
train_path = os.path.join(dst_path, "train")
test_path = os.path.join(dst_path, "test")

print(f"\nTRAIN:\n-------------------")
mount_dataset(train_path, train_table)
print(f"\n\TEST:\n-------------------")
mount_dataset(test_path, test_table)