# Conjunto de Dados 1: *Montgomery Dataset*
***
* Disponível em: <https://www.kaggle.com/kmader/pulmonary-chest-xray-abnormalities>. Acesso em 19 fev. 2021.

As imagens de raios-X neste conjunto de dados foram adquiridas do programa de controle da tuberculose do Departamento de Saúde e Serviços Humanos do Condado de Montgomery, MD, EUA. Esse conjunto de dados contém 138 radiografias póstero-anterior, das quais 80 são radiografias normais e 58 são anormais com manifestações de tuberculose. Todas as imagens são desidentificadas e disponíveis no formato DICOM (Digital Imaging and Communications in Medicine). O conjunto cobre uma ampla gama de anormalidades, incluindo efusões e padrões miliares. O conjunto de dados inclui leituras de radiologia disponíveis como um arquivo de texto, mantendo a identidade do paciente preservada por motivos éticos e legais (JAEGER et al., 2013).

# Conjunto de Dados 2: *Shenzhen Dataset*
***
* Disponível em: <https://www.kaggle.com/kmader/pulmonary-chest-xray-abnormalities>. Acesso em 19 fev. 2021.

O banco de dados de imagem digital padrão para tuberculose foi criado pela Biblioteca Nacional de Medicina, Maryland, EUA, em colaboração com o Hospital Popular de Shenzhen No.3, Faculdade de Medicina de Guangdong, Shenzhen, China. As radiografias de tórax são de clínicas ambulatoriais e foram capturadas como parte da rotina diária usando os sistemas Philips DR Digital Diagnose. O conjunto de dados contém 336 casos com manifestação de tuberculose e 326 casos normais (CANDEMIRet al., 2013).

# Conjunto de Dados 3: *VinBigData Dataset*
***
* Disponível em: <https://www.kaggle.com/awsaf49/vinbigdata-original-image-dataset>. Acesso em 24 fev. 2021.

O conjunto de dados coletados do Instituto VinBigdata, compreende 18.000 varreduras CXR póstero-anterior (PA) em formato DICOM (convertidas para imagens .jpg), cujas identificações foram removidas para proteger a privacidade dos pacientes. Todas as imagens foram marcadas por um painel de radiologistas experientes quanto à presença de 14 achados radiográficos críticos. 

# Conjunto de Dados 4: *NIH Dataset*
***
* Disponível em: <https://nihcc.app.box.com/v/ChestXray-NIHCC/folder/36938765345>. Acesso em 19 fev. 2021.

O conjunto de dados compreende 112.120 imagens de raios-X de visão frontal com quatorze rótulos relacionados a distúrbios pulmonares, extraídos dos relatórios radiológicos associados usando processamento de linguagem natural. Quatorze patologias torácicas comuns incluem Atelectasia, Consolidação, Infiltração, Pneumotórax, Edema, Enfisema, Fibrose, Efusão, Pneumonia, Espessamento Pleural, Cardiomegalia, Nódulo, Massa e Hérnia, que é uma extensão dos 8 padrões de doença comuns listados no artigo CVPR 2017 (WANG et al., 2017).

# Conjunto de Dados 5: *CheXpert  Dataset*
***
- Disponível em: <https://www.kaggle.com/ashery/chexpert/discussion>. Acesso em 06 nov. 2021.

CheXpert é um conjunto de imagens públicas de radiografias de tórax feita para competições na área de interpretação automatizada das radiografias torácicas. As imagens consistem em 224.316 radiografias de toráx provenientes de 65.240 pacientes. Tais dados foram coletados de exames radiográficos de tórax do \textit{Stanford Hospital} realizados entre outubro de 2002 e julho de 2017, tanto em centros de internação quanto em ambulatórios. Como o foco do trabalho é a localização do pulmão em radiografias frontais, amostras com projeção lateral foram removidas. Além disso, apenas foram consideradas radiografias ântero-posteriores e póstero-anteriores (IRVIN et al., 20219).

# Baixando os Conjuntos de Dados
***

In [None]:
from google.colab import drive 
import tarfile

In [None]:
!cp -r /content/gdrive/MyDrive/datasets/chexpert-v10-small.zip /content/
!unzip /content/chexpert-v10-small.zip
!rm /content/chexpert-v10-small.zip

In [None]:
!cp -r /content/gdrive/MyDrive/datasets/montglomery-shenzhen-datasets.zip /content/
!unzip /content/montglomery-shenzhen-datasets.zip
!rm /content/montglomery-shenzhen-datasets.zip

In [None]:
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_01.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_02.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_03.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_04.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_05.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_06.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_07.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_08.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_09.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_10.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_11.tar.gz /content/
!cp -r /content/gdrive/MyDrive/datasets/nih-files/images_12.tar.gz /content/

tarfile.open('/content/images_01.tar.gz').extractall('/content/file01')
tarfile.open('/content/images_02.tar.gz').extractall('/content/file02')
tarfile.open('/content/images_03.tar.gz').extractall('/content/file03')
tarfile.open('/content/images_04.tar.gz').extractall('/content/file04')
tarfile.open('/content/images_05.tar.gz').extractall('/content/file05')
tarfile.open('/content/images_06.tar.gz').extractall('/content/file06')
tarfile.open('/content/images_07.tar.gz').extractall('/content/file07')
tarfile.open('/content/images_08.tar.gz').extractall('/content/file08')
tarfile.open('/content/images_09.tar.gz').extractall('/content/file09')
tarfile.open('/content/images_10.tar.gz').extractall('/content/file10')
tarfile.open('/content/images_11.tar.gz').extractall('/content/file11')
tarfile.open('/content/images_12.tar.gz').extractall('/content/file12')

In [None]:
!cp -r /content/gdrive/MyDrive/datasets/vinbigdata-dataset.zip /content/
!unzip /content/vinbigdata-dataset.zip
!rm /content/vinbigdata-dataset.zip

# Referências Bibliográficas
***
- JAEGER, S. et al. Automatic tuberculosis screening using chest radiographs. IEEE transactions on medical imaging, IEEE, v. 33, n. 2, p. 233–245, 2013.
- CANDEMIR, S. et al. Lung segmentation in chest radiographs using anatomical atlases with non rigid registration. IEEE transactions on medical imaging, IEEE, v. 33, n. 2, p.577–590, 2013.
- Ha Q. Nguyen, Khanh Lam, Linh T. Le, Hieu H. Pham, Dat Q. Tran, Dung B. Nguyen, Dung D. Le, Chi M. Pham, Hang T. T. Tong, Diep H. Dinh, Cuong D. Do, Luu T. Doan, Cuong N. Nguyen, Binh T. Nguyen, Que V. Nguyen, Au D. Hoang, Hien N. Phan, Anh T. Nguyen, Phuong H. Ho, Dat T. Ngo, Nghia T. Nguyen, Nhan T. Nguyen, Minh Dao, & Van Vu. (2021). VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations.
- WANG, X. et al. Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In:IEEE CVPR.[S.l.: s.n.], 2017. p. 3462–3471.
- IRVIN, Jeremy et al. Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison. In: Proceedings of the AAAI conference on artificial intelligence. 2019. p. 590-597.