# API / Dataset KAGGLE - NIH Chest X-rays

Con la API de TCIA unicamente se podía utilizar una imagen - la referente al cáncer de pulmón.

Buscamos en el dataset de NIH o ChestX-ray14 en Kaggle y utilizo la **Kaggle CLI (Command Line Interface)** para filtrar las imágenes por enfermedad; neumonía o cáncer de pulmón.

##### IMPORTANTE
No se puede descargar el dataset completo porque son 45 GB.
La estrategia que seguiremos será interactuar con la API, filtrando las imágenes que sean de interés para el proyecto.
Para poder hacer este filtrado será necesario utilizar el archivo de metadata, donde se relacionan los nombres de las imágenes con su contenido.
Una vez tengamos la lista con los nombres de las imágenes, intentaremos llamarlas desde nuestro script a través de la API.

Kaggle es una biblioteca de Python que permite interactuar con la API de Kaggle. Permite descargar datasets, enviar resultados y gestionar archivos desde tu cuenta de Kaggle.

In [1]:
# Instalamos el paquete Kaggle directamente desde el entorno de ejecución usando pip
!pip install kaggle



Además, en la terminal es necesario ejecutar el siguiente código:
- pip install kaggle
- kaggle datasets files nih-chest-xrays/data
- kaggle datasets download nih-chest-xrays/data

NIH Chest X-rays incluye un archivo de metadatos que lista los nombres de archivos junto a las etiquetas de diagnóstico como “pneumonia” o “lung cancer”.
1. Descargamos el archivo de metadatos **(Data_Entry_2017.csv)** usando la Kaggle CLI desde la terminal, donde están las etiquetas de las imágenes.
2. Filtramos las imágenes de interés en el entorno de Jupyter Notebook.
3. Descargo únicamente las imágenes filtradas.

In [15]:
import pandas as pd # Biblioteca para trabajar con dataframes 
import os # Para interactuar con el sistema operativo. Accede a funciones para manejar archivos y directorios (crear carpetas, cambiar directorios, unir rutas de archivos).
import requests # Para descargar datos, imágenes, archivos, o enviar datos a una API a través de una URL.

# Cargamos el archivo de metadatos con las etiquetas
metadata = pd.read_csv('/Users/sarasalmon/Desktop/IRONHACK/Data_Analytics/Proyecto/Proyecto_1/Data_Entry_2017.csv')
metadata

Unnamed: 0,Image Index,Finding Labels,Follow-up #,Patient ID,Patient Age,Patient Gender,View Position,OriginalImage[Width,Height],OriginalImagePixelSpacing[x,y],Unnamed: 11
0,00000001_000.png,Cardiomegaly,0,1,58,M,PA,2682,2749,0.143,0.143,
1,00000001_001.png,Cardiomegaly|Emphysema,1,1,58,M,PA,2894,2729,0.143,0.143,
2,00000001_002.png,Cardiomegaly|Effusion,2,1,58,M,PA,2500,2048,0.168,0.168,
3,00000002_000.png,No Finding,0,2,81,M,PA,2500,2048,0.171,0.171,
4,00000003_000.png,Hernia,0,3,81,F,PA,2582,2991,0.143,0.143,
...,...,...,...,...,...,...,...,...,...,...,...,...
112115,00030801_001.png,Mass|Pneumonia,1,30801,39,M,PA,2048,2500,0.168,0.168,
112116,00030802_000.png,No Finding,0,30802,29,M,PA,2048,2500,0.168,0.168,
112117,00030803_000.png,No Finding,0,30803,42,F,PA,2048,2500,0.168,0.168,
112118,00030804_000.png,No Finding,0,30804,30,F,PA,2048,2500,0.168,0.168,


Tenemos 112.000 filas, lo que significa que tenemos 112.000 imágenes. Hay que hacer filtrado únicamente de las que nos interesan.

In [17]:
# Filtramos por enfermedad ("Pneumonia" y "Lung Cancer")
filtered_metadata = metadata[metadata['Finding Labels'].isin(['Pneumonia', 'Lung Cancer'])]
filtered_metadata

Unnamed: 0,Image Index,Finding Labels,Follow-up #,Patient ID,Patient Age,Patient Gender,View Position,OriginalImage[Width,Height],OriginalImagePixelSpacing[x,y],Unnamed: 11
279,00000061_015.png,Pneumonia,15,61,77,M,AP,3056,2544,0.139000,0.139000,
590,00000144_001.png,Pneumonia,1,144,83,M,AP,2500,2048,0.168000,0.168000,
640,00000165_001.png,Pneumonia,1,165,76,M,PA,2992,2991,0.143000,0.143000,
804,00000193_019.png,Pneumonia,19,193,55,M,AP,2500,2048,0.168000,0.168000,
902,00000218_001.png,Pneumonia,1,218,33,M,PA,2048,2500,0.171000,0.171000,
...,...,...,...,...,...,...,...,...,...,...,...,...
107205,00028924_005.png,Pneumonia,5,28924,72,F,AP,3056,2544,0.139000,0.139000,
108694,00029481_004.png,Pneumonia,4,29481,51,F,AP,3056,2544,0.139000,0.139000,
109877,00029889_000.png,Pneumonia,0,29889,44,F,PA,2021,2021,0.194311,0.194311,
110426,00030079_018.png,Pneumonia,18,30079,16,M,AP,3056,2544,0.139000,0.139000,


In [19]:
# Hacemos una lista con los nombres de archivo de las imágenes filtradas
filtered_images = filtered_metadata['Image Index'].tolist()
filtered_images

['00000061_015.png',
 '00000144_001.png',
 '00000165_001.png',
 '00000193_019.png',
 '00000218_001.png',
 '00000261_002.png',
 '00000310_001.png',
 '00000499_008.png',
 '00000583_045.png',
 '00000798_025.png',
 '00000893_000.png',
 '00000963_007.png',
 '00001018_005.png',
 '00001021_000.png',
 '00001162_000.png',
 '00001182_004.png',
 '00001247_011.png',
 '00001317_002.png',
 '00001437_019.png',
 '00001529_002.png',
 '00001529_005.png',
 '00001582_019.png',
 '00001582_021.png',
 '00001637_001.png',
 '00001749_002.png',
 '00001749_003.png',
 '00001837_002.png',
 '00001855_008.png',
 '00001906_004.png',
 '00001946_007.png',
 '00001946_024.png',
 '00001992_002.png',
 '00002052_002.png',
 '00002109_000.png',
 '00002118_009.png',
 '00002288_004.png',
 '00002360_002.png',
 '00002451_007.png',
 '00002572_006.png',
 '00003053_007.png',
 '00003064_026.png',
 '00003092_000.png',
 '00003211_000.png',
 '00003248_007.png',
 '00003426_017.png',
 '00003510_008.png',
 '00003510_009.png',
 '00003510_01

In [21]:
len(filtered_images)

322

Pasamos de 112.000 imagenes a 322 imágenes, que son las de interés para el proyecto

In [51]:
# Definimos la URL base de las carpetas donde se encuentran las imágenes en Kaggle, para poder llamarlas posteriormente
url_bases = {
    'images1': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_001/images",
    'images2': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_002/images",
    'images3': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_003/images",
    'images4': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_004/images",
    'images5': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_005/images",
    'images6': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_006/images",
    'images7': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_007/images",
    'images8': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_008/images",
    'images9': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_009/images",
    'images10': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_010/images",
    'images11': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_011/images",
    'images12': "https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_012/images",
}

# Especificamos la lista de nombres de imagen filtradas
filtered_images = ['00000061_015.png',
 '00000144_001.png',
 '00000165_001.png',
 '00000193_019.png',
 '00000218_001.png',
 '00000261_002.png',
 '00000310_001.png',
 '00000499_008.png',
 '00000583_045.png',
 '00000798_025.png',
 '00000893_000.png',
 '00000963_007.png',
 '00001018_005.png',
 '00001021_000.png',
 '00001162_000.png',
 '00001182_004.png',
 '00001247_011.png',
 '00001317_002.png',
 '00001437_019.png',
 '00001529_002.png',
 '00001529_005.png',
 '00001582_019.png',
 '00001582_021.png',
 '00001637_001.png',
 '00001749_002.png',
 '00001749_003.png',
 '00001837_002.png',
 '00001855_008.png',
 '00001906_004.png',
 '00001946_007.png',
 '00001946_024.png',
 '00001992_002.png',
 '00002052_002.png',
 '00002109_000.png',
 '00002118_009.png',
 '00002288_004.png',
 '00002360_002.png',
 '00002451_007.png',
 '00002572_006.png',
 '00003053_007.png',
 '00003064_026.png',
 '00003092_000.png',
 '00003211_000.png',
 '00003248_007.png',
 '00003426_017.png',
 '00003510_008.png',
 '00003510_009.png',
 '00003510_010.png',
 '00003523_011.png',
 '00003528_043.png',
 '00003535_025.png',
 '00003640_004.png',
 '00003950_002.png',
 '00003973_007.png',
 '00004344_002.png',
 '00004893_027.png',
 '00004893_070.png',
 '00005032_000.png',
 '00005069_001.png',
 '00005138_009.png',
 '00005274_011.png',
 '00005567_017.png',
 '00005567_025.png',
 '00005638_000.png',
 '00005639_003.png',
 '00005673_003.png',
 '00005778_001.png',
 '00005892_001.png',
 '00005963_025.png',
 '00006260_001.png',
 '00006289_005.png',
 '00006296_032.png',
 '00006490_006.png',
 '00006717_007.png',
 '00006759_001.png',
 '00006832_001.png',
 '00006966_004.png',
 '00006985_002.png',
 '00006997_000.png',
 '00007191_001.png',
 '00007444_003.png',
 '00007624_024.png',
 '00007699_003.png',
 '00007735_018.png',
 '00007787_001.png',
 '00007992_006.png',
 '00008362_013.png',
 '00008397_016.png',
 '00008401_006.png',
 '00008470_008.png',
 '00008727_009.png',
 '00008745_034.png',
 '00009048_002.png',
 '00009081_000.png',
 '00009229_003.png',
 '00009305_002.png',
 '00009323_005.png',
 '00009798_016.png',
 '00009863_058.png',
 '00009863_059.png',
 '00009903_000.png',
 '00010334_010.png',
 '00010375_000.png',
 '00010375_001.png',
 '00010384_035.png',
 '00010505_018.png',
 '00010509_003.png',
 '00010531_012.png',
 '00010531_073.png',
 '00010544_000.png',
 '00010544_007.png',
 '00010544_029.png',
 '00010586_000.png',
 '00010693_012.png',
 '00010761_002.png',
 '00010773_017.png',
 '00010805_042.png',
 '00011147_000.png',
 '00011188_002.png',
 '00011386_000.png',
 '00011391_006.png',
 '00011472_001.png',
 '00011514_015.png',
 '00011553_006.png',
 '00011553_007.png',
 '00011553_045.png',
 '00011702_043.png',
 '00011842_002.png',
 '00011882_000.png',
 '00011966_006.png',
 '00011966_007.png',
 '00011973_015.png',
 '00012094_009.png',
 '00012094_011.png',
 '00012158_021.png',
 '00012158_025.png',
 '00012297_004.png',
 '00012667_000.png',
 '00012733_000.png',
 '00012761_007.png',
 '00012777_005.png',
 '00012834_085.png',
 '00013070_000.png',
 '00013272_005.png',
 '00013304_002.png',
 '00013447_012.png',
 '00013611_001.png',
 '00013615_004.png',
 '00013615_024.png',
 '00013615_053.png',
 '00013625_069.png',
 '00013641_048.png',
 '00013662_005.png',
 '00013678_006.png',
 '00013779_000.png',
 '00013818_000.png',
 '00013930_001.png',
 '00013992_005.png',
 '00013993_046.png',
 '00013997_000.png',
 '00014022_102.png',
 '00014072_002.png',
 '00014201_008.png',
 '00014234_000.png',
 '00014294_011.png',
 '00014393_007.png',
 '00014405_001.png',
 '00014414_007.png',
 '00014436_008.png',
 '00014492_005.png',
 '00014603_006.png',
 '00014616_011.png',
 '00014647_005.png',
 '00014647_009.png',
 '00014958_001.png',
 '00015018_003.png',
 '00015273_000.png',
 '00015338_015.png',
 '00015442_000.png',
 '00015442_001.png',
 '00015605_051.png',
 '00015628_018.png',
 '00015734_000.png',
 '00015806_003.png',
 '00015809_014.png',
 '00015809_015.png',
 '00015826_036.png',
 '00015968_000.png',
 '00015977_002.png',
 '00016011_011.png',
 '00016036_001.png',
 '00016184_037.png',
 '00016205_000.png',
 '00016213_007.png',
 '00016291_015.png',
 '00016362_000.png',
 '00016425_000.png',
 '00016705_002.png',
 '00016705_003.png',
 '00016705_004.png',
 '00016778_028.png',
 '00016825_000.png',
 '00016896_012.png',
 '00016936_000.png',
 '00016972_005.png',
 '00016972_028.png',
 '00016991_002.png',
 '00017005_000.png',
 '00017138_068.png',
 '00017231_001.png',
 '00017236_034.png',
 '00017236_075.png',
 '00017254_000.png',
 '00017405_013.png',
 '00017641_003.png',
 '00017652_000.png',
 '00017659_000.png',
 '00017714_019.png',
 '00018191_003.png',
 '00018198_004.png',
 '00018237_028.png',
 '00018319_000.png',
 '00018319_001.png',
 '00018464_027.png',
 '00018525_000.png',
 '00018843_000.png',
 '00018926_001.png',
 '00018960_023.png',
 '00018996_002.png',
 '00019021_001.png',
 '00019169_001.png',
 '00019176_076.png',
 '00019275_001.png',
 '00019275_002.png',
 '00019707_017.png',
 '00019750_031.png',
 '00019770_000.png',
 '00019865_013.png',
 '00019894_038.png',
 '00019895_002.png',
 '00019962_002.png',
 '00020076_002.png',
 '00020171_000.png',
 '00020405_030.png',
 '00020482_029.png',
 '00020505_022.png',
 '00020845_002.png',
 '00020928_000.png',
 '00020945_020.png',
 '00020945_021.png',
 '00021016_000.png',
 '00021127_018.png',
 '00021201_036.png',
 '00021201_037.png',
 '00021243_001.png',
 '00021369_002.png',
 '00021399_000.png',
 '00021571_000.png',
 '00021572_017.png',
 '00021584_001.png',
 '00021627_007.png',
 '00021706_004.png',
 '00021706_005.png',
 '00021710_002.png',
 '00021860_003.png',
 '00021895_001.png',
 '00022156_007.png',
 '00022156_008.png',
 '00022192_032.png',
 '00022192_038.png',
 '00022201_000.png',
 '00022329_001.png',
 '00022436_000.png',
 '00022815_043.png',
 '00022815_066.png',
 '00022877_014.png',
 '00022952_003.png',
 '00022965_004.png',
 '00025075_006.png',
 '00025383_001.png',
 '00025383_002.png',
 '00025421_001.png',
 '00025583_005.png',
 '00025607_001.png',
 '00025624_000.png',
 '00025776_000.png',
 '00025806_005.png',
 '00026085_000.png',
 '00026112_001.png',
 '00026179_003.png',
 '00026366_001.png',
 '00026374_004.png',
 '00026389_002.png',
 '00026580_000.png',
 '00026629_006.png',
 '00026729_000.png',
 '00026753_004.png',
 '00026806_000.png',
 '00026825_008.png',
 '00026883_001.png',
 '00026908_002.png',
 '00026938_000.png',
 '00027266_001.png',
 '00027320_010.png',
 '00027415_064.png',
 '00027508_001.png',
 '00027539_001.png',
 '00027648_005.png',
 '00027775_004.png',
 '00027784_007.png',
 '00028076_000.png',
 '00028173_010.png',
 '00028301_000.png',
 '00028457_010.png',
 '00028764_002.png',
 '00028873_017.png',
 '00028874_003.png',
 '00028924_005.png',
 '00029481_004.png',
 '00029889_000.png',
 '00030079_018.png',
 '00030621_002.png']  

In [55]:
# Función para determinar la carpeta de cada imagen dentro de Kaggle
def get_folder(image_name):
    img_number = int(image_name.split('_')[0])  
    # Convertimos la imagen en un entero y quitamos todo lo que esté antes del _ para poder quedarnos con el número
    # Definimos los rangos para las carpetas
    if 1 <= img_number <= 1335:  # Rango para 'images1'
        return 'images1/'
    elif 1336 <= img_number <= 3922:  # Rango para 'images2'
        return 'images2/'
    elif 3923 <= img_number <= 6584:  # Rango para 'images3'
        return 'images3/'
    elif 6585 <= img_number <= 9232:  # Rango para 'images4'
        return 'images4/'
    elif 9233 <= img_number <= 11558:  # Rango para 'images5'
        return 'images5/'
    elif 11559 <= img_number <= 13773:  # Rango para 'images6'
        return 'images6/'
    elif 13774 <= img_number <= 16050:  # Rango para 'images7'
        return 'images7/'
    elif 16051 <= img_number <= 18386:  # Rango para 'images8'
        return 'images8/'
    elif 18387 <= img_number <= 20944:  # Rango para 'images9'
        return 'images9/'
    elif 20945 <= img_number <= 24717:  # Rango para 'images10'
        return 'images10/'
    elif 24718 <= img_number <= 28173:  # Rango para 'images11'
        return 'images11/'
    elif 28174 <= img_number <= 35256:  # Rango para 'images12'
        return 'images12/'
    else:
        print(f"No se encontró carpeta para {image_name}.")
        return None  # Devolver None si no se encuentra carpeta

In [53]:
# Creamos la carpeta para guardar las imágenes que nos descargaremos
os.makedirs("filtered_images", exist_ok=True) 

In [61]:
# Descargamos solo las imágenes filtradas

# Especificamos la carpeta de cada imagen de las imagenes filtradas:

for img_name in filtered_images:

    # Obtenemos la carpeta correcta
    folder = get_folder(img_name)  

    # Verificamos si se encontró una carpeta válida
    if folder:  
        # # Formamos la URL completa e imprimimos dicha URL para verificar que es la correcta
        img_url = f"{url_bases}{folder}{img_name}"  
        print(f"Intentando descargar: {img_url}") 

        # Error handling por si ocurre algún problema durante la descarga, o con la carpeta
        try:
            # Intentamos descargar la imagen con la URL especificada
            response = requests.get(img_url) 
             # Lanzamos un error si la descarga falla
            response.raise_for_status() 

            # Guardamos la imagen
            # Abre un archivo para escribir ('wb' indica escritura en modo binario) en el directorio filtered_images
            # os.path.join se usa para asegurar que la ruta sea válida en cualquier sistema operativo.
            with open(os.path.join('filtered_images', img_name), 'wb') as img_file:
                # Este paso guarda la imagen en el sistema
                img_file.write(response.content) # Escribe el contenido binario de la imagen (almacenado en response.content) en el archivo
                print(f"Descargada: {img_name}")

        except requests.HTTPError as e:
            print(f"Error al descargar {img_name}: {e}")
        except Exception as e:
            print(f"Error inesperado al descargar {img_name}: {e}")
    else:
        print(f"No se pudo determinar la carpeta para {img_name}")

print("Descarga completada.")

Intentando descargar: {'images1': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_001/images', 'images2': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_002/images', 'images3': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_003/images', 'images4': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_004/images', 'images5': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_005/images', 'images6': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_006/images', 'images7': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_007/images', 'images8': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_008/images', 'images9': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_009/images', 'images10': 'https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_010/images', 'image

###### Output: Error al descargar 00000061_015.png: 403 Client Error: Forbidden for url: https://storage.googleapis.com/kagglesdsdata/datasets/5839/18613/images_001/images/00000001_000.png

#### Conclusión: No podemos extraer / descargar las imágenes directamente llamandolas desde Python si no tenemos el dataset completo descargado por temas de permisos. 
##### Posible solución: Con ayuda de un disco duro externo, descargar el dataset completo que ofrece la API y descargar las imágenes. 
##### Estrategia: Seguir buscando fuentes de información con imágenes clínicas para alimentar nuestro modelo. Además, llegamos a la conclusión de que para poder investigar el cáncer de pulmón, lo mejor es hacerlo con imágenes de TAC en vez de RX.