# Colon & Lung Cancer

In [2]:
from PIL import Image
import os

def examinar_imagenes(directorio_base):
    categorias = {
        'colon_image_sets/colon_aca': 'Colon ACA',
        'colon_image_sets/colon_n': 'Colon Benigno',
        'lung_image_sets/lung_aca': 'Lung ACA',
        'lung_image_sets/lung_n': 'Lung Benigno',
        'lung_image_sets/lung_scc': 'Lung SCC'
    }
    
    for path, nombre_categoria in categorias.items():
        directorio_categoria = os.path.join(directorio_base, path)
        if os.path.exists(directorio_categoria) and os.listdir(directorio_categoria):
            archivo_imagen = next(os.walk(directorio_categoria))[2][0]  # Tomamos el primer archivo
            ruta_imagen = os.path.join(directorio_categoria, archivo_imagen)
            with Image.open(ruta_imagen) as img:
                print(f"{nombre_categoria} - Imagen: {archivo_imagen} - Dimensiones: {img.size}")
        else:
            print(f"No se encontraron imágenes en la categoría: {nombre_categoria}")

directorio_base = r"C:/Users/Matias/Desktop/Tesis/long_dataset/lung_and_colon_cancer/lung_colon_image_set"
examinar_imagenes(directorio_base)

Colon ACA - Imagen: colonca1.jpeg - Dimensiones: (768, 768)
Colon Benigno - Imagen: colonn1.jpeg - Dimensiones: (768, 768)
Lung ACA - Imagen: lungaca1.jpeg - Dimensiones: (768, 768)
Lung Benigno - Imagen: lungn1.jpeg - Dimensiones: (768, 768)
Lung SCC - Imagen: lungscc1.jpeg - Dimensiones: (768, 768)


In [3]:
import shutil
import os

def consolidar_renombrar_imagenes_separadas(directorio_base, directorio_destino):
    # Creamos las subcarpetas para maligno y benigno si no existen
    directorio_adenocarcinoma = os.path.join(directorio_destino, "ACA")
    directorio_carcinoma = os.path.join(directorio_destino, "SCC")
    directorio_benigno = os.path.join(directorio_destino, "benigno")
    
    if not os.path.exists(directorio_adenocarcinoma):
        os.makedirs(directorio_adenocarcinoma)
    if not os.path.exists(directorio_carcinoma):
        os.makedirs(directorio_carcinoma)
    if not os.path.exists(directorio_benigno):
        os.makedirs(directorio_benigno)
    
    categorias = {
        'colon_image_sets/colon_aca': 'colon_ACA',
        'colon_image_sets/colon_n': 'colon_benigno',
        'lung_image_sets/lung_aca': 'lung_ACA',
        'lung_image_sets/lung_n': 'lung_benigno',
        'lung_image_sets/lung_scc': 'lung_SCC'
    }
    
    for ruta_relativa, nueva_etiqueta in categorias.items():
        # Determinamos el directorio completo de la categoría actual
        directorio_categoria = os.path.join(directorio_base, ruta_relativa)
        # Determinamos si la imagen será copiada a la carpeta maligno o benigno
        if "ACA" in nueva_etiqueta:
            directorio_destino_actual = directorio_adenocarcinoma
        elif "SCC" in nueva_etiqueta:
            directorio_destino_actual = directorio_carcinoma
        else:
            directorio_destino_actual = directorio_benigno
        
        # Iteramos sobre cada archivo en la categoría
        for archivo in os.listdir(directorio_categoria):
            # Construimos el nuevo nombre del archivo
            nuevo_nombre = f"{nueva_etiqueta}_{archivo}"
            # Construimos las rutas de origen y destino
            ruta_origen = os.path.join(directorio_categoria, archivo)
            ruta_destino = os.path.join(directorio_destino_actual, nuevo_nombre)
            # Copiamos el archivo
            shutil.copy(ruta_origen, ruta_destino)
            print(f"Copiado: {ruta_origen} a {ruta_destino}")

directorio_base = r"C:/Users/Matias/Desktop/Tesis/long_dataset/lung_and_colon_cancer/lung_colon_image_set"
directorio_destino = r"C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias"
consolidar_renombrar_imagenes_separadas(directorio_base, directorio_destino)

Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/lung_and_colon_cancer/lung_colon_image_set\colon_image_sets/colon_aca\colonca1.jpeg a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\ACA\colon_ACA_colonca1.jpeg
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/lung_and_colon_cancer/lung_colon_image_set\colon_image_sets/colon_aca\colonca10.jpeg a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\ACA\colon_ACA_colonca10.jpeg
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/lung_and_colon_cancer/lung_colon_image_set\colon_image_sets/colon_aca\colonca100.jpeg a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\ACA\colon_ACA_colonca100.jpeg
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/lung_and_colon_cancer/lung_colon_image_set\colon_image_sets/colon_aca\colonca1000.jpeg a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\ACA\colon_ACA_colonca1000.jpeg
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/lung_and_colon_cancer/lung_colon_image_set\colon_image_sets/colon_aca\colonc

# Gastrointestinal Cancer

In [4]:
import os
from PIL import Image

def explorar_imagenes(directorio_base):
    categorias = {'STRMUS': 'benigno', 'TUMSTU': 'ACA'}
    for categoria, etiqueta in categorias.items():
        ruta_categoria = os.path.join(directorio_base, categoria)
        archivo_ejemplo = next(os.walk(ruta_categoria))[2][0]  # Tomamos el primer archivo
        imagen = Image.open(os.path.join(ruta_categoria, archivo_ejemplo))
        print(f"Categoría: {etiqueta}, Imagen Ejemplo: {archivo_ejemplo}, Dimensiones: {imagen.size}")

directorio_base = r"C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original"
explorar_imagenes(directorio_base)

Categoría: benigno, Imagen Ejemplo: MUS-ELILKLPMVLSA.png, Dimensiones: (512, 512)
Categoría: ACA, Imagen Ejemplo: STU-AAAEEYIDEMCV.png, Dimensiones: (512, 512)


In [6]:
import shutil

def consolidar_imagenes(directorio_base, directorio_destino):
    categorias = {'STRMUS': 'benigno', 'TUMSTU': 'ACA'}
    for categoria, etiqueta in categorias.items():
        ruta_categoria = os.path.join(directorio_base, categoria)
        for archivo in os.listdir(ruta_categoria):
            # Extraemos el número de muestra del nombre del archivo
            numero_muestra = archivo.split('_')[-1]
            # Creamos el nuevo nombre del archivo
            nuevo_nombre = f"gastrointestinal_{etiqueta}_{numero_muestra}"
            ruta_origen = os.path.join(ruta_categoria, archivo)
            ruta_destino_final = os.path.join(directorio_destino, etiqueta, nuevo_nombre)
            # Copiamos el archivo a su nueva ubicación
            shutil.copy(ruta_origen, ruta_destino_final)
            print(f"Copiado: {ruta_origen} a {ruta_destino_final}")

directorio_destino = r"C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias"
consolidar_imagenes(directorio_base, directorio_destino)

Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-ELILKLPMVLSA.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-ELILKLPMVLSA.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-ELRHPKAYLKVA.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-ELRHPKAYLKVA.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EMCDKWAECWKK.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-EMCDKWAECWKK.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EMHENKCRGCEN.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-EMHENKCRGCEN.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EMHLKFQPEYHT.png a C:/Users/Mati

Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EVNKGPWDYLQD.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-EVNKGPWDYLQD.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EVNTTSSSYAPL.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-EVNTTSSSYAPL.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EVTWLWTWYQCP.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-EVTWLWTWYQCP.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EVYYLIFWFLRT.png a C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias\benigno\gastrointestinal_benigno_MUS-EVYYLIFWFLRT.png
Copiado: C:/Users/Matias/Desktop/Tesis/long_dataset/gastrointestinal_cancer_original\STRMUS\MUS-EWCFCKGDWRDC.png a C:/Users/Mati

# Oral Cancer


In [7]:
import os
import shutil

def procesar_imagenes(ruta_origen, ruta_destino):
    """
    Procesa las imágenes de la carpeta de origen y las mueve a la carpeta de destino,
    modificando sus nombres según las especificaciones.
    
    Parámetros:
        ruta_origen (str): Ruta de la carpeta de origen.
        ruta_destino (str): Ruta de la carpeta de destino.
    """
    for carpeta_raiz, carpetas, archivos in os.walk(ruta_origen):
        for archivo in archivos:
            # Obtener la clase de la imagen (benigno o maligno)
            clase = "benigno" if "Normal" in carpeta_raiz else "SCC"
            # Modificar el nombre del archivo
            nuevo_nombre = f"oral_{clase}_{archivo.replace('cropped_original_', '').replace('.jpg', '')}"
            # Ruta completa de origen y destino
            ruta_origen_completa = os.path.join(carpeta_raiz, archivo)
            ruta_destino_completa = os.path.join(ruta_destino, clase, nuevo_nombre)
            # Mover y renombrar la imagen
            shutil.copy(ruta_origen_completa, ruta_destino_completa)

# Rutas de origen y destino
ruta_origen = r"C:/Users/Matias/Desktop/Tesis/long_dataset/oral_cancer_original/augmentation"
ruta_destino = r"C:/Users/Matias/Desktop/Tesis/Dataset_Neoplasias"

# Crear las carpetas benigno y maligno si no existen
if not os.path.exists(os.path.join(ruta_destino, "benigno")):
    os.makedirs(os.path.join(ruta_destino, "benigno"))
if not os.path.exists(os.path.join(ruta_destino, "SCC")):
    os.makedirs(os.path.join(ruta_destino, "SCC"))

# Procesar las imágenes
procesar_imagenes(os.path.join(ruta_origen, "First Set"), ruta_destino)
procesar_imagenes(os.path.join(ruta_origen, "Second Set"), ruta_destino)

print("Proceso completado.")

Proceso completado.
