# Comprobación estructura archivo .csv

In [10]:
import os
import pandas as pd

# Ruta del archivo CSV
csv_train = "PAD-UFES-20/metadata.csv"

# Cargar los datos
df_train = pd.read_csv(csv_train)

# Mostrar algunas filas
print(df_train.head())

# Esto te permitirá ver cómo están organizadas las etiquetas. 
# Normalmente, el CSV tendrá columnas como "image_name" (nombre del archivo de la imagen) 
# y "label" (la clase a la que pertenece la imagen).

  patient_id  lesion_id  smoke  drink background_father background_mother  \
0   PAT_1516       1765    NaN    NaN               NaN               NaN   
1     PAT_46        881  False  False         POMERANIA         POMERANIA   
2   PAT_1545       1867    NaN    NaN               NaN               NaN   
3   PAT_1989       4061    NaN    NaN               NaN               NaN   
4    PAT_684       1302  False   True         POMERANIA         POMERANIA   

   age pesticide  gender skin_cancer_history  ... diameter_2 diagnostic  \
0    8       NaN     NaN                 NaN  ...        NaN        NEV   
1   55     False  FEMALE                True  ...        5.0        BCC   
2   77       NaN     NaN                 NaN  ...        NaN        ACK   
3   75       NaN     NaN                 NaN  ...        NaN        ACK   
4   79     False    MALE                True  ...        5.0        BCC   

    itch   grew   hurt  changed  bleed elevation                 img_id  \
0  False  F

# Clasificación por carpetas según patología

In [11]:
import os
import shutil
import pandas as pd
import re

# Ruta donde están las imágenes originales
carpeta_imagenes = 'PAD-UFES-20'  # <-- cambia esta ruta

# Cargar el CSV que contiene el nombre de archivo e información de diagnóstico
df = pd.read_csv('PAD-UFES-20/metadata.csv')  # <-- cambia esta ruta

# Reemplazar valores nulos por 'unknown'
df['diagnostic'] = df['diagnostic'].fillna('unknown')

# Función para limpiar nombres de carpeta
def limpiar_nombre(nombre):
    return re.sub(r'[^\w\-_. ]', '_', str(nombre).strip())

# Ruta de salida
output_folder = 'imagenes_clasificadas_PAD-UFES-20'

# Crear carpeta base si no existe
os.makedirs(output_folder, exist_ok=True)

# Procesar cada imagen
for _, fila in df.iterrows():
    nombre_archivo = fila['img_id']  # <-- columna con el nombre del archivo de imagen
    categoria = limpiar_nombre(fila['diagnostic'])

    carpeta_destino = os.path.join(output_folder, categoria)
    os.makedirs(carpeta_destino, exist_ok=True)

    ruta_origen = os.path.join(carpeta_imagenes, nombre_archivo)
    ruta_destino = os.path.join(carpeta_destino, nombre_archivo)

    try:
        shutil.copy2(ruta_origen, ruta_destino)
        print(f"Copiada: {nombre_archivo} → {categoria}")
    except FileNotFoundError:
        print(f"❌ Archivo no encontrado: {ruta_origen}")


Copiada: PAT_1516_1765_530.png → NEV
Copiada: PAT_46_881_939.png → BCC
Copiada: PAT_1545_1867_547.png → ACK
Copiada: PAT_1989_4061_934.png → ACK
Copiada: PAT_684_1302_588.png → BCC
Copiada: PAT_1549_1882_230.png → SEK
Copiada: PAT_778_1471_835.png → BCC
Copiada: PAT_117_179_983.png → BCC
Copiada: PAT_1995_4080_695.png → ACK
Copiada: PAT_705_4015_413.png → ACK
Copiada: PAT_2140_4726_141.png → ACK
Copiada: PAT_967_1827_247.png → BCC
Copiada: PAT_2088_4524_465.png → NEV
Copiada: PAT_636_1204_521.png → BCC
Copiada: PAT_38_54_234.png → BCC
Copiada: PAT_741_1401_619.png → BCC
Copiada: PAT_380_1540_959.png → SCC
Copiada: PAT_1783_3414_120.png → SEK
Copiada: PAT_759_1538_566.png → BCC
Copiada: PAT_821_1547_77.png → BCC
Copiada: PAT_1693_3103_879.png → ACK
Copiada: PAT_875_1668_588.png → BCC
Copiada: PAT_1653_2916_346.png → SEK
Copiada: PAT_1790_3425_942.png → SEK
Copiada: PAT_106_159_325.png → BCC
Copiada: PAT_435_854_68.png → BCC
Copiada: PAT_1902_3790_168.png → SEK
Copiada: PAT_42_58_13.png 