In [3]:
import pandas as pd
import os
from sklearn.model_selection import train_test_split

# Leer el dataset original
dataset_path = 'raw_data\Data_Entry_2017_v2020.csv'  # Ruta del dataset original
# base_dir = 'Imagenes_medicas'  # Ruta base para las imágenes

# Usar las columnas necesarias (Image Index y Finding Labels)
usecols = ['Image Index', 'Finding Labels']
df = pd.read_csv(dataset_path, delimiter=',', usecols=usecols)

# Listado de todas las posibles enfermedades
all_labels = [
    'Cardiomegaly', 'Emphysema', 'Effusion', 'Hernia', 'Infiltration',
    'Mass', 'Nodule', 'Atelectasis', 'Pneumothorax', 'Pleural_Thickening',
    'Pneumonia', 'Fibrosis', 'Edema', 'Consolidation', 'No Finding'
]

# Crear nuevas columnas en el dataframe para cada etiqueta de enfermedad
for label in all_labels:
    df[label] = 0

# Rellenar las columnas con 1 si la enfermedad está presente
for index, row in df.iterrows():
    labels = row['Finding Labels'].split('|')
    for label in labels:
        df.at[index, label] = 1

# Eliminar la columna 'No Finding' ya que no es una enfermedad
df = df.drop(columns=['No Finding'])

# Obtener el PatientId a partir del nombre de la imagen
df['PatientId'] = df['Image Index'].apply(lambda x: int(x.split('_')[0]))

# Ordenar las columnas en el formato deseado
columns_order = ['Image Index', 'PatientId'] + [label for label in all_labels if label != 'No Finding']
df = df[columns_order]

# Renombrar la columna 'Image Index' a 'Image'
df = df.rename(columns={'Image Index': 'Image'})

# Dividir el dataset en train, valid y test
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)
train_df, valid_df = train_test_split(train_df, test_size=0.25, random_state=42)  # 0.25 * 0.8 = 0.2

if not os.path.isdir('divided_data'):
    os.mkdir('divided_data')

# Guardar los dataframes en nuevos archivos CSV
train_df.to_csv('divided_data/train-small.csv', index=False)
valid_df.to_csv('divided_data/valid-small.csv', index=False)
test_df.to_csv('divided_data/test.csv', index=False)

print("Archivos guardados:")
print("train-small.csv")
print("valid-small.csv")
print("test.csv")

Archivos guardados:
train-small.csv
valid-small.csv
test.csv
