# **Procesamiento de datos**



## Creación de directorios

En la carpeta "organized" se crean otras carpetas para almacenar las imágenes (\images) y anotaciones (\notes) correspondientes que se van a usar para el entrenamiento.

Dentro de estas carpetas habrán otras que contendrán las imágenes y anotaciones crudas (\Raw) y otra para las imagenes y anotaciones ya procesadas (cropped).

In [1]:
import os
import shutil

def crear_subcarpetas(carpeta_principal, subcarpetas, subcarpeta_padre=None):
    """
    Crea subcarpetas dentro de una carpeta principal. Si se especifica una subcarpeta_padre,
    las subcarpetas se crearán dentro de esta.
    
    Parámetros:
    carpeta_principal (str): Ruta de la carpeta principal.
    subcarpetas (list): Lista de nombres de subcarpetas a crear.
    subcarpeta_padre (str): Nombre de la subcarpeta dentro de la cual se crearán nuevas subcarpetas.
    """
    # Determinar la ruta base donde se crearán las subcarpetas
    ruta_base = carpeta_principal if subcarpeta_padre is None else os.path.join(carpeta_principal, subcarpeta_padre)
    
    # Asegurar que la ruta base exista
    if not os.path.exists(ruta_base):
        os.makedirs(ruta_base)
    
    # Crear cada subcarpeta
    for subcarpeta in subcarpetas:
        os.makedirs(os.path.join(ruta_base, subcarpeta), exist_ok=True)

# Aplicación de función
carpeta_principal_2 = 'db_unal'
subcarpetas_dentro_v2 = ['images', 'notes']  # Subcarpetas a crear directamente en db_unal/organized
carpeta_principal_3 = 'db_unal/organized'
subcarpetas_dentro_v3 = ['raw', 'cropped']  # Subcarpetas a crear directamente en db_unal/organized

# Crear subcarpetas adicionales dentro de db_unal/organized
crear_subcarpetas(carpeta_principal_2, subcarpetas_dentro_v2, 'organized')
crear_subcarpetas(carpeta_principal_3, subcarpetas_dentro_v3, 'images')
crear_subcarpetas(carpeta_principal_3, subcarpetas_dentro_v3, 'notes')

## Importar los datos

Se trae el dataframe *df_actualizado.csv* que se generó en el notebook *exploracion_datos.ipynb*

In [3]:
import pandas as pd
import os

def cargar_csv_de_forma_segura(ruta_archivo):
    """
    Carga un archivo CSV en un DataFrame de pandas de manera segura.
    
    Parámetros:
    ruta_archivo (str): La ruta completa al archivo CSV que se desea cargar.
    
    Retorna:
    DataFrame: Un DataFrame de pandas con los datos cargados desde el archivo CSV.
    None: Retorna None si ocurre un error durante la carga del archivo.
    """
    # Verificar si el archivo existe
    if not os.path.exists(ruta_archivo):
        print(f"El archivo {ruta_archivo} no existe.")
        return None
    
    try:
        # Usar pandas para leer el archivo CSV
        df = pd.read_csv(ruta_archivo)
        return df
    except pd.errors.EmptyDataError:
        print("El archivo está vacío.")
    except pd.errors.ParserError:
        print("Error al parsear el archivo CSV.")
    except Exception as e:
        print(f"Error al cargar el archivo: {e}")
    
    return None

# Cargar el archivo
ruta_archivo = 'df_actualizado.csv'
df_actualizado = cargar_csv_de_forma_segura(ruta_archivo)

# Mostar dataframe
df_actualizado



Unnamed: 0,Numero paciente,TIRADS,Segmentacion,Numero,Edad,Sexo,Composicion,Ecogenicidad,Margenes,Calcificaciones
0,1_1,5.0,YES,1,,,,,,
1,1_2,5.0,YES,1,,,,,,
2,2_1,4.0,YES,2,49.0,F,solid,hyperechogenicity,well defined,non
3,3_1,4.0,YES,3,31.0,F,spongiform,isoechogenicity,well defined,microcalcifications
4,4_1,3.0,YES,4,37.0,F,spongiform,isoechogenicity,well defined,microcalcifications
...,...,...,...,...,...,...,...,...,...,...
167,146_1,3.0,YES,146,,,,,,
168,147_1,5.0,YES,147,,,,,,
169,148_1,4.0,YES,148,37.0,F,solid,hypoechogenicity,well defined,non
170,149_1,5.0,YES,149,78.0,M,,,,
