In [1]:
import os
import numpy as np
import matplotlib.pyplot as plt
import cv2
import pandas as pd
import matplotlib.colors as mcolors
import shutil
import random
from tqdm import tqdm
from skimage.transform import resize
from skimage.metrics import structural_similarity as ssim

In [2]:
def combinar_imagenes(imagenes_seleccionadas):
    # Asegurarse de que tenemos al menos una imagen
    if len(imagenes_seleccionadas) > 0:
        # Convertir imagenes_seleccionadas a una matriz numpy
        imagenes_seleccionadas = np.array(imagenes_seleccionadas)
        
        # Verificar que tengamos al menos 4 imágenes seleccionadas
        if imagenes_seleccionadas.shape[0] >= 4:
            # Crear un array para almacenar las imágenes reorganizadas
            imagenes_reorganizadas = np.zeros((1440,1440), dtype=np.uint8)
            
            # Iterar sobre cada imagen y colocarla en su posición deseada
            for i, img in enumerate(imagenes_seleccionadas[:4]):
                if i == 0:  # Parte superior izquierda
                    imagenes_reorganizadas[:720, :720] = img.astype(np.uint8)
                elif i == 1:  # Parte superior derecha
                    imagenes_reorganizadas[:720, 720:] = img.astype(np.uint8)
                elif i == 2:  # Parte inferior izquierda
                    imagenes_reorganizadas[720:, :720] = img.astype(np.uint8)
                elif i == 3:  # Parte inferior derecha
                    imagenes_reorganizadas[720:, 720:] = img.astype(np.uint8)
    
            return imagenes_reorganizadas
        else:
            print("Error: Se requieren al menos 4 imágenes seleccionadas.")
    else:
        print("Error: No se han seleccionado imágenes.")
    print(imagenes_reorganizadas.shape)
    
# Ejemplo de uso
# Suponiendo que tienes una lista de imágenes llamada imagenes_seleccionadas
# Llamamos a la función con esta lista de imágenes
# resultado = combinar_imagenes(imagenes_seleccionadas)

In [3]:
def seleccionar_imagenes(columna, filas_mismo_study_uid, pathNumpy, numImagenes):
    # Inicializar las imágenes seleccionadas con imágenes en negro de tamaño 720x720
    imagenes_seleccionadas = np.zeros((numImagenes, 4, 720, 720), dtype=np.uint8)
    indice_imagen_cargada = 0
    for i, row in filas_mismo_study_uid.iterrows():
        view = row["View"]
        nombre = f"{view}-{i}.npy"
        ruta = os.path.join(f"{pathNumpy}/{columna}", nombre)
        ##print(ruta)
        if os.path.exists(ruta):
            imagen_cargada = np.load(ruta)
            for j in range(numImagenes):
                # Calcular el índice de la imagen en imagen_cargada
                indice_imagen = j * (imagen_cargada.shape[0] // numImagenes)
                
                # Verificar si el índice es válido
                if indice_imagen < imagen_cargada.shape[0]:
                    if view == 'lcc':
                        imagenes_seleccionadas[j, 0] = imagen_cargada[indice_imagen, :, :, 1]
                    elif view == 'rcc':
                        imagenes_seleccionadas[j, 1] = imagen_cargada[indice_imagen, :, :, 1]
                    elif view == 'lmlo':
                        imagenes_seleccionadas[j, 2] = imagen_cargada[indice_imagen, :, :, 1]
                    elif view == 'rmlo':
                        imagenes_seleccionadas[j, 3] = imagen_cargada[indice_imagen, :, :, 1]
                
    return imagenes_seleccionadas

In [4]:
def obtener_columna(fila):
    # Verificar el valor de cada columna y asignar el nombre correspondiente a las variables
    columna = None
    if fila["Normal"] == 1:
        columna = "/Normal"
    elif fila["Actionable"] == 1:
        columna = "/Actionable"
    elif fila["Benign"] == 1:
        columna = "/Benign"
    elif fila["Cancer"] == 1:
        columna = "/Cancer"
    return columna

# Comprobaciones iniciales

In [7]:
pathdf = "D:/TFG/Codigo/InfTest/merged_dfTest_serialized.pickle"
merged_df = pd.read_pickle(pathdf)
# Luego, usa el método value_counts() para contar cuántas veces aparece cada valor en la columna 'StudyUID'
counts = merged_df['StudyUID'].value_counts()

# Ahora, encuentra el máximo número de repeticiones
max_repeats = counts.max()

# Finalmente, cuenta cuántas filas tienen este máximo número de repeticiones
rows_with_max_repeats = counts[counts == max_repeats].shape[0]

# Imprime el resultado
print("El máximo número de repeticiones es:", max_repeats)
print("Número de filas con el máximo número de repeticiones:", rows_with_max_repeats)

El máximo número de repeticiones es: 4
Número de filas con el máximo número de repeticiones: 400


In [8]:
merged_df

Unnamed: 0,PatientID,StudyUID,View,descriptive_path,Normal,Actionable,Benign,Cancer
0,DBT-P00002,DBT-S03345,lcc,Breast-Cancer-Screening-DBT/DBT-P00002/01-01-2...,1,0,0,0
1,DBT-P00002,DBT-S03345,lmlo,Breast-Cancer-Screening-DBT/DBT-P00002/01-01-2...,1,0,0,0
2,DBT-P00002,DBT-S03345,rcc,Breast-Cancer-Screening-DBT/DBT-P00002/01-01-2...,1,0,0,0
3,DBT-P00002,DBT-S03345,rmlo,Breast-Cancer-Screening-DBT/DBT-P00002/01-01-2...,1,0,0,0
4,DBT-P00114,DBT-S03767,rmlo,Breast-Cancer-Screening-DBT/DBT-P00114/01-01-2...,0,0,0,1
...,...,...,...,...,...,...,...,...
1158,DBT-P02242,DBT-S01269,rmlo,Breast-Cancer-Screening-DBT/DBT-P02242/01-01-2...,1,0,0,0
1159,DBT-P02545,DBT-S04030,lcc,Breast-Cancer-Screening-DBT/DBT-P02545/01-01-2...,1,0,0,0
1160,DBT-P02545,DBT-S04030,lmlo,Breast-Cancer-Screening-DBT/DBT-P02545/01-01-2...,1,0,0,0
1161,DBT-P02545,DBT-S04030,rcc,Breast-Cancer-Screening-DBT/DBT-P02545/01-01-2...,1,0,0,0


In [15]:
pathdf = "D:/TFG/Codigo/InfTest/merged_dfTest_serialized.pickle"
merged_df = pd.read_pickle(pathdf)
# Encuentra las filas duplicadas en función de la columna 'StudyUID'
duplicated_study_uids = merged_df[merged_df.duplicated(subset=['StudyUID'], keep=False)]['StudyUID'].unique()

# Contador para el número de duplicados que cambian
changed_duplicates_count = 0

# Itera sobre los StudyUID duplicados
for study_uid in duplicated_study_uids:
    study_uid_rows = merged_df[merged_df['StudyUID'] == study_uid]
    previous_row = None
    for index, row in study_uid_rows.iterrows():
        if previous_row is not None:
            if (row['Normal'] != previous_row['Normal'] or
                row['Cancer'] != previous_row['Cancer'] or
                row['Benign'] != previous_row['Benign'] or
                row['Actionable'] != previous_row['Actionable']):
                print(f"Valores cambian en la fila con StudyUID {study_uid}:")
                display(pd.concat([previous_row, row], axis=1).T)
                changed_duplicates_count += 1
        previous_row = row

# Mostrar el número de duplicados que cambian
print(f"Número de duplicados que cambian: {changed_duplicates_count}")

Número de duplicados que cambian: 0


In [34]:
pathdf = "D:/TFG/Codigo/InfValidation/merged_dfValidation_serialized.pickle"
# Cargar el DataFrame desde un archivo pickle serializado
merged_df = pd.read_pickle(pathdf)
conteo_Normal = merged_df["Normal"].value_counts()
conteo_Actionable = merged_df["Actionable"].value_counts()
conteo_Benign = merged_df["Benign"].value_counts()
conteo_Cancer = merged_df["Cancer"].value_counts()

# Mostrar los distintos valores y sus conteos
print(conteo_Normal)
print(conteo_Actionable)
print(conteo_Benign)
print(conteo_Cancer)

Normal
1    928
0    235
Name: count, dtype: int64
Actionable
0    1003
1     160
Name: count, dtype: int64
Benign
0    1125
1      38
Name: count, dtype: int64
Cancer
0    1126
1      37
Name: count, dtype: int64


# 4 imagenes en 1:
## Validation:

In [5]:
# Validation
pathdf = "D:/Codigo/Datos/InfValidation/merged_dfValidation_serialized.pickle"
pathNumpySave = "E:/NumpysTotal"
pathNumpy = "D:/Numpys/imagenesValCompletas"

# Cargar el DataFrame desde un archivo pickle serializado
merged_df = pd.read_pickle(pathdf)

# Tamaño cuadrado deseado para las imágenes (en píxeles)
tamano_cuadrado = 96

# Iterar sobre las filas del DataFrame merged_df
for index, row in tqdm(merged_df.iterrows(), total=merged_df.shape[0], desc="Cargando imagen"):
    filas_mismo_study_uid = merged_df[merged_df['StudyUID'] == row['StudyUID']]
    
    if not filas_mismo_study_uid.empty:
        merged_df.drop(filas_mismo_study_uid.index, inplace=True)
        
        # Inicializa la imagen final como una matriz de ceros
        final_image = np.zeros((1440, 1440), dtype=np.uint8)
        
        # Obtener la columna correspondiente Normal, Actionable, Cancer o Benign
        columna = obtener_columna(filas_mismo_study_uid.iloc[0])
        numImagenes = 10
        # Seleccionar las imágenes correspondientes a esta fila
        imagenes_seleccionadas = seleccionar_imagenes(columna, filas_mismo_study_uid, pathNumpy, numImagenes)
        
        # Crear una lista para almacenar los resultados
        resultados = []
        for i in range(len(imagenes_seleccionadas)):
            resultado = combinar_imagenes(imagenes_seleccionadas[i])
            resultados.append(resultado)
        
        # Convertir la lista de resultados en un numpy array
        resultados_array = np.array(resultados)
        
        # Guardar el numpy array
        nombre = f"{filas_mismo_study_uid.iloc[0]['StudyUID']}_{filas_mismo_study_uid.iloc[0]['PatientID']}"
        
        ruta_archivo = os.path.join(f"{pathNumpySave}/{columna}", nombre)
        if os.path.exists(ruta_archivo):
            print(f"El archivo {ruta_archivo} ya existe.")
        
        np.save(ruta_archivo, resultados_array)

Cargando imagen: 100%|███████████████████████████████████████████████████████████| 1163/1163 [09:09<00:00,  2.12it/s]


## Test:

In [6]:
# Test
pathdf = "D:/Codigo/Datos/InfTest/merged_dfTest_serialized.pickle"
pathNumpySave = "E:/NumpysTotal"
pathNumpy = "D:/Numpys/imagenesTestCompletas"

num_max = 37
num_normal = 0
num_actionable = 0
num_benign = 0
num_cancer = 0

# Cargar el DataFrame desde un archivo pickle serializado
merged_df = pd.read_pickle(pathdf)

# Tamaño cuadrado deseado para las imágenes (en píxeles)
tamano_cuadrado = 96

# Iterar sobre las filas del DataFrame merged_df
for index, row in tqdm(merged_df.iterrows(), total=merged_df.shape[0], desc="Cargando imagen"):
    filas_mismo_study_uid = merged_df[merged_df['StudyUID'] == row['StudyUID']]
    
    if not filas_mismo_study_uid.empty:
        merged_df.drop(filas_mismo_study_uid.index, inplace=True)
        
        # Inicializa la imagen final como una matriz de ceros
        final_image = np.zeros((1440, 1440), dtype=np.uint8)
        
        # Obtener la columna correspondiente Normal, Actionable, Cancer o Benign
        columna = obtener_columna(filas_mismo_study_uid.iloc[0])
        numImagenes = 10
        # Seleccionar las imágenes correspondientes a esta fila
        imagenes_seleccionadas = seleccionar_imagenes(columna, filas_mismo_study_uid, pathNumpy, numImagenes)
        
        # Crear una lista para almacenar los resultados
        resultados = []
        for i in range(len(imagenes_seleccionadas)):
            resultado = combinar_imagenes(imagenes_seleccionadas[i])
            resultados.append(resultado)
        
        # Convertir la lista de resultados en un numpy array
        resultados_array = np.array(resultados)
        
        # Guardar el numpy array
        nombre = f"{filas_mismo_study_uid.iloc[0]['StudyUID']}_{filas_mismo_study_uid.iloc[0]['PatientID']}"
        
        ruta_archivo = os.path.join(f"{pathNumpySave}/{columna}", nombre)
        if os.path.exists(ruta_archivo):
            print(f"El archivo {ruta_archivo} ya existe.")
        
        np.save(ruta_archivo, resultados_array)

Cargando imagen: 100%|███████████████████████████████████████████████████████████| 1721/1721 [14:02<00:00,  2.04it/s]


## Training:

In [5]:
# training
pathdf = "D:/Codigo/Datos/InfTraining/merged_dfTraining_serialized.pickle"
pathNumpySave = "E:/NumpysTotal"
pathNumpy = "D:/Numpys/ImagenesTrainingCompletas"

# Cargar el DataFrame desde un archivo pickle serializado
merged_df = pd.read_pickle(pathdf)

# Tamaño cuadrado deseado para las imágenes (en píxeles)
tamano_cuadrado = 96

# Iterar sobre las filas del DataFrame merged_df
for index, row in tqdm(merged_df.iterrows(), total=merged_df.shape[0], desc="Cargando imagen"):
    filas_mismo_study_uid = merged_df[merged_df['StudyUID'] == row['StudyUID']]
    if index > 13331:
        ##print(row)
        if not filas_mismo_study_uid.empty:
            merged_df.drop(filas_mismo_study_uid.index, inplace=True)
            
            # Inicializa la imagen final como una matriz de ceros
            final_image = np.zeros((1440, 1440), dtype=np.uint8)
            
            # Obtener la columna correspondiente Normal, Actionable, Cancer o Benign
            columna = obtener_columna(filas_mismo_study_uid.iloc[0])
            if columna != "Normal":
                numImagenes = 10
                # Seleccionar las imágenes correspondientes a esta fila
                imagenes_seleccionadas = seleccionar_imagenes(columna, filas_mismo_study_uid, pathNumpy, numImagenes)
                
                # Crear una lista para almacenar los resultados
                resultados = []
                for i in range(len(imagenes_seleccionadas)):
                    resultado = combinar_imagenes(imagenes_seleccionadas[i])
                    resultados.append(resultado)
                
                # Convertir la lista de resultados en un numpy array
                resultados_array = np.array(resultados)
                
                # Guardar el numpy array
                nombre = f"{filas_mismo_study_uid.iloc[0]['StudyUID']}_{filas_mismo_study_uid.iloc[0]['PatientID']}"
                
                ruta_archivo = os.path.join(f"{pathNumpySave}/{columna}", nombre)
                if os.path.exists(ruta_archivo):
                    print(f"El archivo {ruta_archivo} ya existe.")
                
                np.save(ruta_archivo, resultados_array)

Cargando imagen: 100%|█████████████████████████████████████████████████████████| 19148/19148 [46:12<00:00,  6.91it/s]


# -------------------------------------- Pruebas -----------------------------------------------------

In [5]:
#Prueba construccion imagen
pathdf = "D:/Codigo/Datos/InfValidation/merged_dfValidation_serialized.pickle"
pathNumpy = "D:/TFG/Numpys/imagenesValCompletas"
merged_df = pd.read_pickle(pathdf)
index = 300
primera_fila = merged_df.iloc[index]  #301 tiene una imagen

# Encuentra todas las filas con el mismo 'StudyUID' que la primera fila
filas_mismo_study_uid = merged_df[merged_df['StudyUID'] == primera_fila['StudyUID']]

print(filas_mismo_study_uid)
# Inicializa la imagen final como una matriz de ceros
final_image = np.zeros((1440, 1440), dtype=np.uint8)

# Obtener la columna correspondiente Normal, Actionable, Cancer o Benign
columna = obtener_columna(filas_mismo_study_uid.iloc[0])
numImagenes = 10
# Seleccionar las imágenes correspondientes a esta fila
imagenes_seleccionadas = seleccionar_imagenes(columna, filas_mismo_study_uid, pathNumpy, numImagenes)
print(f"imagenes_seleccionadas: {imagenes_seleccionadas.shape}")

# Crear una lista para almacenar los resultados
resultados = []
for i in range(len(imagenes_seleccionadas)):
    resultado = combinar_imagenes(imagenes_seleccionadas[i])
    resultados.append(resultado)

# Convertir la lista de resultados en un numpy array
resultados_array = np.array(resultados)

# Verificar las formas de los resultados
print(resultados_array.shape)

# # Guardar el numpy array
np.save("resultados.npy", resultados_array)


# for i in range(10):
#     resultado = combinar_imagenes(imagenes_seleccionadas[i])
#     print(resultado.shape)# Guarda la imagen final
#     cv2.imwrite(f"resultados/image_{i}.png", resultado)
#     # Guardar la imagen final como un archivo Numpy serializado
    #np.save(f"final_image_{index}.npy", resultado)
    

      PatientID    StudyUID  View  \
297  DBT-P03694  DBT-S00795   lcc   
298  DBT-P03694  DBT-S00795  lmlo   
299  DBT-P03694  DBT-S00795   rcc   
300  DBT-P03694  DBT-S00795  rmlo   

                                      descriptive_path  Normal  Actionable  \
297  Breast-Cancer-Screening-DBT/DBT-P03694/01-01-2...       0           1   
298  Breast-Cancer-Screening-DBT/DBT-P03694/01-01-2...       0           1   
299  Breast-Cancer-Screening-DBT/DBT-P03694/01-01-2...       0           1   
300  Breast-Cancer-Screening-DBT/DBT-P03694/01-01-2...       0           1   

     Benign  Cancer  
297       0       0  
298       0       0  
299       0       0  
300       0       0  
imagenes_seleccionadas: (10, 4, 720, 720)
(10, 1440, 1440)


In [31]:
#Prueba construccion imagen
pathdf = "D:/TFG/Codigo/InfValidation/merged_dfValidation_serialized.pickle"
pathNumpy = "D:/TFG/Numpys/imagenesValCompletas"
# Cargar el DataFrame desde un archivo pickle serializado
merged_df = pd.read_pickle(pathdf)
# Tamaño cuadrado deseado para las imágenes (en píxeles)
tamano_cuadrado = 96

# Contar la frecuencia de cada valor en la columna "View"
frecuencia_valores = merged_df["View"].value_counts()

# Mostrar los valores distintos y su frecuencia
print("Valores distintos en la columna 'View' y su frecuencia:")
for valor, frecuencia in frecuencia_valores.items():
    print(f"Valor: {valor}, Frecuencia: {frecuencia}")

# Definir los valores extraños
valores_extraños = ["lmlo1", "lcc1"]

# Filtrar el DataFrame para obtener las filas correspondientes a los valores extraños
filas_extrañas = merged_df[merged_df["View"].isin(valores_extraños)]

# Mostrar las filas correspondientes a los valores extraños
print("Filas correspondientes a los valores extraños:")
print(filas_extrañas)

# Filtrar el DataFrame para obtener las filas con el valor 'DBT-S02552' en la columna 'StudyUID'
filas_estudio_especifico = merged_df[merged_df["StudyUID"] == 'DBT-S02552']

# Mostrar las filas correspondientes al estudio específico
print("Filas correspondientes al estudio 'DBT-S02552':")
print(filas_estudio_especifico)

%matplotlib qt

for index, row in filas_estudio_especifico.iterrows():
    view = row["View"]
    nombre = f"{view}-{index}.npy"
    ruta = os.path.join(f"{pathNumpy}/Benign", nombre)
    if os.path.exists(ruta):
        imagen_cargada = np.load(ruta)
        # Seleccionar la imagen en la posición 30
        imagen_seleccionada = imagen_cargada[30]
        # Ajustar la forma de la imagen
        imagen_seleccionada = np.squeeze(imagen_seleccionada)
        # Reducir la forma a (720, 720)
        imagen_seleccionada = imagen_seleccionada[:, :, 1]  # Tomar solo un canal
        # Verificar la forma de los datos de la imagen
        print(f"Forma de la imagen seleccionada: {imagen_seleccionada.shape}")
        
        # Normalizar los valores de píxeles
        imagen_normalizada = imagen_seleccionada / np.max(imagen_seleccionada)
        
        # Mostrar la imagen en una nueva ventana flotante
        plt.figure()
        plt.imshow(imagen_normalizada, cmap='gray')  # Usar escala de grises
        plt.axis('off')  # Ocultar los ejes
        plt.title(f'Imagen {nombre} - Posición 30')  # Agregar título con el nombre de la imagen
        plt.show()
    else:
        print(f"No se encontró el archivo: {ruta}")

Valores distintos en la columna 'View' y su frecuencia:
Valor: lcc, Frecuencia: 292
Valor: lmlo, Frecuencia: 291
Valor: rmlo, Frecuencia: 290
Valor: rcc, Frecuencia: 287
Valor: lmlo1, Frecuencia: 2
Valor: lcc1, Frecuencia: 1
Filas correspondientes a los valores extraños:
      PatientID    StudyUID   View  \
80   DBT-P01207  DBT-S03000   lcc1   
81   DBT-P01207  DBT-S03000  lmlo1   
323  DBT-P04097  DBT-S02552  lmlo1   

                                      descriptive_path  Normal  Actionable  \
80   Breast-Cancer-Screening-DBT/DBT-P01207/01-01-2...       0           0   
81   Breast-Cancer-Screening-DBT/DBT-P01207/01-01-2...       0           0   
323  Breast-Cancer-Screening-DBT/DBT-P04097/01-01-2...       0           0   

     Benign  Cancer  
80        0       1  
81        0       1  
323       1       0  
Filas correspondientes al estudio 'DBT-S02552':
      PatientID    StudyUID   View  \
322  DBT-P04097  DBT-S02552   lmlo   
323  DBT-P04097  DBT-S02552  lmlo1   

           

In [None]:
# Primer calculo MUY LENTO MUCHOS DIAS
# Normal
pathNumpy = "E:/NumpysTotal/Normal/"
pathNumpySave = "E:/NumpysSeleccionadas/Normal"
NumImagenes = 89  # Img Cancer Validation dataset

# Lista para almacenar las rutas de los archivos .npy
rutas_archivos = []
for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        rutas_archivos.append(os.path.join(pathNumpy, filename))

# Mostrar la cantidad de archivos en rutas_archivos
print("Cantidad de archivos .npy encontrados:", len(rutas_archivos))

archivo_progreso = "progresoSeleccionNormal.npy"
# Comprobar si existe un archivo de progreso guardado
if os.path.exists(archivo_progreso):
    print("Cargando progreso previo...")
    ssim_scores_promedio = np.load(archivo_progreso)
else:
    ssim_scores_promedio = np.empty((0,))

# Calcular SSIM entre cada archivo y todos los demás archivos
for i, ruta_i in enumerate(rutas_archivos):
    if i >= len(ssim_scores_promedio):  # Continuar desde donde se quedó
        archivo_i = np.load(ruta_i)
        scores_i = []
        for j, ruta_j in enumerate(rutas_archivos):
            if i != j:  # Evitar comparar un archivo consigo mismo
                archivo_j = np.load(ruta_j)
                score_sum = 0
                for k in range(10):  # Calcular SSIM para cada par de imágenes dentro de los archivos
                    score, _ = ssim(archivo_i[k], archivo_j[k], full=True)
                    score_sum += score
                print(f"Calculando: {i} - {j}  Total: {len(rutas_archivos)}", end='\r') 
                avg_score = score_sum / 10  # Promedio de las puntuaciones SSIM para las 10 imágenes
                scores_i.append(avg_score)
        ssim_scores_promedio.append((i, np.mean(scores_i)))
        np.save(archivo_progreso, ssim_scores_promedio)

# Ordenar los scores promedio de menor a mayor
ssim_scores_promedio.sort(key=lambda x: x[1])

# Seleccionar los NumImagenes archivos menos similares al resto
indices_seleccionados = [idx for idx, _ in ssim_scores_promedio[:NumImagenes]]

# Guardar los archivos seleccionados con sus nombres originales
for idx in indices_seleccionados:
    nombre_original = os.path.basename(rutas_archivos[idx])  # Obtener el nombre original del archivo
    np.save(os.path.join(pathNumpySave, nombre_original), np.load(rutas_archivos[idx]))

# ------------------------------ Comparar y seleccionar imágenes --------------------------------

In [None]:
# Función para calcular la Diferencia Absoluta (MAE) entre dos imágenes
def calculate_mae(image1, image2):
    return np.mean(np.abs(image1 - image2))

In [None]:
# Normal
pathNumpy = "E:/NumpysTotal/Normal/"
pathNumpySave = "E:/NumpysSeleccionadas/Normal"
# Obtener el 25% de las imágenes (aproximadamente)
rutas_archivos = []
for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        rutas_archivos.append(os.path.join(pathNumpy, filename))

# Lista para almacenar las rutas de los archivos .npy
print("Cantidad de archivos .npy encontrados:", len(rutas_archivos))

# Aleatoriamente seleccionar el 25% de las imágenes
np.random.shuffle(rutas_archivos)
rutas_archivos = rutas_archivos[:int(len(rutas_archivos) * 0.25)]

print("Cantidad de archivos .npy seleccionados:", len(rutas_archivos))

# Comprobar si existe un archivo de progreso guardado
archivo_progreso = "progresoSeleccionNormal.npy"
if os.path.exists(archivo_progreso):
    print("Cargando progreso previo...")
    ssim_scores_promedio = np.load(archivo_progreso)
else:
    ssim_scores_promedio = np.empty((0,))

# Calcular la Diferencia Absoluta (MAE) entre cada par de imágenes si no se ha calculado previamente
for i, ruta_i in enumerate(tqdm(rutas_archivos, desc="Comparando imágenes", unit="archivo", leave=False)):
    if i >= len(ssim_scores_promedio):  # Continuar desde donde se quedó
        archivo_i = np.load(ruta_i)
        scores_i = []
        for j, ruta_j in enumerate(rutas_archivos):
            if i != j:  # Evitar comparar un archivo consigo mismo
                archivo_j = np.load(ruta_j)
                score = calculate_mae(archivo_i, archivo_j)
                scores_i.append(score)
        ssim_scores_promedio = np.append(ssim_scores_promedio, np.mean(scores_i))
        
        # Guardar el progreso cada cierto intervalo de tiempo
        if i % 100 == 0:
            np.save(archivo_progreso, ssim_scores_promedio)

# Ordenar los scores promedio de menor a mayor
sorted_indices = np.argsort(ssim_scores_promedio)

# Seleccionar los NumImagenes archivos menos similares al resto
indices_seleccionados = sorted_indices[:NumImagenes]

# Guardar los archivos seleccionados con sus nombres originales
for idx in indices_seleccionados:
    nombre_original = os.path.basename(rutas_archivos[idx])  # Obtener el nombre original del archivo
    np.save(os.path.join(pathNumpySave, nombre_original), np.load(rutas_archivos[idx]))

# Guardar los resultados de los cálculos de MAE
np.save(archivo_progreso, ssim_scores_promedio)

Cantidad de archivos .npy encontrados: 5129
Cantidad de archivos .npy seleccionados: 1282
Cargando progreso previo...


Comparando imágenes:  42%|██████████████████▉                          | 540/1282 [13:01:45<18:07:42, 87.95s/archivo]

In [None]:
# Benign
pathNumpy = "E:/NumpysTotal/Benign/"
pathNumpySave = "E:/NumpysSeleccionadas/Benign"
NumImagenes = 89  # Img Cancer Validation dataset

# Lista para almacenar las rutas de los archivos .npy
rutas_archivos = []
for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        rutas_archivos.append(os.path.join(pathNumpy, filename))

# Mostrar la cantidad de archivos en rutas_archivos
print("Cantidad de archivos .npy encontrados:", len(rutas_archivos))

archivo_progreso = "progresoSeleccionBenign.npy"
# Comprobar si existe un archivo de progreso guardado
if os.path.exists(archivo_progreso):
    print("Cargando progreso previo...")
    ssim_scores_promedio = np.load(archivo_progreso)
else:
    ssim_scores_promedio = np.empty((0,))

# Calcular SSIM entre cada archivo y todos los demás archivos
for i, ruta_i in enumerate(rutas_archivos):
    if i >= len(ssim_scores_promedio):  # Continuar desde donde se quedó
        archivo_i = np.load(ruta_i)
        scores_i = []
        for j, ruta_j in enumerate(rutas_archivos):
            if i != j:  # Evitar comparar un archivo consigo mismo
                archivo_j = np.load(ruta_j)
                score_sum = 0
                for k in range(10):  # Calcular SSIM para cada par de imágenes dentro de los archivos
                    score, _ = ssim(archivo_i[k], archivo_j[k], full=True)
                    score_sum += score
                print(f"Calculando: {i} - {j}  Total: {len(rutas_archivos)}", end='\r') 
                avg_score = score_sum / 10  # Promedio de las puntuaciones SSIM para las 10 imágenes
                scores_i.append(avg_score)
        ssim_scores_promedio.append((i, np.mean(scores_i)))
        np.save(archivo_progreso, ssim_scores_promedio)

# Ordenar los scores promedio de menor a mayor
ssim_scores_promedio.sort(key=lambda x: x[1])

# Seleccionar los NumImagenes archivos menos similares al resto
indices_seleccionados = [idx for idx, _ in ssim_scores_promedio[:NumImagenes]]

# Guardar los archivos seleccionados con sus nombres originales
for idx in indices_seleccionados:
    nombre_original = os.path.basename(rutas_archivos[idx])  # Obtener el nombre original del archivo
    np.save(os.path.join(pathNumpySave, nombre_original), np.load(rutas_archivos[idx]))

In [15]:
# Rutas de los archivos numpy generados por cada ordenador
ruta_ordenador1 = "progresoSeleccionActionable1.npy"
ruta_ordenador2 = "progresoSeleccionActionable2.npy"

# Cargar los ssim_scores_promedio generados por cada ordenador
ssim_scores_ordenador1 = np.load(ruta_ordenador1)
ssim_scores_ordenador2 = np.load(ruta_ordenador2)

# Combinar los ssim_scores_promedio
ssim_scores_combinado = np.concatenate((ssim_scores_ordenador1, ssim_scores_ordenador2))

# Verificar las dimensiones del array concatenado
print("Dimensiones del array combinado:", ssim_scores_combinado.shape)

# Guardar el resultado combinado si es necesario
np.save("progresoSeleccionActionable.npy", ssim_scores_combinado)

Dimensiones del array combinado: (280,)


In [None]:
# Actionable
pathNumpy = "E:/NumpysTotal/Actionable/"
pathNumpySave = "E:/NumpysSeleccionadas/Actionable"
NumImagenes = 89  # Img Cancer Validation dataset

# Lista para almacenar las rutas de los archivos .npy
rutas_archivos = []
for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        rutas_archivos.append(os.path.join(pathNumpy, filename))

# Mostrar la cantidad de archivos en rutas_archivos
print("Cantidad de archivos .npy encontrados:", len(rutas_archivos))

archivo_progreso = "progresoSeleccionBenign.npy"
archivo_progreso2 = "progresoSeleccionBenign2.npy"
# Comprobar si existe un archivo de progreso guardado
if os.path.exists(archivo_progreso):
    print("Cargando progreso previo...")
    ssim_scores_promedio = np.load(archivo_progreso)
else:
    ssim_scores_promedio = np.empty((0,))

ssim_scores_promedio2 = np.empty((len(rutas_archivos), 2), dtype=object)

# Calcular SSIM entre cada archivo y todos los demás archivos
for i, ruta_i in enumerate(rutas_archivos):
    row_data = np.array([ssim_scores_promedio[i], ruta_i], dtype=object)
    ssim_scores_promedio2[i] = row_data
    print(ssim_scores_promedio2[i])
    
#np.save(archivo_progreso2, ssim_scores_promedio2)

# Obtener los índices que ordenan ssim_scores_promedio por su primer atributo (promedio de SSIM)
indices_ordenados = np.argsort(ssim_scores_promedio2[:, 0])

# Ordenar ssim_scores_promedio en función de los índices obtenidos
ssim_scores_promedio_ordenados = ssim_scores_promedio2[indices_ordenados]

# Mostrar los resultados ordenados por pantalla
for fila in ssim_scores_promedio_ordenados:
    print(f"Promedio de SSIM: {fila[0]}, Ruta del archivo: {fila[1]}")

# Seleccionar los primeros NumImagenes elementos de ssim_scores_promedio_ordenados
ssim_scores_seleccionados = ssim_scores_promedio_ordenados[:NumImagenes]
    

# Guardar los archivos seleccionados con sus nombres originales
for fila in ssim_scores_seleccionados:
    print(f"SSIM sleccionado: {fila[0]}, Ruta del archivo: {fila[1]}")
    ruta_archivo = fila[1]  # Obtener la ruta del archivo desde la segunda posición de la fila
    nombre_original = os.path.basename(ruta_archivo)  # Obtener el nombre original del archivo
    np.save(os.path.join(pathNumpySave, nombre_original), np.load(ruta_archivo)

In [None]:
# Cancer
pathNumpy = "E:/NumpysTotal/Cancer/"
pathNumpySave = "E:/NumpysSeleccionadas/Cancer"
NumImagenes = 89  # Img Cancer Validation dataset

# Lista para almacenar las rutas de los archivos .npy
rutas_archivos = []
for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        rutas_archivos.append(os.path.join(pathNumpy, filename))

# Mostrar la cantidad de archivos en rutas_archivos
print("Cantidad de archivos .npy encontrados:", len(rutas_archivos))

archivo_progreso = "progresoSeleccionCancer.npy"
# Comprobar si existe un archivo de progreso guardado
if os.path.exists(archivo_progreso):
    print("Cargando progreso previo...")
    ssim_scores_promedio = np.load(archivo_progreso)
else:
    ssim_scores_promedio = np.empty((0,))

# Calcular SSIM entre cada archivo y todos los demás archivos
for i, ruta_i in enumerate(rutas_archivos):
    if i >= len(ssim_scores_promedio):  # Continuar desde donde se quedó
        archivo_i = np.load(ruta_i)
        scores_i = []
        for j, ruta_j in enumerate(tqdm(rutas_archivos, desc=f"Linea {i}", unit="archivo", leave=False)):
            if i != j:  # Evitar comparar un archivo consigo mismo
                archivo_j = np.load(ruta_j)
                score_sum = 0
                for k in range(10):  # Calcular SSIM para cada par de imágenes dentro de los archivos
                    score, _ = ssim(archivo_i[k], archivo_j[k], full=True)
                    score_sum += score
                print(f"Calculando: {i} - {j}  Total: {len(rutas_archivos)}", end='\r') 
                avg_score = score_sum / 10  # Promedio de las puntuaciones SSIM para las 10 imágenes
                scores_i.append(avg_score)
        ssim_scores_promedio.append((i, np.mean(scores_i)))
        np.save(ssim_scores_promedio, ssim_scores_promedio)

# Ordenar los scores promedio de menor a mayor
ssim_scores_promedio.sort(key=lambda x: x[1])

# Seleccionar los NumImagenes archivos menos similares al resto
indices_seleccionados = [idx for idx, _ in ssim_scores_promedio[:NumImagenes]]

# Guardar los archivos seleccionados con sus nombres originales
for idx in indices_seleccionados:
    nombre_original = os.path.basename(rutas_archivos[idx])  # Obtener el nombre original del archivo
    np.save(os.path.join(pathNumpySave, nombre_original), np.load(rutas_archivos[idx]))

# DATA AUGMENTATION
## Voltear y rotar Imágenes

In [16]:
def flip_image_horizontal(image):
    """
    Flips an image horizontally.
    """
    flipped_image = cv2.flip(image, 1)
    return flipped_image

def flip_image_vertical(image):
    """
    Flips an image vertically.
    """
    flipped_image = cv2.flip(image, 0)
    return flipped_image
def rotate_image_90(image, times=1):
    """
    Rotates an image by 90 degrees clockwise.
    """
    rotated_image = image.copy()
    for _ in range(times):
        rotated_image = cv2.rotate(rotated_image, cv2.ROTATE_90_CLOCKWISE)
    return rotated_image

In [None]:
# Ejemplo de uso:
# Cargar el archivo .npy
file_path = 'E:/NumpysTotal/Normal/DBT-S00034_DBT-P01371.npy'
images = np.load(file_path)

# Generar todas las combinaciones posibles de transformaciones
transformations = [
    (0, 0, 0),  # No transformation
    (1, 0, 0),  # Rotación de 90 grados
    (2, 0, 0),  # Rotación de 180 grados
    (3, 0, 0),  # Rotación de 270 grados
    (0, 1, 0),  # Volteo horizontal
    (0, 0, 1),  # Volteo vertical
    (1, 1, 0),  # Rotación de 90 grados + Volteo horizontal
    (1, 0, 1),  # Rotación de 90 grados + Volteo vertical
    (2, 1, 0),  # Rotación de 180 grados + Volteo horizontal
    (2, 0, 1),  # Rotación de 180 grados + Volteo vertical
    (3, 1, 0),  # Rotación de 270 grados + Volteo horizontal
    (3, 0, 1),  # Rotación de 270 grados + Volteo vertical
]

# Aplicar las transformaciones a cada imagen y guardar en un nuevo archivo .npy
for index, original_image in enumerate(images):
    transformed_images = []
    for rotation, horizontal_flip, vertical_flip in transformations:
        transformed_image = original_image.copy()
        transformed_image = rotate_image_90(transformed_image, times=rotation)
        if horizontal_flip:
            transformed_image = flip_image_horizontal(transformed_image)
        if vertical_flip:
            transformed_image = flip_image_vertical(transformed_image)
        transformed_images.append(transformed_image)
    
        # Guardar las imágenes transformadas en un nuevo archivo .npy
        output_file_path = f'resultados/transformada/imagen_{index}_{rotation}{horizontal_flip}{vertical_flip}.jpg'
        cv2.imwrite(output_file_path, transformed_image)
print(f'Imágenes transformadas de la imagen {index} guardadas en resultados/transformada/imagen')

In [19]:
# Normal:
pathNumpy = "E:/NumpysSeleccionadas/Normal"
pathNumpySave = "E:/NumpysProcesadas/Normal"

# Generar todas las combinaciones posibles de transformaciones
transformations = [
    (0, 0, 0),  # No transformation
    (1, 0, 0),  # Rotación de 90 grados
    (2, 0, 0),  # Rotación de 180 grados
    (3, 0, 0),  # Rotación de 270 grados
    (0, 1, 0),  # Volteo horizontal
    (0, 0, 1),  # Volteo vertical
    (1, 1, 0),  # Rotación de 90 grados + Volteo horizontal
    (1, 0, 1),  # Rotación de 90 grados + Volteo vertical
    (2, 1, 0),  # Rotación de 180 grados + Volteo horizontal
    (2, 0, 1),  # Rotación de 180 grados + Volteo vertical
    (3, 1, 0),  # Rotación de 270 grados + Volteo horizontal
    (3, 0, 1),  # Rotación de 270 grados + Volteo vertical
]

for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        # Nombre del archivo original sin la extensión
        original_filename = os.path.splitext(os.path.basename(filename))[0]
        images = np.load(os.path.join(pathNumpy, filename))
        # Aplicar las transformaciones a cada imagen y guardar en un nuevo archivo .npy
        for rotation, horizontal_flip, vertical_flip in transformations:
            output_file_path =os.path.join(pathNumpySave, f'{original_filename}transformed{rotation}{horizontal_flip}{vertical_flip}.npy') 
            if not os.path.exists(output_file_path):
                transformed_images = []
                for index, original_image in enumerate(images):
                    transformed_image = original_image.copy()
                    transformed_image = rotate_image_90(transformed_image, times=rotation)
                    if horizontal_flip:
                        transformed_image = flip_image_horizontal(transformed_image)
                    if vertical_flip:
                        transformed_image = flip_image_vertical(transformed_image)
                    transformed_images.append(transformed_image)
                # Guardar las imágenes transformadas en un nuevo archivo .npy

                np.save(output_file_path, np.array(transformed_images))
            
    print(f"Calculando: {filename}", end='\r')

Calculando: DBT-S05373_DBT-P00952.npy

In [None]:
# Cancer:
# Cancer
pathNumpy = "E:/NumpysSeleccionadas/Cancer"
pathNumpySave = "E:/NumpysProcesadas/Cancer"

# Generar todas las combinaciones posibles de transformaciones
transformations = [
    (0, 0, 0),  # No transformation
    (1, 0, 0),  # Rotación de 90 grados
    (2, 0, 0),  # Rotación de 180 grados
    (3, 0, 0),  # Rotación de 270 grados
    (0, 1, 0),  # Volteo horizontal
    (0, 0, 1),  # Volteo vertical
    (1, 1, 0),  # Rotación de 90 grados + Volteo horizontal
    (1, 0, 1),  # Rotación de 90 grados + Volteo vertical
    (2, 1, 0),  # Rotación de 180 grados + Volteo horizontal
    (2, 0, 1),  # Rotación de 180 grados + Volteo vertical
    (3, 1, 0),  # Rotación de 270 grados + Volteo horizontal
    (3, 0, 1),  # Rotación de 270 grados + Volteo vertical
]

for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        # Nombre del archivo original sin la extensión
        original_filename = os.path.splitext(os.path.basename(filename))[0]
        images = np.load(os.path.join(pathNumpy, filename))
        # Aplicar las transformaciones a cada imagen y guardar en un nuevo archivo .npy
        for rotation, horizontal_flip, vertical_flip in transformations:
            output_file_path =os.path.join(pathNumpySave, f'{original_filename}transformed{rotation}{horizontal_flip}{vertical_flip}.npy') 
            if not os.path.exists(output_file_path):
                transformed_images = []
                for index, original_image in enumerate(images):
                    transformed_image = original_image.copy()
                    transformed_image = rotate_image_90(transformed_image, times=rotation)
                    if horizontal_flip:
                        transformed_image = flip_image_horizontal(transformed_image)
                    if vertical_flip:
                        transformed_image = flip_image_vertical(transformed_image)
                    transformed_images.append(transformed_image)
                # Guardar las imágenes transformadas en un nuevo archivo .npy

                np.save(output_file_path, np.array(transformed_images))
            
    print(f"Calculando: {filename}", end='\r')

In [None]:
# Actionable:
pathNumpy = "E:/NumpysSeleccionadas/Actionable"
pathNumpySave = "E:/NumpysProcesadas/Actionable"

# Generar todas las combinaciones posibles de transformaciones
transformations = [
    (0, 0, 0),  # No transformation
    (1, 0, 0),  # Rotación de 90 grados
    (2, 0, 0),  # Rotación de 180 grados
    (3, 0, 0),  # Rotación de 270 grados
    (0, 1, 0),  # Volteo horizontal
    (0, 0, 1),  # Volteo vertical
    (1, 1, 0),  # Rotación de 90 grados + Volteo horizontal
    (1, 0, 1),  # Rotación de 90 grados + Volteo vertical
    (2, 1, 0),  # Rotación de 180 grados + Volteo horizontal
    (2, 0, 1),  # Rotación de 180 grados + Volteo vertical
    (3, 1, 0),  # Rotación de 270 grados + Volteo horizontal
    (3, 0, 1),  # Rotación de 270 grados + Volteo vertical
]

for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        # Nombre del archivo original sin la extensión
        original_filename = os.path.splitext(os.path.basename(filename))[0]
        images = np.load(os.path.join(pathNumpy, filename))
        # Aplicar las transformaciones a cada imagen y guardar en un nuevo archivo .npy
        for rotation, horizontal_flip, vertical_flip in transformations:
            output_file_path =os.path.join(pathNumpySave, f'{original_filename}transformed{rotation}{horizontal_flip}{vertical_flip}.npy') 
            if not os.path.exists(output_file_path):
                transformed_images = []
                for index, original_image in enumerate(images):
                    transformed_image = original_image.copy()
                    transformed_image = rotate_image_90(transformed_image, times=rotation)
                    if horizontal_flip:
                        transformed_image = flip_image_horizontal(transformed_image)
                    if vertical_flip:
                        transformed_image = flip_image_vertical(transformed_image)
                    transformed_images.append(transformed_image)
                # Guardar las imágenes transformadas en un nuevo archivo .npy

                np.save(output_file_path, np.array(transformed_images))
            
    print(f"Calculando: {filename}", end='\r')

In [None]:
# Benign:
pathNumpy = "E:/NumpysSeleccionadas/Benign"
pathNumpySave = "E:/NumpysProcesadas/Benign"

# Generar todas las combinaciones posibles de transformaciones
transformations = [
    (0, 0, 0),  # No transformation
    (1, 0, 0),  # Rotación de 90 grados
    (2, 0, 0),  # Rotación de 180 grados
    (3, 0, 0),  # Rotación de 270 grados
    (0, 1, 0),  # Volteo horizontal
    (0, 0, 1),  # Volteo vertical
    (1, 1, 0),  # Rotación de 90 grados + Volteo horizontal
    (1, 0, 1),  # Rotación de 90 grados + Volteo vertical
    (2, 1, 0),  # Rotación de 180 grados + Volteo horizontal
    (2, 0, 1),  # Rotación de 180 grados + Volteo vertical
    (3, 1, 0),  # Rotación de 270 grados + Volteo horizontal
    (3, 0, 1),  # Rotación de 270 grados + Volteo vertical
]

for filename in os.listdir(pathNumpy):
    if filename.endswith(".npy"):
        # Nombre del archivo original sin la extensión
        original_filename = os.path.splitext(os.path.basename(filename))[0]
        images = np.load(os.path.join(pathNumpy, filename))
        # Aplicar las transformaciones a cada imagen y guardar en un nuevo archivo .npy
        for rotation, horizontal_flip, vertical_flip in transformations:
            output_file_path =os.path.join(pathNumpySave, f'{original_filename}transformed{rotation}{horizontal_flip}{vertical_flip}.npy') 
            if not os.path.exists(output_file_path):
                transformed_images = []
                for index, original_image in enumerate(images):
                    transformed_image = original_image.copy()
                    transformed_image = rotate_image_90(transformed_image, times=rotation)
                    if horizontal_flip:
                        transformed_image = flip_image_horizontal(transformed_image)
                    if vertical_flip:
                        transformed_image = flip_image_vertical(transformed_image)
                    transformed_images.append(transformed_image)
                # Guardar las imágenes transformadas en un nuevo archivo .npy

                np.save(output_file_path, np.array(transformed_images))
            
    print(f"Calculando: {filename}", end='\r')

# Separar en Training, Validation y Test

In [4]:
# Función para copiar archivos a los directorios correspondientes según el prefijo
def copy_files_by_prefix(prefixes, source_dir, output_dir):
    for prefix in prefixes:
        # Obtener los archivos correspondientes al prefijo
        prefix_files = [file for file in os.listdir(source_dir) if file.startswith(prefix)]
        
        # Copiar los archivos a los directorios correspondientes
        for file in prefix_files:
            source_file = os.path.join(source_dir, file)
            if prefix in training_prefixes:
                destination = os.path.join(output_dir, "Training", file)
            elif prefix in validation_prefixes:
                destination = os.path.join(output_dir, "Validation", file)
            else:
                destination = os.path.join(output_dir, "Test", file)
            shutil.copy(source_file, destination)

In [11]:
# Benign
# Directorios de entrada y salida
input_directory = "E:/NumpysProcesadas/Benign"
output_directory = "E:/NumpysFinales/Benign"

# Crear directorios de Training, Validation y Test si no existen
for division in ["Training", "Validation", "Test"]:
    division_dir = os.path.join(output_directory, division)
    if not os.path.exists(division_dir):
        os.makedirs(division_dir)

# Obtener la lista de archivos npy en el directorio de entrada
npy_files = [f for f in os.listdir(input_directory) if f.endswith('.npy')]

# Crear una lista para almacenar los prefijos de las imágenes
image_prefixes = []
for npy_file in npy_files:
    file_name = os.path.splitext(npy_file)[0]  # Obtener el nombre del archivo sin la extensión .npy
    prefix = "_".join(file_name.split('_')[:2])  # Obtener el prefijo del nombre completo
    if prefix not in image_prefixes:
        image_prefixes.append(prefix)

# Mostrar los prefijos guardados por pantalla
# print("Prefijos de las imágenes:")
# for prefix in image_prefixes:
#     print(prefix)

# Mostrar la cantidad total de prefijos
total_prefixes = len(image_prefixes)
print("Cantidad total de prefijos:", total_prefixes)

# Determinar la cantidad de prefijos para cada conjunto (Training, Validation, Test)
num_prefixes = len(image_prefixes)
num_training_prefixes = 58 # int(0.6 * num_prefixes)  # 60% para Training
num_validation_prefixes = 17 # int(0.2 * num_prefixes)  # 20% para Validation
num_test_prefixes = num_prefixes - num_training_prefixes - num_validation_prefixes  # El resto para Test

# Imprimir la cantidad de prefijos para cada conjunto
print("Cantidad de prefijos para Training:", num_training_prefixes)
print("Cantidad de prefijos para Validation:", num_validation_prefixes)
print("Cantidad de prefijos para Test:", num_test_prefixes)

# Seleccionar aleatoriamente los prefijos para cada conjunto
random.shuffle(image_prefixes)
training_prefixes = image_prefixes[:num_training_prefixes]
validation_prefixes = image_prefixes[num_training_prefixes:num_training_prefixes + num_validation_prefixes]
test_prefixes = image_prefixes[num_training_prefixes + num_validation_prefixes:]

# Mostrar los prefijos seleccionados para cada conjunto por pantalla
# print("Prefijos seleccionados para Training:")
# for prefix in training_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Validation:")
# for prefix in validation_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Test:")
# for prefix in test_prefixes:
#     print(prefix)

# Copiar archivos por prefijo para Training, Validation y Test
copy_files_by_prefix(training_prefixes, input_directory, output_directory)
print("Training completado.")
copy_files_by_prefix(validation_prefixes, input_directory, output_directory)
print("Validation completado.")
copy_files_by_prefix(test_prefixes, input_directory, output_directory)
print("Test completado.")

print("Proceso completado.")

Cantidad total de prefijos: 89
Cantidad de prefijos para Training: 58
Cantidad de prefijos para Validation: 17
Cantidad de prefijos para Test: 14
Training completado.
Validation completado.
Test completado.
Proceso completado.


In [13]:
# Normal
# Directorios de entrada y salida
input_directory = "E:/NumpysProcesadas/Normal"
output_directory = "E:/NumpysFinales/Normal"

# Crear directorios de Training, Validation y Test si no existen
for division in ["Training", "Validation", "Test"]:
    division_dir = os.path.join(output_directory, division)
    if not os.path.exists(division_dir):
        os.makedirs(division_dir)

# Obtener la lista de archivos npy en el directorio de entrada
npy_files = [f for f in os.listdir(input_directory) if f.endswith('.npy')]

# Crear una lista para almacenar los prefijos de las imágenes
image_prefixes = []
for npy_file in npy_files:
    file_name = os.path.splitext(npy_file)[0]  # Obtener el nombre del archivo sin la extensión .npy
    prefix = "_".join(file_name.split('_')[:1])  # Obtener el prefijo del nombre completo
    if prefix not in image_prefixes:
        image_prefixes.append(prefix)

# Mostrar los prefijos guardados por pantalla
# print("Prefijos de las imágenes:")
# for prefix in image_prefixes:
#     print(prefix)

# Mostrar la cantidad total de prefijos
total_prefixes = len(image_prefixes)
print("Cantidad total de prefijos:", total_prefixes)

# Determinar la cantidad de prefijos para cada conjunto (Training, Validation, Test)
num_prefixes = len(image_prefixes)
num_training_prefixes = 58 # int(0.6 * num_prefixes)  # 60% para Training
num_validation_prefixes = 17 # int(0.2 * num_prefixes)  # 20% para Validation
num_test_prefixes = num_prefixes - num_training_prefixes - num_validation_prefixes  # El resto para Test

# Imprimir la cantidad de prefijos para cada conjunto
print("Cantidad de prefijos para Training:", num_training_prefixes)
print("Cantidad de prefijos para Validation:", num_validation_prefixes)
print("Cantidad de prefijos para Test:", num_test_prefixes)

# Seleccionar aleatoriamente los prefijos para cada conjunto
random.shuffle(image_prefixes)
training_prefixes = image_prefixes[:num_training_prefixes]
validation_prefixes = image_prefixes[num_training_prefixes:num_training_prefixes + num_validation_prefixes]
test_prefixes = image_prefixes[num_training_prefixes + num_validation_prefixes:]

# Mostrar los prefijos seleccionados para cada conjunto por pantalla
# print("Prefijos seleccionados para Training:")
# for prefix in training_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Validation:")
# for prefix in validation_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Test:")
# for prefix in test_prefixes:
#     print(prefix)

# Copiar archivos por prefijo para Training, Validation y Test
copy_files_by_prefix(training_prefixes, input_directory, output_directory)
print("Training completado.")
copy_files_by_prefix(validation_prefixes, input_directory, output_directory)
print("Validation completado.")
copy_files_by_prefix(test_prefixes, input_directory, output_directory)
print("Test completado.")

print("Proceso completado.")

Cantidad total de prefijos: 89
Cantidad de prefijos para Training: 58
Cantidad de prefijos para Validation: 17
Cantidad de prefijos para Test: 14
Training completado.
Validation completado.
Test completado.
Proceso completado.


In [14]:
# Cancer
# Directorios de entrada y salida
input_directory = "E:/NumpysProcesadas/Cancer"
output_directory = "E:/NumpysFinales/Cancer"

# Crear directorios de Training, Validation y Test si no existen
for division in ["Training", "Validation", "Test"]:
    division_dir = os.path.join(output_directory, division)
    if not os.path.exists(division_dir):
        os.makedirs(division_dir)

# Obtener la lista de archivos npy en el directorio de entrada
npy_files = [f for f in os.listdir(input_directory) if f.endswith('.npy')]

# Crear una lista para almacenar los prefijos de las imágenes
image_prefixes = []
for npy_file in npy_files:
    file_name = os.path.splitext(npy_file)[0]  # Obtener el nombre del archivo sin la extensión .npy
    prefix = "_".join(file_name.split('_')[:2])  # Obtener el prefijo del nombre completo
    if prefix not in image_prefixes:
        image_prefixes.append(prefix)

# Mostrar los prefijos guardados por pantalla
# print("Prefijos de las imágenes:")
# for prefix in image_prefixes:
#     print(prefix)

# Mostrar la cantidad total de prefijos
total_prefixes = len(image_prefixes)
print("Cantidad total de prefijos:", total_prefixes)

# Definir los tamaños deseados para cada conjunto
num_training_samples = 700
num_validation_samples = 150

# Determinar la cantidad de prefijos para cada conjunto (Training, Validation, Test)
num_prefixes = len(image_prefixes)
num_training_prefixes = 58 # int(0.6 * num_prefixes)  # 60% para Training
num_validation_prefixes = 17 # int(0.2 * num_prefixes)  # 20% para Validation
num_test_prefixes = num_prefixes - num_training_prefixes - num_validation_prefixes  # El resto para Test

# Imprimir la cantidad de prefijos para cada conjunto
print("Cantidad de prefijos para Training:", num_training_prefixes)
print("Cantidad de prefijos para Validation:", num_validation_prefixes)
print("Cantidad de prefijos para Test:", num_test_prefixes)

# Seleccionar aleatoriamente los prefijos para cada conjunto
random.shuffle(image_prefixes)
training_prefixes = image_prefixes[:num_training_prefixes]
validation_prefixes = image_prefixes[num_training_prefixes:num_training_prefixes + num_validation_prefixes]
test_prefixes = image_prefixes[num_training_prefixes + num_validation_prefixes:]

# Mostrar los prefijos seleccionados para cada conjunto por pantalla
# print("Prefijos seleccionados para Training:")
# for prefix in training_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Validation:")
# for prefix in validation_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Test:")
# for prefix in test_prefixes:
#     print(prefix)

# Copiar archivos por prefijo para Training, Validation y Test
copy_files_by_prefix(training_prefixes, input_directory, output_directory)
print("Training completado.")
copy_files_by_prefix(validation_prefixes, input_directory, output_directory)
print("Validation completado.")
copy_files_by_prefix(test_prefixes, input_directory, output_directory)
print("Test completado.")

print("Proceso completado.")

Cantidad total de prefijos: 89
Cantidad de prefijos para Training: 58
Cantidad de prefijos para Validation: 17
Cantidad de prefijos para Test: 14
Training completado.
Validation completado.
Test completado.
Proceso completado.


In [None]:
# Actionable
# Directorios de entrada y salida
input_directory = "E:/NumpysProcesadas/Actionable"
output_directory = "E:/NumpysFinales/Actionable"

# Crear directorios de Training, Validation y Test si no existen
for division in ["Training", "Validation", "Test"]:
    division_dir = os.path.join(output_directory, division)
    if not os.path.exists(division_dir):
        os.makedirs(division_dir)

# Obtener la lista de archivos npy en el directorio de entrada
npy_files = [f for f in os.listdir(input_directory) if f.endswith('.npy')]

# Crear una lista para almacenar los prefijos de las imágenes
image_prefixes = []
for npy_file in npy_files:
    file_name = os.path.splitext(npy_file)[0]  # Obtener el nombre del archivo sin la extensión .npy
    prefix = "_".join(file_name.split('_')[:2])  # Obtener el prefijo del nombre completo
    if prefix not in image_prefixes:
        image_prefixes.append(prefix)

# Mostrar los prefijos guardados por pantalla
# print("Prefijos de las imágenes:")
# for prefix in image_prefixes:
#     print(prefix)

# Mostrar la cantidad total de prefijos
total_prefixes = len(image_prefixes)
print("Cantidad total de prefijos:", total_prefixes)

# Definir los tamaños deseados para cada conjunto
num_training_samples = 700
num_validation_samples = 150

# Determinar la cantidad de prefijos para cada conjunto (Training, Validation, Test)
num_prefixes = len(image_prefixes)
num_training_prefixes = 58 # int(0.6 * num_prefixes)  # 60% para Training
num_validation_prefixes = 17 # int(0.2 * num_prefixes)  # 20% para Validation
num_test_prefixes = num_prefixes - num_training_prefixes - num_validation_prefixes  # El resto para Test

# Imprimir la cantidad de prefijos para cada conjunto
print("Cantidad de prefijos para Training:", num_training_prefixes)
print("Cantidad de prefijos para Validation:", num_validation_prefixes)
print("Cantidad de prefijos para Test:", num_test_prefixes)

# Seleccionar aleatoriamente los prefijos para cada conjunto
random.shuffle(image_prefixes)
training_prefixes = image_prefixes[:num_training_prefixes]
validation_prefixes = image_prefixes[num_training_prefixes:num_training_prefixes + num_validation_prefixes]
test_prefixes = image_prefixes[num_training_prefixes + num_validation_prefixes:]

# Mostrar los prefijos seleccionados para cada conjunto por pantalla
# print("Prefijos seleccionados para Training:")
# for prefix in training_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Validation:")
# for prefix in validation_prefixes:
#     print(prefix)
# print("Prefijos seleccionados para Test:")
# for prefix in test_prefixes:
#     print(prefix)

# Copiar archivos por prefijo para Training, Validation y Test
copy_files_by_prefix(training_prefixes, input_directory, output_directory)
print("Training completado.")
copy_files_by_prefix(validation_prefixes, input_directory, output_directory)
print("Validation completado.")
copy_files_by_prefix(test_prefixes, input_directory, output_directory)
print("Test completado.")

print("Proceso completado.")

# Probar validación cruzada