In [None]:
%matplotlib inline
import os
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib
import numpy as np
import pydicom
import cv2
import shutil

import struct

from tqdm import tqdm
from skimage.exposure import rescale_intensity
from PIL import Image
from duke_dbt_data import dcmread_image
from typing import AnyStr, BinaryIO, Dict, List, NamedTuple, Optional, Union

In [None]:
# Leer el archivo CSV
df = pd.read_csv("data/labels-validation.csv")

# Obtener los conteos de cada valor único en la columna "View"
conteo_views = df["View"].value_counts()

# Mostrar los distintos valores y sus conteos
print("Valores distintos en la columna 'View' y sus conteos:")
print(conteo_views)


In [None]:
# Leer los archivos CSV
df1 = pd.read_csv("data/file-paths-validation.csv")
df2 = pd.read_csv("data/labels-validation.csv")

# Fusionar los DataFrames en uno solo basado en las columnas comunes
merged_df = pd.merge(df1, df2, on=["PatientID", "StudyUID", "View"])
# Eliminar la columna "classic_path"
merged_df = merged_df.drop(columns=["classic_path"])

# Mostrar las primeras filas del DataFrame fusionado para verificar la fusión
merged_df.head()

In [None]:
# Guardar el DataFrame en un archivo pickle serializado
merged_df.to_pickle("data/merged_df_serialized.pickle")

print(f"DataFrame guardado en data/merged_df_serialized.pickle")

In [None]:
# Cargar el DataFrame desde un archivo pickle serializado
merged_df = pd.read_pickle("data/merged_df_serialized.pickle")

# Ahora puedes usar merged_df_recuperado como lo harías con cualquier DataFrame de Pandas
merged_df.head()

In [None]:
view_series = merged_df.iloc[841]
view = view_series["View"]
view_series

In [None]:
# Tamaño cuadrado deseado para las imágenes (en píxeles)
tamano_cuadrado = 720

# Iterar sobre las filas del DataFrame merged_df
for index, row in tqdm(merged_df.iterrows(), total=merged_df.shape[0], desc="Cargando imágen"):
    if index>1139:
        # Cargar la imagen .dcm desde el archivo
        ruta_imagen = os.path.join("data", row["descriptive_path"])
        # Reemplazar "NA" con otro valor
        ruta_imagen = ruta_imagen.replace("000000-", "000000-NA-")
    
        view = row["View"]
        nombre = f"{view}-{index}.npy"
        imagen = dcmread_image(fp=ruta_imagen, view=view)
    
        # Cojemos 5 imagenes del total
        n = len(imagen)
        indices_seleccionados = [0, n // 4, n // 2, 3 * n // 4, n - 1]
        # Seleccionar las imágenes en las posiciones especificadas
        imagenes_seleccionadas = imagen[indices_seleccionados]
    
        # ======= Redimensionar imagenes ==============
        imagenes_redimensionadas = np.zeros((5, tamano_cuadrado, tamano_cuadrado))
        
        # Redimensionar cada imagen y guardarla en el nuevo array
        for i in range(5):
            # Redimensionar la imagen a un tamaño cuadrado y más pequeño
            imagen_redimensionada = cv2.resize(imagenes_seleccionadas[i], (tamano_cuadrado, tamano_cuadrado))
            imagenes_redimensionadas[i] = imagen_redimensionada
    
        
        # Determinar a qué colección agregar la imagen según los valores de las columnas
        if row["Normal"] == 1:
            np.save(os.path.join("imagenes/Normal", nombre), imagenes_redimensionadas)
            #print(os.path.join("imagenes/Normal", nombre))
        if row["Actionable"] == 1:
            np.save(os.path.join("imagenes/Actionable", nombre), imagenes_redimensionadas)
            #print(os.path.join("imagenes/Actionable", nombre))
        if row["Benign"] == 1:
            np.save(os.path.join("imagenes/Benign", nombre), imagenes_redimensionadas)
            #print(os.path.join("imagenes/Benign", nombre))
        if row["Cancer"] == 1:
            np.save(os.path.join("imagenes/Cancer", nombre), imagenes_redimensionadas)
            #print(os.path.join("imagenes/Cancer", nombre))


### Archivos que no pude cargar:
840  


In [None]:
# Copiado Manual
index=840

# Tamaño cuadrado deseado para las imágenes (en píxeles)
tamano_cuadrado = 720

row = merged_df.iloc[index]
# Cargar la imagen .dcm desde el archivo
ruta_imagen = os.path.join("data", row["descriptive_path"])
# Reemplazar "NA" con otro valor
ruta_imagen = ruta_imagen.replace("000000-", "000000-NA-")

view = row["View"]
nombre = f"{view}-{index}.npy"
imagen = dcmread_image(fp=ruta_imagen, view=view)

# Cojemos 5 imagenes del total
n = len(imagen)
indices_seleccionados = [0, n // 4, n // 2, 3 * n // 4, n - 1]
# Seleccionar las imágenes en las posiciones especificadas
imagenes_seleccionadas = imagen[indices_seleccionados]

# ======= Redimensionar imagenes ==============
imagenes_redimensionadas = np.zeros((5, tamano_cuadrado, tamano_cuadrado))

# Redimensionar cada imagen y guardarla en el nuevo array
for i in range(5):
    # Redimensionar la imagen a un tamaño cuadrado y más pequeño
    imagen_redimensionada = cv2.resize(imagenes_seleccionadas[i], (tamano_cuadrado, tamano_cuadrado))
    imagenes_redimensionadas[i] = imagen_redimensionada

# Determinar a qué colección agregar la imagen según los valores de las columnas
if row["Normal"] == 1:
    np.save(os.path.join("imagenes/Normal", nombre), imagenes_redimensionadas)
    print(os.path.join("imagenes/Normal", nombre))
elif row["Actionable"] == 1:
    np.save(os.path.join("imagenes/Actionable", nombre), imagenes_redimensionadas)
    print(os.path.join("imagenes/Actionable", nombre))
elif row["Benign"] == 1:
    np.save(os.path.join("imagenes/Benign", nombre), imagenes_redimensionadas)
    print(os.path.join("imagenes/Benign", nombre))
elif row["Cancer"] == 1:
    np.save(os.path.join("imagenes/Cancer", nombre), imagenes_redimensionadas)
    print(os.path.join("imagenes/Cancer", nombre))

In [None]:
view_series = merged_df.iloc[15]
view = view_series["View"]
image_path = os.path.join("data", view_series["descriptive_path"])

# Reemplazar "NA" con otro valor
image_path = image_path.replace("000000-", "000000-NA-")

#image = dcmread_image(fp=image_path, view=view)
imagen = pydicom.dcmread(image_path)
image=imagen.pixel_array

print(image.shape)

n = len(image)
indices_seleccionados = [0, n // 4, n // 2, 3 * n // 4, n - 1]

# Seleccionar las imágenes en las posiciones especificadas
imagenes_seleccionadas = image[indices_seleccionados]

imagenes_seleccionadas.shape

In [None]:
# Tamaño cuadrado deseado para las imágenes (en píxeles)
tamano_cuadrado = 200

# Crear un nuevo array para almacenar las imágenes redimensionadas
imagenes_redimensionadas = np.zeros((5, tamano_cuadrado, tamano_cuadrado))

# Redimensionar cada imagen y guardarla en el nuevo array
for i in range(5):
    # Redimensionar la imagen a un tamaño cuadrado y más pequeño
    imagen_redimensionada = cv2.resize(image[i], (tamano_cuadrado, tamano_cuadrado))
    imagenes_redimensionadas[i] = imagen_redimensionada

# Verificar las dimensiones del nuevo array
print("Dimensiones del array de imágenes redimensionadas:", imagenes_redimensionadas.shape)
# Crear una figura y ejes para los subgráficos
fig, axs = plt.subplots(1, 5, figsize=(15, 3))

# Mostrar cada imagen en un subgráfico diferente
for i in range(5):
    axs[i].imshow(imagenes_redimensionadas[i], cmap=plt.cm.gray)
    axs[i].axis('off')  # Ocultar los ejes
    axs[i].set_title(f'Imagen {i+1}')  # Agregar título a cada subgráfico

# Ajustar automáticamente el diseño de los subgráficos para evitar superposiciones
plt.tight_layout()

# Mostrar la figura
plt.show()

In [None]:
# Crear una figura y ejes para los subgráficos
fig, axs = plt.subplots(1, 5, figsize=(15, 3))

# Mostrar cada imagen en un subgráfico diferente
for i in range(5):
    axs[i].imshow(image[i], cmap=plt.cm.gray)
    axs[i].axis('off')  # Ocultar los ejes
    axs[i].set_title(f'Imagen {i+1}')  # Agregar título a cada subgráfico

# Ajustar automáticamente el diseño de los subgráficos para evitar superposiciones
plt.tight_layout()

# Mostrar la figura
plt.show()

In [None]:
# Definir una función para mostrar las imágenes de una colección
def mostrar_primeras_imagenes(coleccion, nombre_coleccion, num_imagenes_mostrar=5):
    print(f"Primeras {num_imagenes_mostrar} imágenes de la colección '{nombre_coleccion}':")
    fig, axs = plt.subplots(1, num_imagenes_mostrar, figsize=(15, 5))
    for i in range(num_imagenes_mostrar):
        axs[i].imshow(coleccion[i], cmap='gray')
        axs[i].axis('off')
    plt.show()

# Mostrar las primeras 5 imágenes de cada colección
for nombre_coleccion, coleccion in colecciones.items():
    mostrar_primeras_imagenes(coleccion, nombre_coleccion)

In [None]:
dirPaths = pd.read_csv("data/file-paths-validation.csv")
dirLabels = pd.read_csv("data/labels-validation.csv")

# Carpeta destino donde se copiarán las imágenes
carpeta_destino = "imagenes/prueba"

# Iterar sobre todas las filas del DataFrame
for index, row in df.iterrows():
    # Obtener la ruta de la imagen para la fila actual
    imagen_path = os.path.join("data", row["descriptive_path"])
    # Reemplazar "NA" con otro valor
    imagen_path = imagen_path.replace("000000-", "000000-NA-")
    
    # Verificar si la imagen existe
    if os.path.exists(imagen_path):
        
        # Obtener el nombre de archivo de la imagen
        nombre_archivo = os.path.basename(imagen_path)
        
        # Crear la ruta de destino
        ruta_destino = os.path.join(carpeta_destino, nombre_archivo)
        
        # Copiar la imagen a la carpeta de destino
        shutil.copyfile(imagen_path, ruta_destino)
        
        print(f"Imagen copiada: {imagen_path} -> {ruta_destino}")
    else:
        print(f"La imagen no existe: {imagen_path}")

In [None]:
#========== Qué contienen las gradiografias? =================
view_series = merged_df.iloc[15]
view = view_series["View"]
image_path = os.path.join("data", view_series["descriptive_path"])

# Reemplazar "NA" con otro valor
image_path = image_path.replace("000000-", "000000-NA-")

image = dcmread_image(fp=image_path, view=view)

In [None]:
# Cojemos 5 imagenes del total
n = len(image)
indices_seleccionados = [2, n // 4, n // 2, 3 * n // 4, n - 3]
# Seleccionar las imágenes en las posiciones especificadas
imagenes_seleccionadas = image[indices_seleccionados]

print(imagenes_seleccionadas.shape)
print(imagenes_seleccionadas[1][1][1].nbytes)

In [None]:
imagenes_redimensionadas = np.zeros((5, 720, 720, 2))
for i in range(5):
    imagen_redimensionada = cv2.resize(imagenes_seleccionadas[i], (720, 720))
    imagenes_redimensionadas[i] = imagen_redimensionada

print(imagenes_seleccionadas.shape)
print(imagenes_redimensionadas.shape)
resultado = imagenes_seleccionada(imagenes_redimensionadas)
print(resultado.shape)

In [None]:
max_valor = np.max(imagenes_redimensionadas[:, :, :, 0])
min_valor = np.min(imagenes_redimensionadas[:, :, :, 0])

print("Máximo valor de la primera columna:", max_valor)
print("Mínimo valor de la primera columna:", min_valor)

In [None]:
resultado = npArrayNormalized(imagenes_seleccionadas, 720)
print(resultado.shape)

In [None]:
#convirte arrays float64 en unit8 con escala de grises
def convert(img, target_type_min, target_type_max, target_type):
    imin = img.min()
    imax = img.max()

    a = (target_type_max - target_type_min) / (imax - imin)
    b = target_type_max - a * imax
    new_img = (a * img + b).astype(target_type)
    return new_img

In [None]:
# imgu8 = convert(resultado[2][:][:][0], 0, 255, np.uint8)
print(imagenes_seleccionadas[2, 1042, 650].nbytes)

In [None]:
print(imagenes_seleccionadas.shape)

In [None]:
array_uint8 = imagenes_seleccionadas.astype(np.uint8)

# Dividir cada elemento en dos partes de 1 byte
array_byte0 = np.unpackbits(array_uint8 & 0b00000001, axis=-1)
array_byte1 = np.unpackbits(array_uint8 >> 1, axis=-1)

print(array_byte0[2, 1042, 650].nbytes)
print(array_byte1[2, 1042, 650].nbytes)

In [None]:
aVer = npArrayNormalized(imagenes_seleccionadas, 720)
aVer2 = ArraySep(imagenes_seleccionadas)

print(imagenes_seleccionadas.shape)
print(aVer[0].shape)  # Dimensiones del primer byte
print(aVer[1].shape)  # Dimensiones del segundo byte
print(aVer.shape)
print (aVer[2][650][650][1].nbytes)

valores_unicos, recuentos = np.unique(aVer[2, :, :,0], return_counts=True)

print("Valores únicos de la primera componente y sus recuentos:")
for valor, recuento in zip(valores_unicos, recuentos):
    print("Valor:", valor, "- Cantidad:", recuento)

# valores_unicos, recuentos = np.unique(resultado[:, :, :, 1], return_counts=True)

# print("Valores únicos de la Segunda componente y sus recuentos:")
# for valor, recuento in zip(valores_unicos, recuentos):
#     print("Valor:", valor, "- Cantidad:", recuento)

In [None]:
primera_columna = resultado[:, :, :, 1]

# Obtener valores únicos y sus recuentos
valores_unicos, recuentos = np.unique(primera_columna, return_counts=True)

# Mostrar los valores únicos y sus recuentos
for valor, recuento in zip(valores_unicos, recuentos):
    print("Valor:", valor, "- Cantidad:", recuento)

In [None]:
def ArraySep(array):
    array_uint8 = array.astype(np.uint16)
    array_byte0 = (array_uint8 & 0xFF).astype(np.uint8)
    array_byte1 = ((array_uint8 >> 8) & 0xFF).astype(np.uint8)
    arrays = [array_byte0, array_byte1]
    
    arrays = np.transpose(np.array(arrays), (1, 2, 3, 0))
    return arrays

In [None]:
def npArrayNormalized(array,tamano_cuadrado):
    array_uint8 = array.astype(np.uint16)
    array_byte0 = (array_uint8 & 0xFF).astype(np.uint8)
    array_byte1 = ((array_uint8 >> 8) & 0xFF).astype(np.uint8)
    array_byte01 = []
    array_byte11 = []
    
    for i in range(array.shape[0]):  # Recorrer la dimensión 0 del array
        # Redimensionar y agregar los bytes a las listas
        array_byte01.append(cv2.resize(array_byte0[i], (tamano_cuadrado, tamano_cuadrado)))
        array_byte11.append(cv2.resize(array_byte1[i], (tamano_cuadrado, tamano_cuadrado)))
    
    # Convertir las listas de bytes a arrays de NumPy
    array_byte01 = np.array(array_byte01)
    array_byte11 = np.array(array_byte11)
    
    arrays = [array_byte01, array_byte11]
    
    arrays = np.transpose(np.array(arrays), (1, 2, 3, 0))
    return arrays