# Histology

In [27]:
import numpy as np
import matplotlib.pyplot as plt
import cv2 as cv
import os
import tensorflow as tf
from tensorflow.keras.applications import MobileNetV2
from tensorflow.keras import models, layers
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
origen = "lung_scc"
destino = "pulmon_carcinoma"

# Listar archivos en la carpeta de origen
archivos = os.listdir(origen)

# Iterar sobre los archivos en la carpeta de origen
for archivo in archivos:
    ruta_origen = os.path.join(origen, archivo)
    ruta_destino = os.path.join(destino, archivo)
    
    # Verificar si el archivo es una imagen (puedes agregar más extensiones si es necesario)
    if archivo.lower().endswith(('.jpg', '.jpeg', '.png', '.bmp', '.tiff')):
        # Verificar si es un archivo (evitar carpetas u otros elementos)
        if os.path.isfile(ruta_origen):
            # Leer la imagen con OpenCV
            imagen = cv.imread(ruta_origen)
            if imagen is not None:
                # Convertir la imagen a escala de grises
                nueva_imagen = cv.cvtColor(imagen, cv.COLOR_BGR2GRAY)
                # Guardar la copia con el mismo nombre en la carpeta destino
                cv.imwrite(ruta_destino, nueva_imagen)
                print(f'Imagen copiada y procesada: {archivo}')
            else:
                print(f'Error al leer: {archivo}')
        else:
            print(f'Omitido (no es un archivo): {archivo}')
    else:
        print(f'No es una imagen: {archivo}')

In [12]:
# Parámetros
dataset_dir = "C:\\Users\\Dragut\\Desktop\\bobio\\Samsung\\PF"
batch_size = 32
img_size = (224, 224)  # Ajusta el tamaño deseado
validation_split = 0.2  # 20% de los datos para validación
seed = 123  # Semilla para reproducibilidad

# Carga del dataset para entrenamiento
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
    dataset_dir,
    validation_split=validation_split,
    subset="training",        # Usamos la parte de entrenamiento
    seed=seed,
    image_size=img_size,
    batch_size=batch_size,
    label_mode="categorical",  # O 'int' según tus necesidades
    shuffle=True
)

# Carga del dataset para validación
val_ds = tf.keras.preprocessing.image_dataset_from_directory(
    dataset_dir,
    validation_split=validation_split,
    subset="validation",      # Usamos la parte de validación
    seed=seed,
    image_size=img_size,
    batch_size=batch_size,
    label_mode='categorical',
    shuffle=True
)


# Verificar etiquetas asignadas
class_names = train_ds.class_names  # Debería mostrar ['cats', 'dogs']
print("Clases asignadas:", class_names)

# Verificar tamaños de los datasets
train_size = tf.data.experimental.cardinality(train_ds).numpy()
val_size = tf.data.experimental.cardinality(val_ds).numpy()

print(f"Entrenamiento: {train_size} batches")
print(f"Validación: {val_size} batches")

Found 15000 files belonging to 3 classes.
Using 12000 files for training.
Found 15000 files belonging to 3 classes.
Using 3000 files for validation.
Clases asignadas: ['pulmon_adenocarcinoma', 'pulmon_benigno', 'pulmon_carcinoma']
Entrenamiento: 375 batches
Validación: 94 batches


In [13]:
input_shape = (224, 224, 3)
num_classes = 3

In [19]:
base_model = MobileNetV2(weights="imagenet", include_top=False, input_shape=input_shape)

x = layers.GlobalAveragePooling2D()(base_model.output)
x = layers.Dense(1024, activation='relu')(x)
x = layers.Dropout(0.5)(x)
x = layers.Dense(1024, activation='relu')(x)
x = layers.Dropout(0.5)(x)
x = layers.Dense(3, activation="softmax")(x)

model = Model(inputs=base_model.input, outputs=x)

model.compile(optimizer=Adam(learning_rate=1e-4), metrics=['accuracy'], loss="categorical_crossentropy")

In [20]:
early_stopping = EarlyStopping(
    monitor='val_loss',       # Monitorea la pérdida de validación
    patience=5,               # Si no mejora en 5 épocas consecutivas, se detiene
    restore_best_weights=True # Restaura los mejores pesos durante el entrenamiento
)

with tf.device('/GPU:0'):
    history = model.fit(train_ds, validation_data=val_ds, epochs=50, callbacks=[early_stopping])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50


In [21]:
#Evaluamos el modelo
loss, accuracy = model.evaluate(val_ds)
print(f"Accuracy: {accuracy}")

Accuracy: 1.0


In [None]:
# Crear las listas de etiquetas verdaderas y predicciones
y_true_list = []
y_pred_list = []

for images, labels in val_ds:
    y_true_list.append(labels.numpy())  # Convertimos las etiquetas a numpy
    y_pred_probs = model.predict(images)  # Predecimos las probabilidades
    y_pred_labels = np.argmax(y_pred_probs, axis=1)  # Convertimos las probabilidades a 0 o 1
    y_pred_list.append(y_pred_labels)  # Guardamos las predy_test_clases = np.argmax(y_true, axis=1)icciones
    
y_test_clases = np.argmax(y_true, axis=1)

# Unir las listas de etiquetas verdaderas y predicciones
y_true = np.concatenate(y_true_list)
y_test_clases = np.argmax(y_true, axis=1)
y_pred = np.concatenate(y_pred_list)



In [33]:
# Crear la matriz de confusión
cm = confusion_matrix(y_true, y_pred)

# Visualizarla con seaborn
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.xlabel("Predicho")
plt.ylabel("Verdadero")
plt.title("Matriz de Confusión")
plt.show()

ValueError: Classification metrics can't handle a mix of multilabel-indicator and multiclass targets

In [30]:
y_pred

array([0, 1, 1, ..., 0, 2, 2], dtype=int64)