In [1]:
# Importar las bibliotecas necesarias
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from skimage.feature import local_binary_pattern
import numpy as np
import cv2
from os import listdir
from os.path import isfile, join
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, roc_auc_score
import csv
import concurrent.futures

# Definir la ruta de la carpeta con las imágenes
path = '../data'

# Categorías
categorias = ['NORMAL', 'PNEUMONIA']

# Lista de hiperparámetros HOG para probar
combinaciones_lbp = [
    {'radio': 1, 'n_puntos': 8 * 1},
    {'radio': 2, 'n_puntos': 8 * 2},
    {'radio': 3, 'n_puntos': 8 * 3},
    {'radio': 4, 'n_puntos': 8 * 4},
    {'radio': 5, 'n_puntos': 8 * 5},
]

total_data = []

def procesar_imagen(imagen_path, lbp_params, size, etiqueta):
    imagen = cv2.imread(imagen_path, cv2.IMREAD_GRAYSCALE)
    if imagen is None:
        print(f'No se pudo leer la imagen: {imagen_path}')
        return None, None

    imagen = cv2.resize(imagen, size)

    # Poner bien
    lbp = local_binary_pattern(imagen, lbp_params['n_puntos'], lbp_params['radio'], method='uniform')
    (hist, _) = np.histogram(lbp.ravel(),
                             bins=np.arange(0, lbp_params['n_puntos'] + 3),
                             range=(0, lbp_params['n_puntos'] + 2))
    hist = hist.astype("float")
    hist /= (hist.sum() + 1e-7)

    return hist, etiqueta

def cargar_datos(ruta, lbp_params, size=(128, 128)):
    datos = []
    etiquetas = []
    with concurrent.futures.ThreadPoolExecutor() as executor:
        futures = []
        for i, cat in enumerate(categorias):
            carpeta = join(ruta, cat)
            archivos = [f for f in listdir(carpeta) if isfile(join(carpeta, f))]
            for archivo in archivos:
                imagen_path = join(carpeta, archivo)
                futures.append(executor.submit(procesar_imagen, imagen_path, lbp_params, size, i))

        for future in concurrent.futures.as_completed(futures):
            fd, label = future.result()
            if fd is not None:
                datos.append(fd)
                etiquetas.append(label)

    if len(datos) == 0 or len(etiquetas) == 0:
        raise ValueError("No se pudieron cargar los datos. Asegúrate de que la ruta y las categorías son correctas.")

    return np.array(datos), np.array(etiquetas)


for lbp_params in combinaciones_lbp:
  # Cargar datos de entrenamiento, validación y prueba
  datos_entrenamiento, etiquetas_entrenamiento = cargar_datos(join(path, 'train'), lbp_params)
  datos_prueba, etiquetas_prueba = cargar_datos(join(path, 'test'), lbp_params)

  # Asegurarse de que hay datos para al menos dos clases
  if len(np.unique(etiquetas_entrenamiento)) < 2 or len(np.unique(etiquetas_prueba)) < 2:
      raise ValueError("Se debe cargar datos para al menos dos clases en cada conjunto de datos.")

  # Crear y entrenar el modelo RF
  modelo = RandomForestClassifier(random_state=42, n_jobs=-1)
  modelo.fit(datos_entrenamiento, etiquetas_entrenamiento)

  # Evaluar el modelo
  etiquetas_predichas = modelo.predict(datos_prueba)
  exactitud = metrics.accuracy_score(etiquetas_prueba, etiquetas_predichas)

  # Obtener la matriz de confusión
  cm = confusion_matrix(etiquetas_prueba, etiquetas_predichas)

  # Calcular Sensibilidad (Recall) y Especificidad
  sensibilidad = recall_score(etiquetas_prueba, etiquetas_predichas)
  especificidad = cm[0,0] / (cm[0,0] + cm[0,1])

  # Calcular Precisión y F1-Score
  precision = precision_score(etiquetas_prueba, etiquetas_predichas)
  f1 = f1_score(etiquetas_prueba, etiquetas_predichas)

  # Calcular AUC
  # AUC requiere las puntuaciones o probabilidades de clase positiva, no las etiquetas predichas.
  # Asegúrate de que tu modelo soporte `decision_function` o `predict_proba`.
  if hasattr(modelo, "decision_function"):
      scores = modelo.decision_function(datos_prueba)
  else:
      scores = modelo.predict_proba(datos_prueba)[:, 1]
  auc = roc_auc_score(etiquetas_prueba, scores)


  current_data = {
    'Exactitud': exactitud * 100,
    'Sensibilidad': sensibilidad * 100,
    'Especificidad': especificidad * 100,
    'Precisión': precision * 100,
    'F1-Score': f1,
    'AUC': auc
  }

  total_data.append(current_data)

  #nombre_archivo_csv = '/content/drive/MyDrive/Estudios/Máster IIR/Segundo cuatrimestre/Proyecto VAI-AAI/first_version/hog.csv'
  nombre_archivo_csv = "../results/lbp_combination_rf.csv"


  with open(nombre_archivo_csv, 'a+', newline='') as archivo:
      es_vacio = archivo.tell() == 0
      escritor = csv.writer(archivo)

      # Suponiendo que es_vacio indica si debemos escribir los encabezados
      if es_vacio:
          # Escribir los nombres de las claves del diccionario y luego los nombres de las métricas
          escritor.writerow(list(lbp_params.keys()) + list(current_data.keys()))

      # Escribir los valores del diccionario y luego los valores de las métricas
      escritor.writerow(list(lbp_params.values()) + list(current_data.values()))

  print("Datos guardados en el archivo CSV.")
  print("Claves:", list(lbp_params.keys()) + list(current_data.keys()))
  print("Valores:", list(lbp_params.values()) + list(current_data.values()))

  if len(total_data) == 3:
    if len(total_data) == len(combinaciones_lbp):
      # Encuentra el índice del mejor F1-Score
      index_mejor_f1 = max(range(len(total_data)), key=lambda i: total_data[i]['F1-Score'])

      # Encuentra la configuración HOG correspondiente al mejor F1-Score
      lbp_correspondiente = combinaciones_lbp[index_mejor_f1]

      for i in range(6, 10):
        data = {
          'radio': lbp_correspondiente['radio'],
          'n_puntos': i * lbp_correspondiente['radio'],
        }
        combinaciones_lbp.append(data)



Datos guardados en el archivo CSV.
Claves: ['radio', 'n_puntos', 'Exactitud', 'Sensibilidad', 'Especificidad', 'Precisión', 'F1-Score', 'AUC']
Valores: [2, 16, 72.27564102564102, 96.41025641025641, 32.05128205128205, 70.2803738317757, 0.812972972972973, 0.8360344071882534]
Datos guardados en el archivo CSV.
Claves: ['radio', 'n_puntos', 'Exactitud', 'Sensibilidad', 'Especificidad', 'Precisión', 'F1-Score', 'AUC']
Valores: [3, 24, 71.9551282051282, 97.17948717948718, 29.914529914529915, 69.79742173112339, 0.812433011789925, 0.8446088099934254]
Datos guardados en el archivo CSV.
Claves: ['radio', 'n_puntos', 'Exactitud', 'Sensibilidad', 'Especificidad', 'Precisión', 'F1-Score', 'AUC']
Valores: [4, 32, 72.91666666666666, 96.41025641025641, 33.76068376068376, 70.80979284369114, 0.8165038002171553, 0.8594126671049748]
Datos guardados en el archivo CSV.
Claves: ['radio', 'n_puntos', 'Exactitud', 'Sensibilidad', 'Especificidad', 'Precisión', 'F1-Score', 'AUC']
Valores: [4, 24, 73.557692307692