# 1. Comprensión del Problema

En esta fase inicial, el objetivo es entender la naturaleza de los datos y verificar que la carga de imágenes y etiquetas es correcta.

* **Contexto:** El glaucoma es una enfermedad neurodegenerativa que afecta al nervio óptico. ***Es una de las principales causas de ceguera en el mundo y su diagnóstico es complejo, ya que requiere de múltiples pruebas debido a que no existe un único estándar de oro***.
* **Preparación previa:** ***En un flujo de trabajo inicial se deberían obtener las máscaras mediante técnicas de segmentación, pero en este ejercicio ya disponemos de ellas (ground truth) para facilitar el análisis***.
* **Lectura de metadatos:** Cargamos el archivo Excel que contiene las etiquetas y las rutas de las imágenes. ***Contamos con un dataset balanceado de 189 muestras (93 con glaucoma y 96 sanas), lo cual es ideal para evitar sesgos hacia una clase específica durante el entrenamiento***.
* **Inspección visual:** Seleccionamos muestras aleatorias para validar que las máscaras de la retina y de la capa de fibras nerviosas (RNFL) coinciden con la imagen original. ***El grosor de la capa RNFL es el biomarcador más crítico para el diagnóstico clínico de esta enfermedad***.

### Implementación en Python

```python
import pandas as pd
import numpy as np
import random
import cv2
import matplotlib.pyplot as plt

# 1. Extraer información de interés
# Leemos la información del documento Excel (ajustar separador si es necesario)
dataFrame = pd.read_csv('glaucoma.csv', sep=';') 

# Extraer las clases y su frecuencia para verificar el balanceo
clases, frc = np.unique(dataFrame.Class, return_counts=True)
print(f"Clases: {clases}")
print(f"Frecuencias: {frc}")

# 2. Selección de muestra aleatoria de nuestra base de datos
idx = random.randint(0, len(dataFrame) - 1)
path_img = dataFrame.iloc[idx]['Path']
path_mask = dataFrame.iloc[idx]['MaskPath']

# Usamos cv2 para leer las imágenes y verlas en python (escala de grises)
img = cv2.imread(path_img, 0)
rnfl_mask = cv2.imread(path_mask, 0)

# 3. Visualización: Leemos las máscaras y ploteamos los contornos sobre la imagen
plt.figure(figsize=(10, 5))
plt.imshow(img, cmap='gray')
# Dibujamos el contorno de la máscara sobre la imagen original
plt.contour(rnfl_mask, colors='red', linewidths=0.5) 
plt.title(f"Muestra: {idx} - Diagnóstico: {dataFrame.iloc[idx]['Class']}")
plt.axis('off')
plt.show()

# Compresión del problema


- Objetivo
- Contexto
    - Glaucoma
- Procedimiento diagnóstico

1. Comprensión del Problema
En esta fase inicial, el objetivo es entender la naturaleza de los datos y verificar que la carga de imágenes y etiquetas es correcta.

Contexto: El glaucoma es una enfermedad neurodegenerativa que afecta al nervio óptico. Es la principal causa de ceguera irreversible en el mundo y su diagnóstico es complejo porque no depende de una sola prueba.

Preparación previa: En un flujo de trabajo inicial se deberían obtener las máscaras mediante segmentación, pero en este ejercicio ya disponemos de ellas (ground truth).

Lectura de metadatos: Cargamos el archivo Excel que contiene las etiquetas y rutas. El dataset está balanceado (93 glaucoma / 96 sanos), por lo que no sufriremos sesgos de clase durante el entrenamiento.

Inspección visual: Seleccionamos muestras aleatorias para validar que las máscaras de la retina y de la capa de fibras nerviosas (RNFL) coinciden con la imagen original. Recordemos que el grosor de la RNFL es el biomarcador clave para detectar el daño.


In [None]:
# Extraer información de interés
import numpy as no
clases, frc = np.uniques(dataFrame.Class, return_Counts=True)
Print

In [None]:
# Seleccion una muestra aleatoria de nuestra base de datos
import random
import cv2
import

In [None]:
# Leesmos las máscaras y ploteamos los contonos sobre la imagen original
rnfl_mask = cv2.impread()

# Partición externa de datos

- Separar conjutno de test z conjunto de entrenamiento
- leer la información del documento Excel original
- Hacemos la particion externa de los datos ()
    -alternativa-->  train, test = train_test_split(dataFrame, test_size=0.2, shuffle=True, random_state=42) # hold-out
Se crean los subconjuntos
- Miramos las muestras que se han subdividido
- Pasamos a aleatorizar las muestras
- Por ultimo guardmos los modelos.

In [None]:
# Partición externa de los datos
from sklearn.model_Selection import train_test_split, KFold




In [None]:
# Aleatorizar los dataframes


In [None]:
# Gurdado de los modelos


# Extracción de características

- Cogemos los archivos csv extraidos antes, de entrenamiento y de test y los cargamos.
- Ponemos las muestras en un bucle for para extraer las caracteristicas que queremos. COmenzamos con las caracteristicas de una muestra, y una vez las tengamos, ampliamos el for a todas las muestras.
- Importamos las libreria cv2 para leer las imagen y le indicamos donde estan. (ha usado0 para usar escala de grises)
- Importmaos mathplotlib.pyplot para visualizar
- Vislualizamos los datos que nos interesan y buscamos la información de interes.
- Aplicamos estadisticos unidimensionsanes
        - bucle for para detectar las posicions donde la mascra esta en balnco (=255). Se extraen los indices
        - se pasan a un numpy array
    - Caracteristicas basadas en medidads de tendencia central (media, mediana)
    -  Caracteristicas basadas en medidads de dispersion.(desviacion estandar)
    -  Caracteristicas de distribucion (importar scipy stats). Curtosis y asimetria
    -  Otras caracteristicas (minimo, y maximo)
    -  Agrupamos las caracteristicas de unidimensionales
- Caracteristicas bidimensionales
    - Extraer el bounding box (skiimage.mneasure , regioprops)
    - Y hacemos un crop para mantener la parte que nos interesa
    - Extrar caracteristicas de textura (miden cambio intensidad)
        - matriy concurencia lray level (GLCM) grecomtriy, greycrops
            - extraemos en contraste de la matriz
            - disimulitud
            - homogeneidad
            - ASM
            - energia
            - correlacion
            -  
        - Local binary patterns (LBP) 
            -  Definir radio r y numero de vecinos, y el método
            -  pasar a uint8
            -  sacar el histograma
    -  Agruapamsos las caratreisticas t te etxtura
- Matriz de datos construidas, pero ahora hay que poner las etiquestas..
- Finalmente concatenamos todas la caacteristicas mas la variable de la etiqueta.
- Despues de haber extraido las caratceristica con una muestra, pues enxtendemos a todas las muetras
- creamos la funcion de extraccion para poder usar con otro dataframe, y que devuelva la matriz de datos. Entonces se hara para el test y el train.
- Creamos la carpeta "features" por ejmplo, donde se almaceranaran las estdisticas en un archivos npy. Creamos el archivo con las caracteristicas para train y test.

# Selección de características

- Cargar los datos de entrenamiento en una variable ej. train_matrix
- Seleccionas las features y target  (última comlumna deberia ser la clase)
- Procedemos a la estandarizacion de los datos de entrenamiento
    - sklearn.preprocessing import StandardScaler
    - extraer la mu y la sigma
- Selecion de los atributos (caracteristicas)
- Estudiar si las varibale ssiguen una distribucion normal de meido 0 disviacion tipica 1 --> n(0,1)
- scipy.stats import kstets # PRueba de Komorov-Smirnov
- defninir Nivel de confinaza para elaborar un contraste de hipotesis
- extramos un p-valor y los comparamos
- En un bucle for analizamos las caracteristicas
- Si pvalor menor o igual que alpfa rechazamos la hipoesis nula
- Identificar las variables que siguen o no esa normalidad
- Estudiad la capacidad discriminativa de los atributis en funcion de su distribucion
    - t-stundet (compracion de medias) para los que siguen distribucion normal
    - mannhwhitneyu (comparacion de medianas). Interesa la qe las medianas sean diferentes, para poder discriminar. Es decir, podemos ver que cacrateristicas toman valores difertnes dependiendo de la clase. Entonces, si no discriminatoria, entonces no nos ayuda.
    - Es importante miran que caracetristicas son las discriminatorias
    - Contraste de hipotesis, estudiar el poder discriminatoria de las caracteristicas
    - H0: independencia entre la caracterirca y la clase.
    - if pvalue<=alpha, se rechaza la HOy , por tanto, asumimos la depencidia entre la caracteristica y la calse
    - Else , no hay evidendcia para rechazar la Ho y, por tanto, asumimos que la carcteristica y la calse son independientes.
- De aqqui elemininamos las variables que no son discrimnatorias.
-  borrar las mu y la sigma donde tengo variables que no son discriminatorias
-  VIsualizacion de ticks (diagrama caja bigotes)
-  HAcemos la funcion draw_boxplot para hacer el diagrama caja bigotes.
-  Cuando mas separadas las cajas menjor, porque la caracteristica es un buen discriminador.
-  Ahora buscaremos una correlacion entre las carataeristicas, para evitar que den la misma informacion y asi reducir el coste computacional.
-  Analisis de correlacion para ver la dependnecia entre pares de variables
-  Creacion de la matriz de correlacion
-  Fiajmos un umbral de correlacion para filtrar for ejemplo 0,9 (90%)
-  definimos un indice que nos dire donde se pasa eese eumbral en la matriz.
-  Cremoa matriz triangular superior para saber donde estan las variables correladas. Lo pasamos a  uint8.
-  buscamos cdonde las columnes valen 1, para encontrar las varibaes
-  Eliminamos las varibales correlacionadas
-  Guardamos la matrz de características final para el train y el test
     

# Modelado
- Cargar los datos de entrenamiento
- Definir los modelos de clasficacion
    - Utilizar el perceptron multicapa, que permite clasificar datos de manera no lineal durante el forward y backpropagation
    -  Los algortimos multipcapa del perceptron se puede usar para clasificacion y regresion
- Importan el modelo linea para usar el logisticregession y el multicapa MLP
-  DefinirLOGR penalyt=12, solver= lbfgs, max iter =100, random state:42
-  Definir MLP Hidden_layer_sizesm funciones activation (relu, solver adam, batch suze= auto,m laerning rate=constant, learning rate_init=0.001, max_iter=200 (a veces se neceista mas), rando_state=42)
- Cross-validaten interno en k=5 bolsas (cross_val_score, Kfold)
    - gurdamos los resultados en un diccionaio
    - A partir de aqui vamos ajustamo parametros para obtener la mejor accuracy
- Construimos el modelos definitio
    - Atributos se obtienen durante el entrnamiento
 - Guardar modelos
     - Se hace en pickle

# Evaluación de resultados.
- Cargar los datos del test
- Se cargan los modelos entrenados (Pickel)
- Extraer las predicciones
- Evaluar diversas metricas de clasificacion
    - Precision
    - Sensibilidad
    - F1-score
    - accuracy
    - AUC
- Se hace un for in range (0,2) para LOGR
- se ponen todos los datos en tuplas para ver los resultados
- Se hace la matriz de confusion