> 🧑Bustamante Juárez Eduardo. 🔢 Matrícula: 10056926 📬eduardo.bustamantej@uaem.edu.mx

> 🏫 Centro de Investigación en Ciencias (UAEM). 📌 Cuernavaca, Morelos.

> 🌐 [Datos almacenados en Carpeta de Google Drive con vista pública.](https://drive.google.com/drive/folders/1vfuFmIgW4S58i5dWlpR5_IobWIC-Anih?usp=sharing)


# 🦾 Estractor de datos.

--- 

**Descripción:** notebook de Python donde se realizara y documentara el script encargado de la extracción de información desde el conjunto de datos original. 

🎯 **Objetivo:** Realizar la extracción de información vital de las topografías almacenadas en el set de datos. 

> 📌 Importación de librerías. 

In [1]:
%pip install pillow numpy

Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
import csv
import re
from PIL import Image #type: ignore
import numpy as np    #type: ignore

## Obtener ruta path de las imagenes.

Ruta base donde están las carpetas "Independent Test Set" y "Train_Validation sets"

In [3]:
base_dir = r'C:\Users\Busta\Documents\GitHub\BSeIB_Keratoconus'
train_validation_dir = os.path.join(base_dir, 'Train_Validation sets')
independent_test_dir = os.path.join(base_dir, 'Independent Test Set')

Mapeo de etiquetas

In [4]:
label_map = {
    0: 'Normal',
    1: 'Suspect',
    2: 'Keratoconus'
}

Prefijos para los nombres de archivos según la etiqueta

In [5]:
prefix_map = {
    0: 'NOR',
    1: 'SUSP',
    2: 'KCN'
}

In [6]:
def get_image_paths(root_folder, label_map, prefix_map):
    data = []
    patient_id = 1
    
    for label, label_name in label_map.items():
        label_folder = os.path.join(root_folder, label_name)
        cases = os.listdir(label_folder)
        
        for case in cases:
            case_folder = os.path.join(label_folder, case)
            image_files = os.listdir(case_folder)
            
            # Filtrar solo archivos de imágenes
            image_files = [file for file in image_files if file.endswith('.jpg')]
            
            if len(image_files) != 7:
                continue
            
            prefix = prefix_map[label]
            case_number = case.split('case')[-1]

            CT_A = os.path.relpath(os.path.join(case_folder, f'{prefix}_{case_number}_CT_A.jpg'), base_dir)
            EC_A = os.path.relpath(os.path.join(case_folder, f'{prefix}_{case_number}_EC_A.jpg'), base_dir)
            EC_P = os.path.relpath(os.path.join(case_folder, f'{prefix}_{case_number}_EC_P.jpg'), base_dir)
            Elv_A = os.path.relpath(os.path.join(case_folder, f'{prefix}_{case_number}_Elv_A.jpg'), base_dir)
            Elv_P = os.path.relpath(os.path.join(case_folder, f'{prefix}_{case_number}_Elv_P.jpg'), base_dir)
            Sag_A = os.path.relpath(os.path.join(case_folder, f'{prefix}_{case_number}_Sag_A.jpg'), base_dir)
            Sag_P = os.path.relpath(os.path.join(case_folder, f'{prefix}_{case_number}_Sag_P.jpg'), base_dir)
            
            data.append({
                'PatientID': patient_id,
                'Label': label,
                'CT_A': CT_A,
                'EC_A': EC_A,
                'EC_P': EC_P,
                'Elv_A': Elv_A,
                'Elv_P': Elv_P,
                'Sag_A': Sag_A,
                'Sag_P': Sag_P
            })
            patient_id += 1
    
    return data

Obtener datos para Train_Validation sets

In [7]:

train_data = get_image_paths(train_validation_dir, label_map, prefix_map)

Escribir el archivo CSV para Train_Validation sets

In [8]:
train_csv_file = os.path.join(base_dir, 'train_validation_path.csv')
csv_columns = ['PatientID', 'Label', 'CT_A', 'EC_A', 'EC_P', 'Elv_A', 'Elv_P', 'Sag_A', 'Sag_P']

In [10]:
with open(train_csv_file, 'w', newline='') as csvfile:
    writer = csv.DictWriter(csvfile, fieldnames=csv_columns)
    writer.writeheader()
    for data in train_data:
        writer.writerow(data)

print(f'Archivo CSV para Train_Validation sets generado: {train_csv_file}')

Archivo CSV para Train_Validation sets generado: C:\Users\Busta\Documents\GitHub\BSeIB_Keratoconus\train_validation_path.csv


Obtener datos para Independent Test Set

In [11]:
test_data = get_image_paths(independent_test_dir, label_map, prefix_map)

Escribir el archivo CSV para Independent Test Set

In [12]:
test_csv_file = os.path.join(base_dir, 'independent_test_path.csv')

In [13]:
with open(test_csv_file, 'w', newline='') as csvfile:
    writer = csv.DictWriter(csvfile, fieldnames=csv_columns)
    writer.writeheader()
    for data in test_data:
        writer.writerow(data)

print(f'Archivo CSV para Independent Test Set generado: {test_csv_file}')

Archivo CSV para Independent Test Set generado: C:\Users\Busta\Documents\GitHub\BSeIB_Keratoconus\independent_test_path.csv
