# Bloque 1: Configuraci칩n Inicial y Carga de Datos 游늭

Comenzamos importando las herramientas necesarias. Aunque se utilizan varias librer칤as para el an치lisis, visualizaci칩n y m칠tricas, **TensorFlow** (junto con su API Keras) es el pilar para la construcci칩n y entrenamiento de nuestro modelo de Deep Learning. Tambi칠n se emplean librer칤as como Pandas para la manipulaci칩n de datos y OS para interactuar con el sistema de archivos.

In [None]:
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import cv2

# Librer칤as de Scikit-learn para preprocesamiento y m칠tricas
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, classification_report, roc_curve, auc

# Imbalanced-learn para manejar desbalance de clases
from imblearn.over_sampling import RandomOverSampler

In [None]:

# Componentes de TensorFlow y Keras
import tensorflow as tf
from tensorflow.keras import layers, Model, callbacks
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.applications import ResNet50 # El modelo base que usaremos
from tensorflow.keras.applications.resnet import preprocess_input # Funci칩n de preprocesamiento espec칤fica para ResNet
from tensorflow.keras.metrics import AUC # M칠trica de 츼rea Bajo la Curva ROC

# Configuraci칩n para la visualizaci칩n y logs de TensorFlow
sns.set_style("whitegrid") # Estilo para los gr치ficos de Seaborn
tf.get_logger().setLevel('ERROR') # Suprime mensajes informativos de TensorFlow, mostrando solo errores


## 1.1 Definici칩n de Rutas y Carga de Datos
Las im치genes se encuentran almacenadas en un directorio local, estructurado con subcarpetas que representan cada una de las clases (categor칤as) de nuestro problema de clasificaci칩n.
- **base_path:** Es el directorio ra칤z que contiene las subcarpetas de las categor칤as.
- **categories:** Una lista con los nombres de las subcarpetas, que corresponden a nuestras etiquetas de clase (ej. "Healthy", "Tumor").

In [None]:
base_path = "/content/drive/MyDrive/ bootcamp experience/Machine Learning/mayo_2025/images"  # Directorio ra칤z donde se encuentran las carpetas de categor칤as
categories = ["Healthy", "Tumor"] # Nombres de las subcarpetas y nuestras clases

image_paths = []  # Lista para almacenar las rutas a cada imagen
labels = []       # Lista para almacenar la etiqueta de cada imagen

# Iterar sobre cada categor칤a definida
for category in categories:
    category_path = os.path.join(base_path, category) # Construir la ruta a la carpeta de la categor칤a
    if os.path.isdir(category_path):
        # Iterar sobre cada archivo de imagen dentro de la carpeta de la categor칤a
        for image_name in os.listdir(category_path):
            image_path = os.path.join(category_path, image_name) # Ruta completa a la imagen
            image_paths.append(image_path) # A침adir la ruta de la imagen a la lista
            labels.append(category)        # A침adir la etiqueta (nombre de la categor칤a) a la lista
    else:
        print(f"Advertencia: El directorio para la categor칤a '{category}' no fue encontrado en '{category_path}'")

In [None]:
# Crear un DataFrame de Pandas para almacenar las rutas de las im치genes y sus etiquetas
df = pd.DataFrame({"image_path": image_paths, "label": labels})
# Mostrar las primeras filas del DataFrame y la distribuci칩n de clases
print("DataFrame inicial con rutas de im치genes y etiquetas:")
print(df.head())
print("\nDistribuci칩n de clases inicial:")
print(df['label'].value_counts())