# __Casos de uso__
<font color='red' size=5>Grupo 8.</font>

<font color='red'>Módulo: Deep Learning </font>

<font color='red'>__ATENCIÓN:__:<br>
Indicamos los caso de uso con el nombre del alumno.</font>

# <font color='blue'>**Caso de uso: Alejandro Heredia**</font>

#Predicción de Germinación de Semillas con Redes Neuronales Profundas

## Problema
Actualmente, la empresa realiza pruebas manuales para estimar la tasa de germinación de lotes de semillas, lo cual es costoso y lento. Se busca automatizar la predicción de la tasa de germinación usando datos históricos y ambientales, para optimizar los procesos de selección y distribución.

---

## Solución Propuesta

### Objetivo

Desarrollar un modelo de aprendizaje profundo (red neuronal densa) que prediga la tasa de germinación de un lote de semillas a partir de variables como:
- Humedad y temperatura durante el almacenamiento
- Edad del lote
- Tipo de semilla
- Resultados de pruebas químicas

### Metodología

1. **Recolección de datos:**  
   - Extraer datos históricos de pruebas de germinación y condiciones de almacenamiento.

2. **Preprocesamiento:**  
   - Normalizar variables numéricas.
   - Codificar variables categóricas (tipo de semilla).

3. **Modelado:**  
   - Construir una red neuronal simple con capas densas, activación ReLU y una capa de salida lineal.

4. **Evaluación:**  
   - Dividir datos en entrenamiento y validación.
   - Medir el MAE y el R².

5. **Despliegue:**  
   - Integrar el modelo en una herramienta interna para predicción rápida.




A continuación un pseudocódigo explicando los pasos

```
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# 1. Preprocesamiento
X, y = cargar_datos() # Variables y tasa de germinación
X_num, X_cat = separar_numericas_categoricas(X)
X_num = StandardScaler().fit_transform(X_num)
X_cat = OneHotEncoder().fit_transform(X_cat).toarray()
X_pre = np.concatenate([X_num, X_cat], axis=1)

X_train, X_val, y_train, y_val = train_test_split(X_pre, y, test_size=0.2)

# 2. Modelo
model = tf.keras.Sequential([
tf.keras.layers.Dense(32, activation='relu', input_shape=(X_pre.shape,)),
tf.keras.layers.Dense(16, activation='relu'),
tf.keras.layers.Dense(1, activation='linear')
])
model.compile(optimizer='adam', loss='mae', metrics=['mae'])

3. Entrenamiento
model.fit(X_train, y_train, epochs=30, batch_size=16, validation_data=(X_val, y_val))

4. Evaluación
mae, _ = model.evaluate(X_val, y_val)
print(f"MAE en validación: {mae:.2f}")


```




# <font color='blue'>**Caso de uso: Fernanda Jahn**</font>
## **Clasificación de niveles de espuma en reactores biológicos de PTARs mediante Análisis de Imágenes**

**Contexto y problema:**
En los reactores biológicos de plantas de tratamiento de aguas residuales (PTARs), la presencia de espuma en la superficie puede ser un indicio de condiciones operacionales inestables. Aunque un cierto nivel de espuma es normal en sistemas biológicos aireados, la acumulación excesiva puede dificultar la transferencia de oxígeno, indicar sobreactivación del lodo o presencia de compuestos no biodegradables, e incluso generar riesgos de sobreflujo o impacto ambiental. Actualmente, la detección de espuma se realiza visualmente por los operadores, lo que limita la frecuencia y objetividad del monitoreo.

**Propuesta:**
Se propone desarrollar un modelo de clasificación de imágenes basado en redes neuronales convolucionales (CNN), entrenado con un conjunto de imágenes capturadas automáticamente por una cámara fija sobre el reactor (espuma_imagenes). El objetivo es categorizar cada imagen en uno de tres niveles operacionales de presencia de espuma:

- **Condición Normal**: sin presencia relevante de espuma.

- **Advertencia**: acumulación moderada que podría escalar si no se corrige.

- **Crítica**: presencia excesiva que requiere intervención inmediata.

Este modelo podrá integrarse a un sistema de alerta o activarse como parte de una lógica de control para ajustar aireación, recirculación o aplicar antiespumantes si fuera necesario.


**Explicación de los pasos de desarrollo:**

1. **Recolección y preparación de datos**:

Dataset espuma_imagenes, con imágenes etiquetadas en las tres clases (normal, advertencia, critico), distribuidas en carpetas o con etiquetas en un DataFrame.

2. **Preprocesamiento**:

Redimensionamiento de imágenes, normalización de pixeles y división en entrenamiento, validación y test.

3. **Arquitectura del modelo**:

Red neuronal convolucional simple (como un modelo estilo LeNet o CNN básica con Conv2D → ReLU → MaxPool → FC → Softmax).

4. **Entrenamiento**:

Con CrossEntropyLoss y optimizador Adam, usando dataloaders con batch training.

5. **Evaluación y métricas**:

Accuracy, matriz de confusión, precision/recall para las clases.

### <font color='blue'> 1. Pseudocódigo de la Solución

In [None]:
# Paso 1: Cargar dataset
dataset = cargar_dataset_de_imagenes('espuma_imagenes', etiquetas=['normal', 'advertencia', 'critico'])

# Paso 2: Preprocesamiento
imagenes, etiquetas = preprocesar_imagenes(dataset, tamaño=(64,64), normalizar=True)
train, val, test = dividir_dataset(imagenes, etiquetas, proporciones=(0.7, 0.2, 0.1))

# Paso 3: Crear dataloaders
trainloader = crear_dataloader(train, batch_size=32)
valloader = crear_dataloader(val, batch_size=32)
testloader = crear_dataloader(test, batch_size=32)

# Paso 4: Definir red convolucional
modelo = RedConvolucional(
    conv1=(filtros=8, kernel=3),
    conv2=(filtros=16, kernel=3),
    fc=(128, 3),  # 3 clases de salida
    activacion='relu',
    salida='softmax')

# Paso 5: Entrenar modelo
for epoch in range(num_epochs):
    for batch in trainloader:
        x, y = batch
        y_pred = modelo(x)
        loss = cross_entropy(y_pred, y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

# Paso 6: Evaluación en set de validación y test
evaluar_modelo(modelo, valloader)
evaluar_modelo(modelo, testloader)

Uno de los principales desafíos en la implementación de este tipo de modelo es su fuerte dependencia de la calidad del set de imágenes. Factores como iluminación variable, condiciones climáticas o el ángulo de la cámara pueden afectar la claridad con que se observa la espuma, impactando directamente la precisión del modelo. A esto se suma la dificultad de la etiquetación, ya que la clasificación entre condiciones “normales”, “moderadas” y “críticas” suele ser subjetiva y dependerá de la experiencia de los operadores humanos. Si el dataset de entrenamiento contiene etiquetas inconsistentes o sesgadas, el modelo aprenderá una clasificación igualmente ambigua.

Para abordar estas limitaciones, se podrían considerar estrategias complementarias como:

- Aumentar el dataset usando técnicas de data augmentation (rotación, brillo, contraste) para mejorar la robustez del modelo.

- Incorporar etiquetado colaborativo, donde varios operadores etiqueten las imágenes y se obtenga una votación o consenso por imagen.

- Integrar el modelo con datos contextuales del proceso (como el nivel de aireación, temperatura u OD) para que el sistema no dependa solo de la imagen.

- Usar modelos más avanzados, como redes preentrenadas (transfer learning) con redes CNN como ResNet o EfficientNet, que pueden adaptarse mejor con pocos datos etiquetados.

Estas mejoras permitirían aumentar la confiabilidad del sistema en operación real, y avanzar hacia una supervisión autónoma más precisa del estado superficial de los reactores.

# <font color='blue'>**Caso de uso: Gonzalo Barria**</font>
## ***Segmentación de Estudiantes de AIEP y Reducción de Dimensionalidad con Autoencoder en PyTorch***

El **Instituto Profesional AIEP** es una institución de educación superior con 58 años de experiencia formando profesionales y técnicos de nivel superior para el desarrollo de Chile. Algunas de sus características son que tiene 150.008 metros cuadrados de instalaciones para estudiantes, 96 carreras profesionales y técnicas presenciales y a distancia, 7 Escuelas en distintas áreas del conocimiento, 4.551 docentes insertos en el medio laboral y un 91% empleabilidad promedio de sus titulados.

En su administración como **Instituto Profesional AIEP** presenta varios desafíos y dado mi rol como ingeniero de estudios en **AIEP**, podría desarrollar un caso de uso para apoyar a la institución con sus datos académicos y otros indicadores usando Python.

**AIEP** enfrenta el desafío de administrar grandes volúmenes de datos relacionados con el rendimiento académico, asistencia y otros indicadores clave de sus estudiantes. Sin un adecuado tratamiento de datos, es difícil identificar tendencias, detectar problemas tempranos como deserción estudiantil y optimizar procesos educativos.

Para abordar este desafío, el uso de Python y bibliotecas específicas como NumPy,Pandas, Matplotlib y PyTorch permite una gestión eficiente de los datos, desde su obtención hasta su análisis e incluso su visualización.

**Con Deep Learning** podemos ir más allá de modelos clásicos:

**Contexto y Problema**

El Instituto Profesional AIEP gestiona grandes volúmenes de datos académicos relacionados con el rendimiento estudiantil, asistencia, tasas de aprobación y deserción. Sin herramientas adecuadas de visualización, es difícil comunicar patrones y tendencias de manera clara y persuasiva a tomadores de decisiones.

**Datos:** Variables numéricas (calificaciones parciales, asistencia %, participación), secuencias temporales (historial de asistencia), indicadores cualitativos codificados.

**Desafío:** Identificar segmentos de estudiantes con alto riesgo de deserción u bajo rendimiento; extraer representaciones latentes que capturen patrones complejos.

**Objetivos**

**Aprendizaje de Representaciones**

Usar un autoencoder profundo para reducir dimensionalidad y extraer un espacio latente que capture correlaciones no lineales.

**Segmentación (Clustering)**

Agrupar en el espacio latente para descubrir perfiles (e.g. “buenos promedios pero baja asistencia”).

**Clasificación Supervisada**

Entrenar una MLP (Multilayer Perceptron) sobre las representaciones latentes para predecir la probabilidad de aprobación (aprobado).

**Modelado Secuencial**

Convoluciones 1D sobre secuencias de asistencia para predecir tendencias de deserción temprana.

**Beneficios para AIEP:**

**Personalización de estrategias:** Permite diseñar intervenciones específicas para cada segmento.

**Optimización de recursos:** Identifica grupos que requieran apoyo académico especial.

**Comunicación efectiva:** Visualizaciones claras para facilitar la toma de decisiones en equipos interdisciplinarios.





<font color='red'>__ATENCIÓN__: En este caso se utiliza código en python, pero solo como referencia, no es ejecutable en este notebook (produciría un error). EN CASO DE SER EJECUTABLE LOS DATOS SON FICTICIOS Y SOLO SIRVEN COMO REFERENCIA</font>
### **Segunda etapa (Desarrollo de código en Python)**

**Ejemplos de Código**

**1. Autoencoder para Reducción de Dimensionalidad**







In [None]:
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset

# Definición de Autoencoder
class Autoencoder(nn.Module):
    def __init__(self, input_dim, latent_dim=3):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, 16), nn.ReLU(),
            nn.Linear(16, latent_dim)
        )
        self.decoder = nn.Sequential(
            nn.Linear(latent_dim, 16), nn.ReLU(),
            nn.Linear(16, input_dim), nn.Sigmoid()
        )
    def forward(self, x):
        z = self.encoder(x)
        return self.decoder(z), z

# Preparar datos
X = torch.tensor(df[['calificacion_parcial','asistencia','participacion']].values, dtype=torch.float32)
ds = TensorDataset(X, X)
loader = DataLoader(ds, batch_size=32, shuffle=True)

# Entrenamiento
model_ae = Autoencoder(input_dim=3, latent_dim=2)
opt = torch.optim.Adam(model_ae.parameters(), lr=1e-3)
loss_fn = nn.MSELoss()

for epoch in range(50):
    for x_batch, _ in loader:
        recon, _ = model_ae(x_batch)
        loss = loss_fn(recon, x_batch)
        opt.zero_grad(); loss.backward(); opt.step()


Al finalizar, model_ae.encoder proyecta cada estudiante a un espacio latente de dimensión 2.

**2: Clustering en el Espacio Latente**



In [None]:
# Obtener representaciones
with torch.no_grad():
    Z = model_ae.encoder(X).numpy()

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=42).fit(Z)
df['cluster'] = kmeans.labels_


**Interpretación:** Cada cluster puede corresponder a “alto rendimiento y alta asistencia”, “bajo rendimiento y baja participación”, etc.

**3:Clasificación con MLP sobre Latentes**

In [None]:
# Dataset latente + objetivo
Z_tensor = torch.tensor(Z, dtype=torch.float32)
y_tensor = torch.tensor(df['aprobado'].values, dtype=torch.float32).unsqueeze(1)
ds2 = TensorDataset(Z_tensor, y_tensor)
loader2 = DataLoader(ds2, batch_size=16, shuffle=True)

class MLPClassifier(nn.Module):
    def __init__(self, in_dim):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(in_dim, 8), nn.ReLU(),
            nn.Dropout(0.3),            # módulo de dropout (Clase 5)
            nn.Linear(8, 1), nn.Sigmoid()
        )
    def forward(self, x):
        return self.net(x)

model_clf = MLPClassifier(in_dim=2)
opt2 = torch.optim.Adam(model_clf.parameters(), lr=1e-3)
loss_bce = nn.BCELoss()

# Entrenamiento
for epoch in range(30):
    for z_batch, y_batch in loader2:
        y_pred = model_clf(z_batch)
        loss = loss_bce(y_pred, y_batch)
        opt2.zero_grad(); loss.backward(); opt2.step()


**Evaluación:** dividir Z_tensor en train/test y calcular accuracy, matriz de confusión, ROC, etc.

**4. Predicción de Tendencias con Convoluciones 1D**

Si disponemos de la serie temporal de asistencia diaria/semanal por estudiante, podemos usar un modelo 1D CNN (módulos DL12):

In [None]:
class Conv1DNet(nn.Module):
    def __init__(self, seq_len):
        super().__init__()
        self.conv = nn.Sequential(
            nn.Conv1d(1, 16, kernel_size=3), nn.ReLU(),
            nn.MaxPool1d(2),                  # DL10
            nn.Conv1d(16, 32, kernel_size=3), nn.ReLU(),
            nn.MaxPool1d(2)
        )
        # calcular salida tras conv+pool según seq_len...
        self.fc = nn.Linear(32 * L, 1)      # L = tamaño tras pooling

    def forward(self, x):
        x = self.conv(x.unsqueeze(1))
        x = x.view(x.size(0), -1)
        return torch.sigmoid(self.fc(x))


**Uso:** entrenar para predecir deserción (0/1) basada en la ventana histórica de asistencia.

**Conclusiones y Aplicaciones**

**Representaciones profundas** permiten capturar relaciones no lineales entre variables.

**Clusters** en latente revelan perfiles ocultos de estudiantes.

**Regularización** con Dropout mejora la generalización del MLP (Clase 5).

**Modelos secuenciales (1D CNN)** pueden anticipar deserción a partir de patrones de asistencia, ampliando el análisis más allá del snapshot puntual.

**Con esta estrategia, AIEP cuenta con:**

Diagnóstico avanzado de riesgo académico.

Intervenciones personalizadas según segmentos descubiertos.

Predicciones tempranas de deserción para optimizar recursos de acompañamiento.




# <font color='blue'>**Caso de uso: Rodrigo Fuenzalida**</font>

Aquí tienes un caso de uso más sencillo con deep learning, manteniendo la temática dental pero reducido en complejidad y tamaño:


### Caso de Uso: Detección de Caries en Radiografías Dentales (Deep Learning - Clasificación Binaria)

#### 1. Introducción
**Objetivo**:  
Crear un modelo de deep learning que clasifique automáticamente radiografías dentales en "Caries" (1) o "Sin Caries" (0), para asistir a odontólogos en diagnósticos rápidos.

**Dataset**:  
- 1000 imágenes de radiografías etiquetadas (500 con caries, 500 sin caries).
- Tamaño de imagen: 224x224 píxeles (RGB).

#### 2. Pseudocódigo

```python
# 1. Cargar y preprocesar datos
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# Generadores de datos con aumento para entrenamiento
train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=20,
    zoom_range=0.2,
    validation_split=0.2  # 80% entrenamiento, 20% validación
)

train_data = train_datagen.flow_from_directory(
    'ruta_imagenes/',
    target_size=(224, 224),
    batch_size=32,
    class_mode='binary',
    subset='training'
)

val_data = train_datagen.flow_from_directory(
    'ruta_imagenes/',
    target_size=(224, 224),
    batch_size=32,
    class_mode='binary',
    subset='validation'
)

# 2. Construir modelo CNN simple
model = tf.keras.Sequential([
    tf.keras.layers.Conv2D(32, (3,3), activation='relu', input_shape=(224,224,3)),
    tf.keras.layers.MaxPooling2D(2,2),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

# 3. Compilar y entrenar
model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)

history = model.fit(
    train_data,
    validation_data=val_data,
    epochs=10
)

# 4. Evaluar
test_loss, test_acc = model.evaluate(val_data)
print(f'Precisión en validación: {test_acc:.2f}')

# 5. Guardar modelo para uso clínico
model.save('modelo_deteccion_caries.h5')
```

#### 3. Salida Esperada
```
Found 800 images belonging to 2 classes.
Found 200 images belonging to 2 classes.
Epoch 1/10
25/25 [==============================] - 30s 1s/step - loss: 0.6928 - accuracy: 0.5000 - val_loss: 0.6931 - val_accuracy: 0.5000
...
Epoch 10/10
25/25 [==============================] - 28s 1s/step - loss: 0.3012 - accuracy: 0.8875 - val_loss: 0.3500 - val_accuracy: 0.8500
Precisión en validación: 0.85
```




