# __Casos de uso__
<font color='red' size=5>Grupo 8.</font>

<font color='red'>Módulo: Aprendizaje Supervisado </font>

<font color='red'>__ATENCIÓN:__:<br>
Indicamos los caso de uso con el nombre del alumno.</font>

# <font color='blue'>**Caso de uso: Alejandro Heredia**</font>

## Predicción de Rendimiento de Cultivos en una Empresa Semillera
Problema:
Nuestra empresa multinacional semillera enfrenta el desafío de predecir el rendimiento de diferentes variedades de cultivos en diversas condiciones climáticas y geográficas. Esto es crucial para optimizar la producción, reducir costos y mejorar la calidad de los productos. Actualmente, las decisiones se basan en experiencia y datos históricos, pero utilizando el conocimiento visto en este módulo podríamos implementar un sistema más preciso y escalable.

###Metodología:
####- Recolección de Datos:

Recopilar datos históricos de rendimiento de cultivos, incluyendo variables como tipo de semilla, condiciones climáticas (temperatura, precipitación), tipo de suelo, prácticas agrícolas y ubicación geográfica.

####- Preprocesamiento de Datos:

Limpiar y normalizar los datos para eliminar valores faltantes y outliers.

Transformar variables categóricas en numéricas si es necesario.

####- Selección del Modelo:

Utilizar algoritmos de aprendizaje supervisado como Regresión Lineal, Random Forest o Gradient Boosting para predecir el rendimiento de los cultivos.

####- Entrenamiento y Validación del Modelo:

Dividir los datos en conjuntos de entrenamiento y validación.

Entrenar el modelo con el conjunto de entrenamiento y evaluar su rendimiento con el conjunto de validación.

####- Implementación y Monitoreo:

Implementar el modelo en un sistema que permita la predicción continua del rendimiento de cultivos.

Monitorear el desempeño del modelo y ajustarlo según sea necesario.

A continuación un pseudocódigo explicando los pasos

```
# Paso 1: Importar librerías y cargar datos
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

df = pd.read_csv('datos_cultivos.csv')

# Paso 2: Preprocesamiento de datos
df = df.dropna()  # Eliminar filas con valores faltantes
df['tipo_semilla'] = pd.Categorical(df['tipo_semilla']).codes  # Transformar categóricas

# Paso 3: Dividir datos en entrenamiento y validación
X = df.drop('rendimiento', axis=1)  # Variables predictoras
y = df['rendimiento']  # Variable objetivo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Paso 4: Entrenar modelo
modelo = RandomForestRegressor(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# Paso 5: Evaluar modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Error cuadrático medio: {mse:.2f}")

# Paso 6: Implementar modelo para predicciones futuras
def predecir_rendimiento(datos_nuevos):
    return modelo.predict(datos_nuevos)

# Ejemplo de uso
datos_nuevos = pd.DataFrame({
    'tipo_semilla': [1],
    'temperatura': [25],
    'precipitacion': [100],
    'tipo_suelo': [2]
})
rendimiento_predicho = predecir_rendimiento(datos_nuevos)
print(f"Rendimiento predicho: {rendimiento_predicho[0]:.2f}")

```




Este pseudocódigo resume los pasos clave para desarrollar un sistema de predicción de rendimiento de cultivos utilizando aprendizaje supervisado.

# <font color='blue'>**Caso de uso: Fernanda Jahn**</font>
## **Estimación del Oxígeno Disuelto en Reactores Biológicos usando Modelos de Aprendizaje Supervisado (Soft-Sensor)**

En el caso de uso anterior, se agruparon días con condiciones operacionales similares en los reactores biológicos de la PTAR, para analizar cómo estas condiciones se relacionaban con el consumo energético. Como siguiente paso, se propone construir un soft-sensor de oxígeno disuelto (OD), que permita estimar esta variable a partir de otras que sí se miden de forma confiable y continua en la planta.

Esto es útil porque en la operación real, los sensores de OD en línea suelen ensuciarse, perder precisión o incluso dejar de funcionar por períodos largos. Un soft-sensor es básicamente un modelo que, usando otras variables del proceso, permite estimar cuánto OD hay en el reactor, sin depender exclusivamente del sensor físico.

Para entrenar este modelo, se usarían variables como flujo de aire, SST en el reactor, SST en la recirculación, pH, conductividad, temperatura del agua y el % de apertura de válvula de aire o tiempo de aireación. La idea es que el modelo aprenda la relación entre estas variables y el OD medido manualmente cada dos horas, y luego pueda predecir OD en todo momento.

Tener este tipo de estimación no solo permite validar si el sensor físico está entregando valores razonables, sino que también abre la puerta a automatizar los ciclos on/off de los aireadores o optimizar las consignas de oxígeno de forma más robusta y flexible.


**Explicación de los pasos de desarrollo:**

1. Preparación de los datos históricos y filtrado de periodos confiables.

2. Análisis exploratorio para ver cómo se relaciona el OD con las otras variables.

3. División del dataset en entrenamiento y prueba.

4. Entrenamiento de distintos modelos supervisados (como regresión lineal, árboles y random forest).

5. Validación cruzada para verificar estabilidad del modelo.

6. Visualización de resultados: comparar OD real vs estimado.

7. Conclusiones: ver si el modelo es confiable como respaldo y si se puede aplicar en la operación.

### <font color='blue'> 1. Pseudocódigo de la Solución

In [None]:
# 1. Cargar datos de OD manual (cada 2 horas) y variables online
od_manual = cargar_datos_od_manual()
datos_online = cargar_datos_operacionales()

# 2. Alinear formatos de fecha/hora
od_manual['timestamp'] = pd.to_datetime(od_manual['timestamp'])
datos_online['timestamp'] = pd.to_datetime(datos_online['timestamp'])

# 3. Re-samplear datos online para coincidir con frecuencia de OD
datos_online_2h = datos_online.resample('2H', on='timestamp').mean()

# 4. Unir ambos datasets por timestamp
df = pd.merge_asof(od_manual.sort_values('timestamp'),
                   datos_online_2h.sort_values('timestamp'),
                   on='timestamp')

# 5. Limpieza
df = df.dropna()  # Eliminar valores nulos
df = eliminar_outliers(df)

# 6. Selección de variables
X = df[['flujo_aire', 'sst_reactor', 'sst_recirculacion',
        'ph', 'conductividad', 'temperatura', 'tiempo_aireacion']]
y = df['od']

# 7. División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 8. Comparar modelos base
modelos = [LinearRegression(), DecisionTreeRegressor(), RandomForestRegressor()]
comparar_modelos(modelos, X_train, y_train, X_test, y_test)

# 9. Optimización con GridSearchCV
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 20, None]
}
grid_rf = GridSearchCV(RandomForestRegressor(), param_grid, scoring='neg_mean_squared_error', cv=5)
grid_rf.fit(X_train, y_train)
mejor_modelo = grid_rf.best_estimator_

# 10. Validación cruzada (5 folds)
cv_scores = cross_val_score(mejor_modelo, X_train, y_train, scoring='r2', cv=5)

# 11. Predicción y evaluación
y_pred = mejor_modelo.predict(X_test)

# 12. Calcular métricas
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# 13. Visualización de desempeño
graficar_real_vs_estimado(y_test, y_pred)
graficar_errores(y_test, y_pred)  # residuos

# 14. Análisis de residuos
sns.histplot(y_test - y_pred, kde=True)
plt.title("Distribución de los residuos")
plt.xlabel("Error (OD real - OD estimado)")
plt.axvline(0, color='red', linestyle='--')

Un desafío para este tipo de aplicaciones es que muchas veces los datos no están registrados a la misma frecuencia o con la misma calidad. Por ejemplo, el OD manual suele tener menos puntos que las variables en línea, y eso hace que haya que adaptar bien los datos antes de entrenar cualquier modelo. También es común que haya ruido, outliers o vacíos en los registros, lo que puede afectar el desempeño si no se limpian bien.

Otra cosa importante es que estos modelos tienen que ser evaluados más allá del R² o el RMSE. Revisar los residuos, ver cuándo y cómo se equivoca, y validar con diferentes cortes de datos (train/test) ayuda a saber si realmente se puede usar en operación.

A futuro, se podría avanzar hacia modelos que consideren cómo cambian las condiciones con el tiempo, o incorporar este tipo de estimaciones en sistemas de control automático. Eso permitiría pasar de un análisis puntual a una herramienta que apoye decisiones en tiempo real dentro de la planta.

# <font color='blue'>**Caso de uso: Gonzalo Barria**</font>
## ***Segmentación de Estudiantes y Reducción de Dimensionalidad aplicada a los Datos Académicos de AIEP usando Aprendizaje Supervisado***

El **Instituto Profesional AIEP** es una institución de educación superior con 58 años de experiencia formando profesionales y técnicos de nivel superior para el desarrollo de Chile. Algunas de sus características son que tiene 150.008 metros cuadrados de instalaciones para estudiantes, 96 carreras profesionales y técnicas presenciales y a distancia, 7 Escuelas en distintas áreas del conocimiento, 4.551 docentes insertos en el medio laboral y un 91% empleabilidad promedio de sus titulados.

En su administración como **Instituto Profesional AIEP** presenta varios desafíos y dado mi rol como ingeniero de estudios en **AIEP**, podría desarrollar un caso de uso apoyar a la institución con sus datos académicos y otros indicadores usando Python, especificamente la librería de visualización Seaborn y también Numpy para datos.

AIEP enfrenta el desafío de administrar grandes volúmenes de datos relacionados con el rendimiento académico, asistencia y otros indicadores clave de sus estudiantes. Sin un adecuado tratamiento de datos, es difícil identificar tendencias, detectar problemas tempranos como deserción estudiantil y optimizar procesos educativos.

Para abordar este desafío, el uso de Python y bibliotecas específicas como NumPy,Pandas, Matplotlib o Seaborn permite una gestión eficiente de los datos, desde su obtención hasta su análisis e incluso su visualización.

**Contexto y Problema**

El Instituto Profesional AIEP gestiona grandes volúmenes de datos académicos relacionados con el rendimiento estudiantil, asistencia, tasas de aprobación y deserción. Sin herramientas adecuadas de visualización, es difícil comunicar patrones y tendencias de manera clara y persuasiva a tomadores de decisiones.

**Objetivos**

Predecir el rendimiento académico de los estudiantes (o su probabilidad de aprobar) utilizando variables como calificaciones parciales, asistencia, participación, entre otras. De esta forma, se podrán identificar factores determinantes del éxito académico y diseñar estrategias de intervención.

Ejemplo de pregunta a responder:

¿Cómo influye la asistencia, la participación y las calificaciones parciales en la probabilidad de aprobación?

¿Cuál es el rendimiento esperado de un estudiante dado su perfil?


**Beneficios para AIEP:**

**Personalización de estrategias:** Permite diseñar intervenciones específicas para cada segmento.

**Optimización de recursos:** Identifica grupos que requieran apoyo académico especial.

**Comunicación efectiva:** Visualizaciones claras para facilitar la toma de decisiones en equipos interdisciplinarios.





<font color='red'>__ATENCIÓN__: En este caso se utiliza código en python, pero solo como referencia, no es ejecutable en este notebook (produciría un error). EN CASO DE SER EJECUTABLE LOS DATOS SON FICTICIOS Y SOLO SIRVEN COMO REFERENCIA</font>
### **Segunda etapa (Desarrollo de código en Python)**

**Ejemplos de Código**

**Paso 1: Proceso de Desarrollo del Modelo Supervisado**

**Preparación de los Datos**

Se parte de un DataFrame que contiene variables predictoras y una variable objetivo. Por ejemplo, podríamos definir una variable "aprobado" (0 = no, 1 = sí) basada en un umbral de calificación.





In [None]:
import pandas as pd
import numpy as np

# Simulación de datos:
np.random.seed(42)
df = pd.DataFrame({
    'calificacion_parcial': np.random.normal(5, 1, 200),
    'asistencia': np.random.uniform(70, 100, 200),
    'participacion': np.random.uniform(1, 10, 200)
})

# Creación de la variable objetivo (aprobado: 1 si calificacion_parcial >= 5, sino 0)
df['aprobado'] = (df['calificacion_parcial'] >= 5).astype(int)

# Visualización de las primeras filas
print(df.head())


**Paso 2: División del Dataset**

Antes de entrenar un modelo supervisado, es esencial dividir los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.



In [None]:
from sklearn.model_selection import train_test_split

# Variables predictoras y variable objetivo
X = df[['calificacion_parcial', 'asistencia', 'participacion']]
y = df['aprobado']

# División de los datos (70% entrenamiento, 30% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


**Paso 3:Modelado Supervisado**

Puedes experimentar con diferentes algoritmos de clasificación. A continuación, se muestran ejemplos con regresión logística, k-NN y Random Forest.

**a) Regresión Logística**

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Entrenar el modelo
modelo_log = LogisticRegression()
modelo_log.fit(X_train, y_train)

# Predicciones y evaluación
y_pred_log = modelo_log.predict(X_test)
print("Exactitud Regresión Logística:", accuracy_score(y_test, y_pred_log))
print("Matriz de confusión:", confusion_matrix(y_test, y_pred_log))


**b) k-Nearest Neighbors (k-NN)**

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# Entrenar el modelo k-NN (con k=5, por ejemplo)
modelo_knn = KNeighborsClassifier(n_neighbors=5)
modelo_knn.fit(X_train, y_train)

# Predicciones y evaluación
y_pred_knn = modelo_knn.predict(X_test)
print("Exactitud k-NN:", accuracy_score(y_test, y_pred_knn))


**c) Random Forest**

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Entrenar el modelo Random Forest
modelo_rf = RandomForestClassifier(n_estimators=100, random_state=42)
modelo_rf.fit(X_train, y_train)

# Predicciones y evaluación
y_pred_rf = modelo_rf.predict(X_test)
print("Exactitud Random Forest:", accuracy_score(y_test, y_pred_rf))


**4. Interpretación de Resultados y Validación**

Después de entrenar los modelos, se deben analizar las métricas de evaluación (exactitud, matriz de confusión, curvas ROC, etc.) para seleccionar el modelo que mejor se adapte al problema. También se puede usar validación cruzada para asegurar la robustez del modelo.

In [None]:
from sklearn.model_selection import cross_val_score

# Ejemplo de validación cruzada para el modelo de Random Forest
cv_scores = cross_val_score(modelo_rf, X, y, cv=5)
print("Puntuaciones de validación cruzada:", cv_scores)
print("Puntuación media:", np.mean(cv_scores))


**Conclusiones y Aplicaciones**

**Personalización y toma de decisiones:**

Al predecir la probabilidad de aprobación de un estudiante, la institución puede identificar a aquellos que requieran intervenciones tempranas o refuerzos académicos.

**Optimización de recursos:**

Permite enfocar esfuerzos y recursos en grupos de estudiantes con mayor riesgo de no aprobar, incrementando la eficiencia de las estrategias educativas.

**Estrategias de mejora continua:**

A partir de los modelos supervisados se pueden simular distintos escenarios y evaluar el impacto de cambios en políticas de asistencia, metodología de enseñanza, entre otros.

Este enfoque supervisado se adapta a los temas vistos en clase (como regresión, k-NN, SVM, Random Forest, etc.), permitiendo utilizar las herramientas y técnicas aprendidas para abordar problemas reales en el ámbito académico.



# <font color='blue'>**Caso de uso: Rodrigo Fuenzalida**</font>

Caso de Uso: Clasificación de Necesidad de Atención Dental Urgente en Niños
(Aprendizaje Supervisado - Clasificación Binaria)

### 1. Introducción

En el marco del Programa CERO, se busca optimizar la asignación de recursos en clínicas dentales públicas mediante un modelo de aprendizaje supervisado que prediga si un niño requiere atención dental urgente (ej. dolor agudo, infección) basado en su historial de caries, hábitos de higiene y datos demográficos.

#### Objetivos:
Predecir urgencias dentales para priorizar citas.

Reducir tiempos de espera en casos críticos.

Identificar factores de riesgo asociados (ej. migración, falta de prevención).

### 2. Datos y Variables
Dataset:
Registros de niños 0-9 años atendidos en el programa.

Variable objetivo binaria:

URGENCIA_DENTAL (0 = No urgente, 1 = Urgente).

#### Variables predictoras:

* DAÑO_POR_CARIES	Numérica	Índice de caries (0-10).
* RIESGO_CARIOGENICO	Categórica	Alto/Bajo.
* ESTADO_MIGRATORIO	Categórica	Migrante/No migrante.
* FRECUENCIA_CEPILLADO	Numérica	Veces por día (0-3).
* DOLOR_RECIENTE	Binaria	1 = Sí, 0 = No (últimos 3 meses).

### 3. Pseudocódigo
#### 3.1. Preprocesamiento
```
# Cargar datos  
df = cargar_csv('datos_niños_dentales.csv')  

# Convertir variables categóricas  
df['RIESGO_CARIOGENICO'] = df['RIESGO_CARIOGENICO'].map({'bajo': 0, 'alto': 1})  
df['ESTADO_MIGRATORIO'] = df['ESTADO_MIGRATORIO'].map({'no migrante': 0, 'migrante': 1})  

# Normalizar variables numéricas  
from sklearn.preprocessing import StandardScaler  
scaler = StandardScaler()  
df[['DAÑO_POR_CARIES', 'FRECUENCIA_CEPILLADO']] = scaler.fit_transform(df[['DAÑO_POR_CARIES', 'FRECUENCIA_CEPILLADO']])  

# Dividir datos en entrenamiento y prueba
from sklearn.model_selection import train_test_split  

# Definir variables predictoras (X) y variable objetivo (y)  
X = df[['DAÑO_POR_CARIES', 'RIESGO_CARIOGENICO', 'ESTADO_MIGRATORIO', 'FRECUENCIA_CEPILLADO', 'DOLOR_RECIENTE']]  
y = df['URGENCIA_DENTAL']  # Variable objetivo binaria  

# Dividir en 70% entrenamiento y 30% prueba (estratificado para mantener proporción de clases)  
X_train, X_test, y_train, y_test = train_test_split(  
    X, y,  
    test_size=0.3,  
    random_state=42,  # Semilla para reproducibilidad  
    stratify=y       # Balancear clases en ambos conjuntos  
)  



```

### 4. Modelado y Evaluación
#### 4.1. Entrenamiento de Múltiples Modelos
Compararemos 3 algoritmos de clasificación:

```
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier  
from sklearn.linear_model import LogisticRegression  
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score  

# Modelos a evaluar  
modelos = {  
    "Random Forest": RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42),  
    "Gradient Boosting": GradientBoostingClassifier(n_estimators=50, learning_rate=0.1, random_state=42),  
    "Regresión Logística": LogisticRegression(max_iter=1000, random_state=42)  
}  

# Entrenar y evaluar cada modelo  
resultados = {}  
for nombre, modelo in modelos.items():  
    modelo.fit(X_train, y_train)  
    y_pred = modelo.predict(X_test)  
    resultados[nombre] = {  
        "Accuracy": accuracy_score(y_test, y_pred),  
        "F1-Score": f1_score(y_test, y_pred),  
        "ROC-AUC": roc_auc_score(y_test, y_pred)  
    }  

# Mostrar resultados  
import pandas as pd  
pd.DataFrame(resultados).T.round(2)  
Salida esperada:

Modelo	Accuracy	F1-Score	ROC-AUC
Random Forest	0.87	0.85	0.89
Gradient Boosting	0.86	0.84	0.88
Regresión Logística	0.82	0.80	0.83

```

#### 4.2. Optimización de Hiperparámetros
Usaremos GridSearchCV en el mejor modelo (Random Forest):

```
from sklearn.model_selection import GridSearchCV  

# Definir parámetros a optimizar  
param_grid = {  
    'n_estimators': [50, 100, 200],  
    'max_depth': [3, 5, 7],  
    'min_samples_split': [2, 5]  
}  

# Búsqueda de mejores parámetros  
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='f1')  
grid_search.fit(X_train, y_train)  

# Mejor modelo  
mejor_modelo = grid_search.best_estimator_  
print(f"Mejores parámetros: {grid_search.best_params_}")  
Salida:


Mejores parámetros: {'max_depth': 5, 'min_samples_split': 2, 'n_estimators': 200}  
```

#### 4.3. Evaluación del Modelo Optimizado

```
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay  

# Predecir con el modelo optimizado  
y_pred_opt = mejor_modelo.predict(X_test)  

# Matriz de confusión  
cm = confusion_matrix(y_test, y_pred_opt)  
ConfusionMatrixDisplay(cm, display_labels=["No Urgente", "Urgente"]).plot(cmap='Blues')  
plt.title("Matriz de Confusión (Modelo Optimizado)")  
plt.show()  

# Reporte de clasificación  
print(classification_report(y_test, y_pred_opt))  
Salida:

Precision	Recall	F1-Score	Support
No Urgente	0.88	0.92	0.90	150
Urgente	0.89	0.83	0.86	120
```
#### 4.4. Visualización de Resultados

Curva ROC
```
from sklearn.metrics import RocCurveDisplay  

RocCurveDisplay.from_estimator(mejor_modelo, X_test, y_test)  
plt.plot([0, 1], [0, 1], linestyle='--', color='red')  
plt.title("Curva ROC")  
plt.show()  
```
Importancia de Características

```
importancias = mejor_modelo.feature_importances_  
pd.Series(importancias, index=X.columns).sort_values().plot(kind='barh')  
plt.title("Importancia de Variables")  
plt.show()  
```
#### Interpretación:

Variables más importantes: DAÑO_POR_CARIES y DOLOR_RECIENTE.



