<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/6_proyectos/clase_21.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Clase 21 -- Introducción a la Planificación de Proyectos con IA y Modelos Supervisados**

## **1. Introducción y dinámica de trabajo**

La clase 21 dio inicio a una nueva fase del curso, centrada en la
**planificación de proyectos basados en datos e inteligencia
artificial**.\
El profesor propuso revisar los ejercicios anteriores y luego dividir a
las y los participantes en grupos para desarrollar un trabajo práctico a
partir del **Capítulo 10**, orientado a comprender las etapas
conceptuales de un proyecto de datos.

Los grupos debían preparar una exposición basada en el documento de
referencia, abordando distintas secciones del proceso de desarrollo de
proyectos de IA.

------------------------------------------------------------------------

## **2. Revisión de ejercicios previos: análisis de datos estudiantiles**

Antes del trabajo grupal, los estudiantes presentaron el **análisis de
un dataset sobre rendimiento académico**. Este conjunto de datos incluía
variables como:

-   **Resultados en matemáticas, lectura y escritura.**
-   **Género y grupo étnico.**
-   **Nivel educativo de los padres.**
-   **Tipo de almuerzo escolar (pago o gratuito).**
-   **Participación en curso de preparación para exámenes.**

### **Principales hallazgos**

-   Los grupos discutieron cómo **factores socioeconómicos y
    educativos** influyen en los resultados académicos.\
-   Se identificó que el curso de preparación para exámenes y el nivel
    educativo de los padres **mejoran los puntajes** en las tres áreas
    medidas.
-   El campo *lunch* (almuerzo) fue interpretado como un **indicador
    indirecto de nivel socioeconómico**, distinguiendo entre estudiantes
    con almuerzo gratuito o pagado.
-   Se observaron correlaciones altas entre lectura y escritura
    (superiores a 0.8), lo que permitió usar lectura como variable
    predictora en un **modelo de regresión lineal**.

------------------------------------------------------------------------

## **3. Procesamiento y modelado de datos**

Durante la revisión técnica, se repasaron conceptos clave del
**preprocesamiento de datos y modelado supervisado**:

### **a. Limpieza y codificación**

-   **Variables categóricas**: transformadas mediante *OneHotEncoder* o
    *get_dummies()* para convertirlas en numéricas.
-   **Escalamiento**: se discutió el uso del **RobustScaler**, aunque se
    aclaró que no era estrictamente necesario cuando las variables ya
    comparten una misma escala.

### **b. Modelos aplicados**

Los equipos probaron varios modelos de regresión: - **Regresión
Lineal** - **Árbol de Decisión (Decision Tree Regressor)** - **Random
Forest Regressor**

### **c. Resultados**

  Modelo              Error (RMSE)   R²
  ------------------- -------------- ------
  Regresión Lineal    0.03           0.93
  Árbol de Decisión   0.10           0.82
  Random Forest       0.05           0.90

La **regresión lineal** fue el modelo con mejor ajuste, dado que lectura
y escritura presentan alta correlación. El profesor explicó que este
resultado era esperable por la similitud de ambas variables y que sería
más desafiante modelar matemáticas frente a lectura o escritura.

------------------------------------------------------------------------

## **4. Ejercicio de Clustering**

Los equipos también experimentaron con **K-Means** y **K-Prototypes**
para agrupar estudiantes según características combinadas (numéricas y
categóricas).

-   Se probaron entre **3 y 5 clústeres**, observando **tres grupos
    principales**:
    1.  Estudiantes de **bajo desempeño** y **bajo nivel
        socioeconómico**.\
    2.  Estudiantes de **nivel medio**, con padres con educación
        universitaria parcial.\
    3.  Estudiantes de **alto desempeño**, con acceso a cursos y mejor
        situación económica.

El análisis permitió discutir aplicaciones del clustering en **políticas
públicas** y **educación personalizada**, por ejemplo, identificar
estudiantes en riesgo y diseñar **intervenciones preventivas**.

------------------------------------------------------------------------

## **5. Marco metodológico: CRISP-DM**

Posteriormente, el curso abordó el modelo **CRISP-DM (Cross Industry
Standard Process for Data Mining)**, utilizado para planificar proyectos
de datos.

### **Etapas del proceso**

1.  **Comprensión del negocio:** identificar objetivos y contexto del
    problema.\
2.  **Comprensión de los datos:** explorar y evaluar la calidad de la
    información.\
3.  **Preparación de los datos:** limpieza, codificación, escalado y
    selección de variables.\
4.  **Modelado:** selección y entrenamiento de algoritmos de aprendizaje
    automático.\
5.  **Evaluación:** comparación de modelos y verificación de su
    utilidad.\
6.  **Despliegue:** implementación del modelo en una aplicación,
    dashboard o sistema productivo.

El profesor destacó que el trabajo desarrollado durante el curso seguía
exactamente este ciclo, desde la exploración hasta el despliegue de
modelos en **Gradio o interfaces web**.

------------------------------------------------------------------------

## **6. Búsqueda de ideas de proyectos**

En la segunda mitad de la clase, los grupos discutieron estrategias para
**formular proyectos con IA** desde dos enfoques:

### **a. Top-Down (descendente)**

El problema está claramente definido desde el inicio. Se usa en
proyectos de **optimización** o **solución concreta**, donde se conoce
qué hacer y cómo hacerlo.

### **b. Bottom-Up (ascendente)**

El problema emerge de la **exploración de datos**. Se usa en proyectos
de **descubrimiento e insight**, donde el análisis revela patrones o
necesidades no evidentes.

Los equipos identificaron que ambos enfoques podían integrarse,
combinando **exploración empática (Design Thinking)** con **evaluación
cuantitativa (Data Mining)**.

------------------------------------------------------------------------

## **7. Integración con Design Thinking**

La clase concluyó introduciendo la relación entre **Design Thinking y
proyectos de datos**, anticipando el contenido de las clases siguientes.

-   El **Design Thinking** se presenta como un enfoque centrado en las
    personas, donde la empatía y la observación son el punto de partida.
-   Se destacó su estructura iterativa: **Definir → Descubrir → Analizar
    → Idear → Prototipar → Probar.**
-   El profesor recalcó que el proceso no es lineal, sino cíclico, y que
    los proyectos exitosos combinan **análisis de datos + comprensión
    humana del problema**.

------------------------------------------------------------------------

## **Conclusión**

La **Clase 21** sirvió como puente entre los módulos de **Machine
Learning aplicado** y **Diseño de Proyectos con IA**.\
El énfasis estuvo en **planificar proyectos de datos con propósito**,
integrando el método **CRISP-DM** con la creatividad y empatía del
**Design Thinking**.\
A nivel técnico, se consolidaron aprendizajes sobre **procesamiento,
modelado y evaluación supervisada**, mientras que a nivel metodológico
se introdujo la **visión integral de un proyecto de inteligencia
artificial**.
