<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/03machinelearning/clase_19.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto Integrado de Machine Learning: Modelos Supervisados y No Supervisados

## Descripción General

Este proyecto tiene como finalidad que los estudiantes apliquen modelos supervisados y no supervisados de aprendizaje automático en un contexto realista, utilizando un conjunto de datos que simula el rendimiento académico de estudiantes. A través del ejercicio, se busca desarrollar habilidades de análisis exploratorio, preparación de datos, entrenamiento de modelos y análisis de resultados para la toma de decisiones basada en datos.

## Objetivos

1. Aplicar técnicas de preprocesamiento de datos en un conjunto real o simulado.
2. Entrenar y evaluar modelos de clasificación supervisada.
3. Implementar modelos de clustering no supervisado.
4. Analizar, comparar e interpretar los resultados obtenidos de ambos enfoques.
5. Generar recomendaciones prácticas para la intervención educativa.

---

## Requisitos Previos

- Conocimiento básico de Python y bibliotecas como `pandas`, `matplotlib`, `seaborn` y `scikit-learn`.
- Familiaridad con conceptos fundamentales de Machine Learning.
- Capacidad de interpretar métricas de evaluación como accuracy, precisión, recall y F1-score.

---

## Parte 1: Exploración y Preprocesamiento de Datos

1. **Carga de datos**
   - Cargar el dataset seleccionado utilizando `pandas`.
   - Sugerencia: utilizar el dataset "Student Performance" de Kaggle o un dataset simulado con variables académicas y demográficas.

2. **Revisión inicial**
   - Analizar estructura del dataset, tipos de datos, valores nulos y estadísticas descriptivas.
   - Identificar columnas relevantes para el análisis.

3. **Visualización de datos**
   - Realizar gráficos que ayuden a comprender la distribución y relación entre variables, por ejemplo:
     - Boxplot de `final_grade` según `tutoring` (participación en tutorías).
     - Histograma de `motivation_score`.
     - Diagrama de dispersión entre `study_hours` y `final_grade`.

4. **Preprocesamiento**
   - Codificar variables categóricas con `LabelEncoder` o `pd.get_dummies()`.
   - Normalizar variables numéricas si es necesario.
   - Verificar y manejar outliers si corresponde.

---

## Parte 2: Modelos Supervisados (Clasificación)

### Objetivo:
Predecir si un estudiante aprobará el curso, a partir de un umbral en la nota final (por ejemplo, >=10).

1. **Creación de variable objetivo**
   - Crear una nueva variable binaria llamada `approved`:
     ```python
     df["approved"] = df["final_grade"] >= 10
     ```

2. **Separación de variables predictoras y objetivo**
   - Definir `X` e `y`.
   - Dividir los datos en conjunto de entrenamiento y prueba utilizando `train_test_split`.

3. **Entrenamiento de modelos**
   - Entrenar al menos tres clasificadores diferentes:
     - Regresión logística (`LogisticRegression`)
     - Vecinos más cercanos (`KNeighborsClassifier`)
     - Árbol de decisión (`DecisionTreeClassifier`)

4. **Evaluación de modelos**
   - Calcular y reportar las siguientes métricas:
     - Accuracy
     - Precisión
     - Recall
     - F1-score
     - Matriz de confusión

5. **Análisis**
   - Comparar el desempeño de los modelos.
   - Identificar las variables más importantes (en el caso del árbol de decisión).
   - Justificar la elección del mejor modelo según los resultados.

---

## Parte 3: Modelos No Supervisados (Clustering)

### Objetivo:
Agrupar estudiantes según características similares utilizando técnicas de clustering.

1. **Selección de variables**
   - Seleccionar variables numéricas relevantes: `study_hours`, `absences`, `motivation_score`, `final_grade`.

2. **Reducción de dimensionalidad (opcional)**
   - Aplicar PCA si se desea visualizar en 2D o 3D.

3. **K-Means**
   - Probar diferentes valores de `k`.
   - Utilizar el método del codo (elbow method) para seleccionar el número óptimo de clusters.
   - Calcular el `silhouette_score` para validar la coherencia de los grupos.

4. **Visualización**
   - Graficar los clusters en dos dimensiones.
   - Analizar las características promedio de cada grupo.
   - Asignar etiquetas interpretativas a los perfiles detectados.

5. **Comparación con DBSCAN (opcional)**
   - Probar el algoritmo `DBSCAN` y comparar con K-Means.
   - Analizar la sensibilidad al ruido y detección de outliers.

---

## Parte 4: Análisis Integrado

1. ¿Qué patrones fueron detectados con los modelos supervisados?
2. ¿Qué diferencias se observaron en el agrupamiento no supervisado?
3. ¿Existen coincidencias entre los estudiantes que reprueban y los clusters de bajo rendimiento?
4. ¿Cómo podrían usarse ambos enfoques para diseñar programas de apoyo, tutorías o segmentaciones personalizadas?

---

## Entregables

El proyecto debe incluir:

- Código completo, bien documentado, en formato `.ipynb` o `.py`.
- Visualizaciones pertinentes con interpretación.
- Comparación de resultados entre modelos supervisados y no supervisados.
- Tabla comparativa de métricas de evaluación.
- Informe escrito con reflexiones finales, conclusiones y posibles aplicaciones.

---

## Evaluación Sugerida

| Criterio                              | Puntos |
|---------------------------------------|--------|
| Exploración y preprocesamiento        | 20     |
| Modelos supervisados y evaluación     | 25     |
| Modelos no supervisados y análisis    | 25     |
| Análisis integrado y recomendaciones  | 20     |
| Claridad en la presentación           | 10     |
| **Total**                             | **100**|

---

## Observaciones Finales

Este ejercicio busca simular una situación real en la que se deben tomar decisiones informadas a partir de los datos. Se recomienda trabajar en grupos de 2 a 3 personas y documentar cada etapa con claridad. La calidad del análisis y la interpretación será tan importante como la precisión técnica de los modelos.



# Instrucciones para Cargar un Dataset desde Kaggle en Google Colab

Este documento describe los pasos necesarios para descargar y utilizar un dataset desde Kaggle directamente en Google Colab, utilizando la autenticación mediante la API de Kaggle.

---

## 1. Crear una cuenta en Kaggle (si no tienes una)

Accede al sitio oficial: [https://www.kaggle.com](https://www.kaggle.com)

1. Regístrate o inicia sesión.
2. Completa la verificación de tu cuenta si es necesario.

---

## 2. Obtener el archivo `kaggle.json` (API Token)

1. Entra a tu perfil (clic en tu foto de usuario, esquina superior derecha).
2. Selecciona la opción **"Account"** en el menú.
3. Desplázate hasta la sección **API**.
4. Haz clic en **"Create New API Token"**.
5. Se descargará automáticamente un archivo llamado `kaggle.json`.

Este archivo contiene tus credenciales privadas de acceso a la API de Kaggle.

---

## 3. Subir el archivo `kaggle.json` a Google Colab

Abre un notebook en Colab y ejecuta la siguiente celda para subir tu archivo:

```python
from google.colab import files
files.upload()  # Selecciona tu archivo kaggle.json cuando se abra el diálogo
```

---

## 4. Configurar las credenciales en Colab

Ejecuta las siguientes celdas en orden:

```python
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
```

Esto moverá el archivo a la ubicación adecuada y le asignará los permisos correctos para su uso.

---

## 5. Descargar el dataset desde Kaggle

### Opción 1: Student Performance Dataset

```python
!kaggle datasets download -d spscientist/students-performance-in-exams
!unzip students-performance-in-exams.zip
```

### Opción 2: Student Alcohol Consumption

```python
!kaggle datasets download -d uciml/student-alcohol-consumption
!unzip student-alcohol-consumption.zip
```

---

## 6. Cargar el dataset en Pandas

### Para el Student Performance Dataset:

```python
import pandas as pd
df = pd.read_csv("StudentsPerformance.csv")
df.head()
```

### Para el Student Alcohol Consumption:

```python
df = pd.read_csv("student-mat.csv", sep=';')
df.head()
```

---

## Consideraciones Finales

- No compartas públicamente tu archivo `kaggle.json`. Contiene información confidencial.
- Si el archivo descargado tiene varias hojas o tipos de datos, revisa los nombres y estructuras usando `df.info()` y `df.describe()`.

Este procedimiento te permite trabajar con datos reales de Kaggle de forma eficiente y reproducible en tus notebooks de Google Colab.
