<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/4_pnl/clase_29.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 29 – Tarea de aplicación en PLN  
---

## 1. Objetivo general  

Diseñar, implementar y documentar un **mini‑proyecto de Procesamiento de Lenguaje Natural (PLN)** que consolide los aprendizajes de las últimas clases:

* Scraping y limpieza de texto  
* Tokenización, stopwords y lematización  
* POS‑tagging  
* n‑gramas y modelos basados en frecuencia  
* Creación de secuencias fijas (padding) y redes neuronales sencillas

El proyecto se realizará utilizando **un dataset público de Kaggle**.

---

## 2. Requisitos mínimos del proyecto  

1. **Descarga automática** del dataset con la API de Kaggle (`kaggle datasets download`).  
2. **Pipeline NLTK** que incluya: limpieza, tokenización, stopwords y lematización.  
3. **Análisis exploratorio de datos (EDA)** con estadísticas básicas y al menos una visualización propia.  
4. **Modelo base** (elige **uno**):  
   - n‑gramas (frecuencias o `ConditionalFreqDist`),  
   - TF‑IDF + clasificador clásico (Logistic Regression, SVM, Naïve Bayes),  
   - Red neuronal con embeddings aleatorios + `pad_sequences`.  
5. **Evaluación** con la métrica adecuada (Accuracy, F1, ROUGE, Perplexity, etc.).  
6. **Reflexión crítica** (2‑3 párrafos sobre resultados y mejoras posibles).  

> **Bonus**: añadir POS como feature adicional, balancear clases, o comparar dos modelos distintos.

---

## 3. Fases sugeridas de desarrollo  

1. **Descarga y descompresión del dataset**  
   ```bash
   !kaggle datasets download -d <owner>/<slug> -p data/ -unzip
   ```  

2. **EDA inicial**: forma, número de clases, longitud media de los textos.  

3. **Pre‑procesamiento NLP** con tus funciones de la clase 25.  

4. **División** train / test (80‑20 estratificado).  

5. **Entrenamiento del modelo base** y registro de la métrica elegida.  

6. **Iteración de mejora**: lematización, filtrado por POS, ajustes de hiper‑parámetros.  

7. **Documentación y reflexión** en el notebook y en el informe.

---

## 4. Datasets propuestos (elige **uno**)

| Foco | Dataset & enlace | Tamaño / Idioma | Ideas de proyecto |
|------|------------------|-----------------|-------------------|
| **Clasificación de noticias** | [Spanish News Classification](https://www.kaggle.com/datasets/kevinmorgado/spanish-news-classification) | 14 000 artículos / Español | Predecir la sección (Deportes, Economía, Política, etc.). |
| **Sentimiento en Twitter** | [Sentiment140](https://www.kaggle.com/datasets/kazanova/sentiment140) | 1,6 M tweets / Multilingüe (≈ 17 % ES) | Detector positivo/negativo; comparar n‑gramas vs. LSTM. |
| **Pregunta‑Respuesta extractiva** | [Question‑Answer Dataset](https://www.kaggle.com/datasets/rtatman/questionanswer-dataset) | 26 k pares / Inglés | Baseline TF‑IDF + *span ranking* vs. QA neuronal. |
| **Transcripciones de voz** | [Spanish Speech Recognition Dataset](https://www.kaggle.com/datasets/unidpro/spanish-speech-recognition-dataset) | 488 h audio + texto / Español | Crear un LM n‑gram para ASR o clasificar temas en transcripciones. |

> Si prefieres otro dataset, preséntalo al profesor y justifica su elección técnica y pedagógica.

---

## 5. Entregables posibles  

| Archivo | Contenido |
|---------|-----------|
| `proyecto_<equipo>.ipynb` | Código reproducible con secciones Markdown claras (OBLIGATORIO) |
| `informe_<equipo>.md` (1‑2 páginas) | Resumen, metodología, resultados y reflexión (OPCIONAL). |
| `README.md` | Guía rápida para ejecutar el notebook y listar dependencias (OPCIONAL). |

Los archivos deben subirse a GitHub o Classroom **durante la clase 27**.

---

## 6. Rúbrica de evaluación (100 puntos)

| Criterio | Puntos |
|----------|--------|
| Pipeline de pre‑procesamiento y documentación | 20 |
| EDA y visualizaciones | 15 |
| Implementación del modelo base | 20 |
| Métrica y análisis de resultados | 15 |
| Reflexión crítica | 15 |
| Calidad de código y reproducibilidad | 15 |

---

## 7. Recursos de apoyo

* Capítulos 3‑7 del **NLTK Book**  
* Cheatsheet de `scikit‑learn` para texto  
* Ejemplos en la pestaña **Code** de cada dataset en Kaggle  

---

¡Éxito con sus proyectos!
