# üéØ Desaf√≠o Final: Sistema Inteligente de Procesamiento de Lenguaje Natural

## Bienvenido al Proyecto Final del Curso

Este notebook contiene el desaf√≠o final del curso de NLP y LLMs. Tu objetivo es construir un **sistema completo de procesamiento de lenguaje natural** que integre todas las t√©cnicas aprendidas.

---

## üìã Objetivos del Proyecto

Construir un sistema que combine:

1. **NLP Cl√°sico**: Preprocesamiento y an√°lisis de texto
2. **Embeddings**: Representaci√≥n sem√°ntica de documentos
3. **Clasificaci√≥n con BERT**: Categorizaci√≥n autom√°tica
4. **Sistema RAG**: Recuperaci√≥n y generaci√≥n aumentada
5. **Generaci√≥n con GPT**: Creaci√≥n de contenido inteligente
6. **Agente Inteligente**: Orquestaci√≥n y automatizaci√≥n

---

## üé® Opciones de Proyecto

Puedes elegir uno de estos dominios para tu proyecto:

### Opci√≥n A: üìö Asistente de Investigaci√≥n Acad√©mica
- Procesa papers cient√≠ficos
- Clasifica por √°rea de investigaci√≥n
- Sistema Q&A sobre documentos
- Genera res√∫menes autom√°ticos

### Opci√≥n B: üì∞ Analizador de Noticias Inteligente
- Procesa art√≠culos de prensa
- Clasifica por tema y sentimiento
- Busca noticias relacionadas
- Genera res√∫menes personalizados

### Opci√≥n C: üí¨ Asistente de Atenci√≥n al Cliente
- Procesa consultas de usuarios
- Clasifica por categor√≠a y urgencia
- Recupera informaci√≥n relevante
- Genera respuestas autom√°ticas

### Opci√≥n D: üéì Tu Propio Proyecto
- Define tu dominio de aplicaci√≥n
- Debe incluir los 6 componentes principales
- Explica claramente el caso de uso

---

## üìä Criterios de Evaluaci√≥n

Tu proyecto ser√° evaluado seg√∫n:

| Componente | Puntos | Criterios |
|------------|--------|----------|
| **1. NLP Cl√°sico** | 15% | Preprocesamiento completo y an√°lisis exploratorio |
| **2. Embeddings** | 15% | Implementaci√≥n de b√∫squeda sem√°ntica funcional |
| **3. Clasificaci√≥n BERT** | 20% | Modelo entrenado/fine-tuned con buena precisi√≥n |
| **4. Sistema RAG** | 20% | Pipeline completo de recuperaci√≥n + generaci√≥n |
| **5. Generaci√≥n GPT** | 15% | Generaci√≥n de texto coherente y √∫til |
| **6. Agente** | 10% | Orquestaci√≥n inteligente de componentes |
| **7. Documentaci√≥n** | 5% | C√≥digo comentado y explicaciones claras |

**Total: 100 puntos**

---

## üìù Instrucciones de Entrega

### Opci√≥n 1: Google Colab (Recomendado)

1. **Guarda tu notebook en Colab**:
   - `Archivo ‚Üí Guardar una copia en Drive`

2. **Comparte el enlace**:
   - Click en `Compartir` (bot√≥n superior derecho)
   - Cambia a `Cualquier persona con el enlace`
   - Copia el enlace

3. **Aseg√∫rate de que sea ejecutable**:
   - Ejecuta todas las celdas: `Entorno de ejecuci√≥n ‚Üí Ejecutar todas`
   - Verifica que no haya errores

### Opci√≥n 2: GitHub

1. **Crea un repositorio**:
   ```bash
   git init
   git add Desafio_Final_NLP.ipynb
   git commit -m "Proyecto final NLP"
   ```

2. **Sube a GitHub**:
   - Crea repo en github.com
   - Conecta y sube:
   ```bash
   git remote add origin [tu-repo-url]
   git push -u origin main
   ```

3. **A√±ade un README.md**:
   - Explica tu proyecto
   - Instrucciones de ejecuci√≥n
   - Resultados principales

---

## ‚è∞ Tiempo Estimado

- **Planificaci√≥n y dise√±o**: 30 minutos
- **Implementaci√≥n**: 3-4 horas
- **Pruebas y ajustes**: 1 hora
- **Documentaci√≥n**: 30 minutos

**Total: 5-6 horas**

---

## üöÄ ¬°Comencemos!

En las siguientes secciones encontrar√°s el template guiado para construir tu proyecto paso a paso.

---

# üìù Secci√≥n 0: Definici√≥n de tu Proyecto

**Completa esta secci√≥n antes de comenzar a programar**

## Mi Proyecto

**T√≠tulo**: [Escribe aqu√≠ el nombre de tu proyecto]

**Opci√≥n elegida**: [A, B, C, o D]

**Descripci√≥n del problema**:
[Explica en 2-3 p√°rrafos qu√© problema resuelve tu sistema y por qu√© es √∫til]

**Fuente de datos**:
[Describe qu√© tipo de textos vas a procesar. Pueden ser datasets p√∫blicos o textos que t√∫ mismo recopiles]

**Funcionalidades principales**:
1. [Funcionalidad 1]
2. [Funcionalidad 2]
3. [Funcionalidad 3]
4. [Funcionalidad 4]

**Casos de uso ejemplo**:
1. [Ejemplo concreto de uso 1]
2. [Ejemplo concreto de uso 2]

---

# üîß Secci√≥n 1: Instalaci√≥n y Configuraci√≥n

Instala todas las bibliotecas necesarias para tu proyecto.

In [None]:
# Instalaci√≥n de bibliotecas principales
!pip install -q transformers sentence-transformers datasets torch scikit-learn pandas numpy matplotlib seaborn nltk spacy

# Descarga de recursos de NLP
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

print("‚úÖ Instalaci√≥n completada")

In [None]:
# Importaciones
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import re

# NLP Cl√°sico
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

# Transformers y embeddings
from transformers import AutoTokenizer, AutoModel, AutoModelForSequenceClassification, pipeline
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úÖ Importaciones completadas")

---

# üìä Secci√≥n 2: Datos y Preprocesamiento (NLP Cl√°sico)

**Objetivos**:
1. Cargar o crear tu dataset de textos
2. Implementar pipeline completo de preprocesamiento
3. An√°lisis exploratorio de los datos

**Puntos: 15/100**

In [None]:
# üìù EJERCICIO 1: Carga de Datos
# Opci√≥n A: Usar un dataset p√∫blico (recomendado para empezar)
# Opci√≥n B: Crear tu propio dataset

# EJEMPLO: Dataset de papers acad√©micos (Opci√≥n A)
# Puedes usar datasets de Hugging Face, cargar CSVs, o scraping web

# Aqu√≠ hay ejemplos de datasets que puedes usar:
# - Para noticias: from datasets import load_dataset; dataset = load_dataset("multi_news")
# - Para papers: arxiv, pubmed
# - Para reviews: amazon_reviews, yelp

# üëâ TU C√ìDIGO AQU√ç:
# Carga al menos 50-100 documentos de texto

# EJEMPLO (reemplaza con tu propio c√≥digo):
documentos = [
    "Tu primer documento aqu√≠...",
    "Tu segundo documento...",
    # ... a√±ade m√°s documentos
]

# Metadatos asociados (etiquetas, categor√≠as, etc.)
metadatos = [
    {"categoria": "ejemplo1", "fecha": "2024-01-01"},
    {"categoria": "ejemplo2", "fecha": "2024-01-02"},
    # ...
]

print(f"‚úÖ Cargados {len(documentos)} documentos")
print(f"Ejemplo: {documentos[0][:200]}...")

In [None]:
# üìù EJERCICIO 2: Pipeline de Preprocesamiento
# Implementa funciones de limpieza y normalizaci√≥n

class PreprocessorNLP:
    def __init__(self, idioma='spanish'):
        self.idioma = idioma
        self.stopwords = set(stopwords.words(idioma))
        self.stemmer = SnowballStemmer(idioma)
    
    def limpiar_texto(self, texto):
        """
        Limpia el texto eliminando caracteres especiales, URLs, etc.
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Tu c√≥digo aqu√≠:
        # - Convertir a min√∫sculas
        # - Eliminar URLs
        # - Eliminar emails
        # - Eliminar caracteres especiales
        # - Eliminar n√∫meros (opcional)
        # - Eliminar espacios extra
        
        texto_limpio = texto  # REEMPLAZA ESTO
        return texto_limpio
    
    def tokenizar(self, texto):
        """
        Tokeniza el texto en palabras
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Tu c√≥digo aqu√≠
        tokens = []  # REEMPLAZA ESTO
        return tokens
    
    def eliminar_stopwords(self, tokens):
        """
        Elimina palabras vac√≠as
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Tu c√≥digo aqu√≠
        tokens_filtrados = []  # REEMPLAZA ESTO
        return tokens_filtrados
    
    def aplicar_stemming(self, tokens):
        """
        Aplica stemming a los tokens
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Tu c√≥digo aqu√≠
        stems = []  # REEMPLAZA ESTO
        return stems
    
    def preprocesar(self, texto, eliminar_sw=True, aplicar_stem=False):
        """
        Pipeline completo de preprocesamiento
        
        üëâ COMPLETA ESTA FUNCI√ìN integrando las anteriores
        """
        # Tu c√≥digo aqu√≠: combina todas las funciones anteriores
        tokens_procesados = []  # REEMPLAZA ESTO
        return tokens_procesados

# Prueba tu preprocessor
preprocessor = PreprocessorNLP(idioma='spanish')  # Cambia seg√∫n tu idioma

# Ejemplo de uso
texto_ejemplo = "Este es un texto de EJEMPLO con URLs https://ejemplo.com y n√∫meros 12345!"
resultado = preprocessor.preprocesar(texto_ejemplo)
print(f"Texto original: {texto_ejemplo}")
print(f"Tokens procesados: {resultado}")

In [None]:
# üìù EJERCICIO 3: Procesa todos tus documentos

# üëâ TU C√ìDIGO AQU√ç:
# Aplica el preprocessor a todos tus documentos
# Guarda tanto el texto original como el procesado

documentos_procesados = []

# Ejemplo:
# for doc in documentos:
#     tokens = preprocessor.preprocesar(doc)
#     documentos_procesados.append(tokens)

print(f"‚úÖ Procesados {len(documentos_procesados)} documentos")

In [None]:
# üìù EJERCICIO 4: An√°lisis Exploratorio

# üëâ TU C√ìDIGO AQU√ç:
# Crea visualizaciones para entender tus datos:

# 1. Distribuci√≥n de longitud de documentos
# plt.figure(figsize=(10, 5))
# ...

# 2. Palabras m√°s frecuentes (nube de palabras o gr√°fico de barras)
# ...

# 3. Distribuci√≥n de categor√≠as (si aplica)
# ...

# 4. Estad√≠sticas descriptivas
# ...

print("üìä An√°lisis exploratorio completado")

---

# üî¢ Secci√≥n 3: Sistema de Embeddings y B√∫squeda Sem√°ntica

**Objetivos**:
1. Generar embeddings de tus documentos
2. Implementar b√∫squeda por similitud sem√°ntica
3. Crear √≠ndice de documentos

**Puntos: 15/100**

In [None]:
# üìù EJERCICIO 5: Cargar modelo de embeddings

# üëâ TU C√ìDIGO AQU√ç:
# Carga un modelo de sentence-transformers apropiado para tu idioma
# Opciones:
# - Multiling√ºe: 'paraphrase-multilingual-MiniLM-L12-v2'
# - Espa√±ol: 'hiiamsid/sentence_similarity_spanish_es'
# - Ingl√©s: 'all-MiniLM-L6-v2'

# modelo_embeddings = SentenceTransformer('...')

print("‚úÖ Modelo de embeddings cargado")

In [None]:
# üìù EJERCICIO 6: Generar embeddings de documentos

# üëâ TU C√ìDIGO AQU√ç:
# Genera embeddings para todos tus documentos
# Gu√°rdalos en una matriz numpy para b√∫squeda eficiente

# embeddings_documentos = modelo_embeddings.encode(documentos, show_progress_bar=True)

# print(f"‚úÖ Generados embeddings de forma {embeddings_documentos.shape}")
# print(f"   - {embeddings_documentos.shape[0]} documentos")
# print(f"   - {embeddings_documentos.shape[1]} dimensiones por embedding")

In [None]:
# üìù EJERCICIO 7: Implementar b√∫squeda sem√°ntica

class BuscadorSemantico:
    def __init__(self, documentos, embeddings, modelo):
        self.documentos = documentos
        self.embeddings = embeddings
        self.modelo = modelo
    
    def buscar(self, consulta, top_k=5):
        """
        Busca los documentos m√°s similares a la consulta
        
        Args:
            consulta: texto de b√∫squeda
            top_k: n√∫mero de resultados a retornar
        
        Returns:
            Lista de tuplas (documento, score, √≠ndice)
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Tu c√≥digo aqu√≠:
        # 1. Generar embedding de la consulta
        # 2. Calcular similitud coseno con todos los documentos
        # 3. Ordenar por similitud
        # 4. Retornar top_k resultados
        
        resultados = []  # REEMPLAZA ESTO
        return resultados
    
    def mostrar_resultados(self, resultados):
        """
        Muestra los resultados de b√∫squeda de forma legible
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Tu c√≥digo aqu√≠
        pass

# üëâ TU C√ìDIGO AQU√ç:
# Crea una instancia del buscador y pru√©balo

# buscador = BuscadorSemantico(documentos, embeddings_documentos, modelo_embeddings)
# resultados = buscador.buscar("tu consulta de prueba")
# buscador.mostrar_resultados(resultados)

In [None]:
# üìù EJERCICIO 8: Pruebas de b√∫squeda

# üëâ TU C√ìDIGO AQU√ç:
# Realiza al menos 3 b√∫squedas diferentes y analiza los resultados
# Verifica que la b√∫squeda sem√°ntica funcione correctamente

consultas_prueba = [
    "tu primera consulta",
    "tu segunda consulta",
    "tu tercera consulta"
]

# for consulta in consultas_prueba:
#     print(f"\nüîç Consulta: {consulta}")
#     resultados = buscador.buscar(consulta, top_k=3)
#     buscador.mostrar_resultados(resultados)

---

# üéØ Secci√≥n 4: Clasificaci√≥n con BERT

**Objetivos**:
1. Preparar datos etiquetados para clasificaci√≥n
2. Fine-tuning de BERT o usar modelo pre-entrenado
3. Evaluar rendimiento del clasificador

**Puntos: 20/100**

In [None]:
# üìù EJERCICIO 9: Preparar datos de clasificaci√≥n

# üëâ TU C√ìDIGO AQU√ç:
# Define las categor√≠as/clases para tu proyecto
# Aseg√∫rate de tener datos etiquetados (al menos 20-30 ejemplos por clase)

# Opci√≥n A: Usar pipeline de clasificaci√≥n pre-entrenado
# (m√°s f√°cil, pero menos personalizado)

# Opci√≥n B: Fine-tuning de BERT
# (m√°s complejo, pero mejor rendimiento en tu dominio)

# Ejemplo de estructura de datos:
datos_clasificacion = [
    {"texto": "ejemplo 1", "etiqueta": "categoria_1"},
    {"texto": "ejemplo 2", "etiqueta": "categoria_2"},
    # ...
]

# Convierte a DataFrame
# df_clasificacion = pd.DataFrame(datos_clasificacion)

print("üìä Datos de clasificaci√≥n preparados")

In [None]:
# üìù EJERCICIO 10: Implementar clasificador

# OPCI√ìN A: Clasificador pre-entrenado (recomendado para empezar)

# üëâ TU C√ìDIGO AQU√ç:
# Usa un pipeline de clasificaci√≥n apropiado para tu tarea
# Ejemplos:
# - Sentimiento: pipeline("sentiment-analysis", model="...")
# - Zero-shot: pipeline("zero-shot-classification", model="...")

# clasificador = pipeline("...", model="...")

print("‚úÖ Clasificador listo")

In [None]:
# OPCI√ìN B: Fine-tuning de BERT (avanzado)

# Si eliges esta opci√≥n, necesitar√°s:
# 1. Preparar dataset con train/validation split
# 2. Tokenizar los textos
# 3. Cargar modelo BERT para clasificaci√≥n
# 4. Entrenar el modelo
# 5. Evaluar y guardar

# üëâ TU C√ìDIGO AQU√ç (opcional):

# from transformers import TrainingArguments, Trainer
# from datasets import Dataset

# Ejemplo de estructura:
# 1. Tokenizaci√≥n
# tokenizer = AutoTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")
# def tokenize_function(examples):
#     return tokenizer(examples["texto"], padding="max_length", truncation=True)

# 2. Modelo
# model = AutoModelForSequenceClassification.from_pretrained(
#     "dccuchile/bert-base-spanish-wwm-cased",
#     num_labels=len(categorias)
# )

# 3. Training
# training_args = TrainingArguments(...)
# trainer = Trainer(...)
# trainer.train()

print("‚ö†Ô∏è Fine-tuning completado (si elegiste esta opci√≥n)")

In [None]:
# üìù EJERCICIO 11: Evaluar clasificador

# üëâ TU C√ìDIGO AQU√ç:
# Clasifica tus documentos y eval√∫a el rendimiento

# 1. Clasificar documentos
# predicciones = []
# for doc in documentos:
#     pred = clasificador(doc)
#     predicciones.append(pred)

# 2. Matriz de confusi√≥n (si tienes etiquetas verdaderas)
# from sklearn.metrics import classification_report, confusion_matrix
# ...

# 3. Visualizaci√≥n de resultados
# ...

print("üìä Evaluaci√≥n del clasificador completada")

---

# üîÑ Secci√≥n 5: Sistema RAG (Retrieval Augmented Generation)

**Objetivos**:
1. Integrar b√∫squeda sem√°ntica con generaci√≥n
2. Implementar pipeline RAG completo
3. Generar respuestas basadas en contexto recuperado

**Puntos: 20/100**

In [None]:
# üìù EJERCICIO 12: Cargar modelo generativo

# üëâ TU C√ìDIGO AQU√ç:
# Carga un modelo de generaci√≥n de texto
# Opciones seg√∫n tus recursos:
# - Liviano: "gpt2", "distilgpt2"
# - Espa√±ol: "DeepESP/gpt2-spanish"
# - Multiling√ºe: "bigscience/bloom-560m"

# generador = pipeline("text-generation", model="...")

print("‚úÖ Modelo generativo cargado")

In [None]:
# üìù EJERCICIO 13: Implementar sistema RAG

class SistemaRAG:
    def __init__(self, buscador, generador):
        self.buscador = buscador
        self.generador = generador
    
    def generar_respuesta(self, pregunta, top_k=3, usar_contexto=True):
        """
        Pipeline RAG completo:
        1. Recuperar documentos relevantes (Retrieval)
        2. Construir prompt con contexto (Augmentation)
        3. Generar respuesta (Generation)
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        
        # Paso 1: Recuperaci√≥n
        if usar_contexto:
            # Tu c√≥digo aqu√≠:
            # - Buscar documentos relevantes
            # - Extraer el texto de los documentos
            contexto = ""  # REEMPLAZA ESTO
        else:
            contexto = ""
        
        # Paso 2: Augmentaci√≥n (construcci√≥n del prompt)
        if usar_contexto:
            prompt = f"""Contexto:
{contexto}

Pregunta: {pregunta}

Respuesta basada en el contexto anterior:"""
        else:
            prompt = f"Pregunta: {pregunta}\n\nRespuesta:"
        
        # Paso 3: Generaci√≥n
        # Tu c√≥digo aqu√≠:
        # - Generar respuesta usando el modelo
        # - Procesar y limpiar la respuesta
        respuesta = ""  # REEMPLAZA ESTO
        
        return {
            "pregunta": pregunta,
            "respuesta": respuesta,
            "contexto_usado": contexto if usar_contexto else None,
            "documentos_fuente": []  # Lista de documentos usados
        }
    
    def comparar_con_sin_contexto(self, pregunta):
        """
        Compara respuestas con y sin RAG
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Tu c√≥digo aqu√≠
        pass

# üëâ TU C√ìDIGO AQU√ç:
# Crea instancia del sistema RAG

# sistema_rag = SistemaRAG(buscador, generador)

print("‚úÖ Sistema RAG inicializado")

In [None]:
# üìù EJERCICIO 14: Pruebas del sistema RAG

# üëâ TU C√ìDIGO AQU√ç:
# Realiza al menos 3 preguntas a tu sistema RAG
# Compara respuestas con y sin contexto

preguntas_prueba = [
    "tu primera pregunta relacionada con tus documentos",
    "tu segunda pregunta",
    "tu tercera pregunta"
]

# for pregunta in preguntas_prueba:
#     print(f"\n‚ùì {pregunta}")
#     print("="*80)
#     
#     # Sin RAG
#     resp_sin = sistema_rag.generar_respuesta(pregunta, usar_contexto=False)
#     print(f"\nü§ñ Sin contexto: {resp_sin['respuesta']}")
#     
#     # Con RAG
#     resp_con = sistema_rag.generar_respuesta(pregunta, usar_contexto=True)
#     print(f"\nüéØ Con RAG: {resp_con['respuesta']}")
#     print(f"\nüìö Fuentes: {len(resp_con['documentos_fuente'])} documentos")

---

# ‚úçÔ∏è Secci√≥n 6: Generaci√≥n Avanzada con GPT

**Objetivos**:
1. Generar contenido original basado en tus documentos
2. Implementar diferentes estrategias de generaci√≥n
3. Crear utilidades √∫tiles (res√∫menes, expansiones, etc.)

**Puntos: 15/100**

In [None]:
# üìù EJERCICIO 15: Implementar generador avanzado

class GeneradorInteligente:
    def __init__(self, modelo_generacion):
        self.modelo = modelo_generacion
    
    def generar_resumen(self, texto, max_length=100):
        """
        Genera un resumen del texto
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Opci√≥n A: Usar modelo de summarization
        # Opci√≥n B: Usar generaci√≥n con prompt espec√≠fico
        
        resumen = ""  # REEMPLAZA ESTO
        return resumen
    
    def expandir_texto(self, texto_semilla, num_palabras=200):
        """
        Expande un texto inicial generando continuaci√≥n
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        expansion = ""  # REEMPLAZA ESTO
        return expansion
    
    def generar_con_estilo(self, prompt, temperatura=0.7, top_p=0.9):
        """
        Genera texto con par√°metros personalizados
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        # Experimenta con diferentes valores de temperatura y top_p
        texto_generado = ""  # REEMPLAZA ESTO
        return texto_generado
    
    def generar_variaciones(self, texto_base, num_variaciones=3):
        """
        Genera m√∫ltiples variaciones de un texto
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        variaciones = []  # REEMPLAZA ESTO
        return variaciones

# üëâ TU C√ìDIGO AQU√ç:
# Crea instancia del generador

# generador_avanzado = GeneradorInteligente(generador)

print("‚úÖ Generador avanzado inicializado")

In [None]:
# üìù EJERCICIO 16: Casos de uso de generaci√≥n

# üëâ TU C√ìDIGO AQU√ç:
# Implementa al menos 2 casos de uso espec√≠ficos para tu proyecto
# Ejemplos:
# - Generar res√∫menes de documentos largos
# - Crear t√≠tulos autom√°ticos
# - Generar conclusiones
# - Escribir introducciones
# - Parafrasear contenido

# Caso de uso 1:
print("üìù Caso de uso 1: [describe tu caso]")
# Tu c√≥digo aqu√≠

# Caso de uso 2:
print("\nüìù Caso de uso 2: [describe tu caso]")
# Tu c√≥digo aqu√≠

---

# ü§ñ Secci√≥n 7: Agente Inteligente

**Objetivos**:
1. Orquestar todos los componentes anteriores
2. Implementar flujo de decisi√≥n inteligente
3. Crear interfaz unificada del sistema

**Puntos: 10/100**

In [None]:
# üìù EJERCICIO 17: Implementar agente integrador

class AgenteNLP:
    """
    Agente que orquesta todos los componentes del sistema
    """
    
    def __init__(self, preprocessor, buscador, clasificador, sistema_rag, generador):
        self.preprocessor = preprocessor
        self.buscador = buscador
        self.clasificador = clasificador
        self.sistema_rag = sistema_rag
        self.generador = generador
    
    def procesar_consulta(self, consulta_usuario):
        """
        Decide qu√© operaci√≥n realizar bas√°ndose en la consulta
        
        üëâ COMPLETA ESTA FUNCI√ìN
        
        Ideas de flujo:
        1. Analizar la intenci√≥n de la consulta
        2. Decidir qu√© componente(s) usar
        3. Ejecutar las operaciones necesarias
        4. Combinar resultados
        5. Presentar respuesta final
        """
        
        resultado = {
            "consulta": consulta_usuario,
            "operaciones_realizadas": [],
            "resultados": {},
            "respuesta_final": ""
        }
        
        # Tu c√≥digo aqu√≠:
        # Ejemplo de flujo de decisi√≥n:
        # - Si contiene "busca" o "encuentra" ‚Üí usar buscador
        # - Si pide "clasificar" o "categorizar" ‚Üí usar clasificador
        # - Si hace pregunta ‚Üí usar RAG
        # - Si pide "generar" o "crear" ‚Üí usar generador
        # - Combinar m√∫ltiples operaciones si es necesario
        
        return resultado
    
    def ejecutar_flujo_completo(self, entrada_usuario):
        """
        Flujo completo que usa todos los componentes
        
        üëâ COMPLETA ESTA FUNCI√ìN
        
        Ejemplo de flujo:
        1. Preprocesar entrada
        2. Buscar documentos relevantes
        3. Clasificar la consulta
        4. Generar respuesta con RAG
        5. Refinar respuesta con generador
        """
        
        # Tu c√≥digo aqu√≠
        pass
    
    def modo_conversacional(self):
        """
        Modo interactivo para probar el agente
        
        üëâ COMPLETA ESTA FUNCI√ìN
        """
        print("ü§ñ Agente NLP iniciado. Escribe 'salir' para terminar.\n")
        
        while True:
            # Tu c√≥digo aqu√≠:
            # - Solicitar entrada del usuario
            # - Procesar la consulta
            # - Mostrar resultados
            # - Permitir salir
            pass

# üëâ TU C√ìDIGO AQU√ç:
# Crea instancia del agente con todos tus componentes

# agente = AgenteNLP(
#     preprocessor=preprocessor,
#     buscador=buscador,
#     clasificador=clasificador,
#     sistema_rag=sistema_rag,
#     generador=generador_avanzado
# )

print("‚úÖ Agente NLP creado")

In [None]:
# üìù EJERCICIO 18: Pruebas del agente

# üëâ TU C√ìDIGO AQU√ç:
# Prueba tu agente con diferentes tipos de consultas

consultas_prueba = [
    "tu consulta de b√∫squeda",
    "tu consulta de clasificaci√≥n",
    "tu pregunta para RAG",
    "tu solicitud de generaci√≥n",
]

# for consulta in consultas_prueba:
#     print(f"\n{'='*80}")
#     print(f"Usuario: {consulta}")
#     print(f"{'='*80}")
#     
#     resultado = agente.procesar_consulta(consulta)
#     # Muestra los resultados
#     print(f"\n{resultado}")

In [None]:
# üìù OPCIONAL: Modo conversacional

# Descomenta para activar el modo interactivo:
# agente.modo_conversacional()

---

# üìä Secci√≥n 8: Demo y Documentaci√≥n Final

**Objetivos**:
1. Crear demo completa del sistema
2. Documentar arquitectura y componentes
3. An√°lisis de resultados y conclusiones

**Puntos: 5/100**

## üé¨ Demo Completa

**Instrucciones**:

Crea una demostraci√≥n completa de tu sistema que muestre:

1. **Presentaci√≥n del problema**: Qu√© problema resuelve tu sistema
2. **Datos utilizados**: Descripci√≥n de tu corpus de documentos
3. **Componentes del sistema**: Explicaci√≥n de cada m√≥dulo
4. **Casos de uso**: 3-5 ejemplos reales de uso
5. **Resultados**: M√©tricas de rendimiento cuando aplique

In [None]:
# üìù EJERCICIO 19: Demo completa

# üëâ TU C√ìDIGO AQU√ç:
# Crea una funci√≥n que ejecute una demo completa de tu sistema

def demo_sistema_completo():
    """
    Demostraci√≥n completa del sistema NLP
    """
    
    print("="*80)
    print("üéØ DEMO: [NOMBRE DE TU PROYECTO]")
    print("="*80)
    
    # 1. Presentaci√≥n
    print("\nüìã DESCRIPCI√ìN DEL PROBLEMA")
    print("-"*80)
    # Tu descripci√≥n aqu√≠
    
    # 2. Datos
    print("\nüìä DATOS UTILIZADOS")
    print("-"*80)
    # Estad√≠sticas de tus datos
    
    # 3. Componentes
    print("\nüîß COMPONENTES DEL SISTEMA")
    print("-"*80)
    # Lista tus componentes
    
    # 4. Casos de uso
    print("\nüí° CASOS DE USO")
    print("-"*80)
    
    # Caso 1: B√∫squeda sem√°ntica
    print("\n1Ô∏è‚É£ B√∫squeda Sem√°ntica")
    # Tu demo aqu√≠
    
    # Caso 2: Clasificaci√≥n
    print("\n2Ô∏è‚É£ Clasificaci√≥n Autom√°tica")
    # Tu demo aqu√≠
    
    # Caso 3: Sistema RAG
    print("\n3Ô∏è‚É£ Sistema de Pregunta-Respuesta (RAG)")
    # Tu demo aqu√≠
    
    # Caso 4: Generaci√≥n
    print("\n4Ô∏è‚É£ Generaci√≥n de Contenido")
    # Tu demo aqu√≠
    
    # Caso 5: Agente completo
    print("\n5Ô∏è‚É£ Agente Inteligente")
    # Tu demo aqu√≠
    
    # 5. M√©tricas
    print("\nüìà M√âTRICAS DE RENDIMIENTO")
    print("-"*80)
    # Tus m√©tricas aqu√≠
    
    print("\n" + "="*80)
    print("‚úÖ DEMO COMPLETADA")
    print("="*80)

# Ejecuta la demo
# demo_sistema_completo()

## üìê Arquitectura del Sistema

**Documenta aqu√≠ la arquitectura de tu sistema**:

### Diagrama de Componentes

```
[Dibuja o describe el flujo de datos entre componentes]

Entrada del Usuario
        ‚Üì
   Preprocessor
        ‚Üì
    Agente NLP
        ‚Üì
   [Componentes]
        ‚Üì
  Respuesta Final
```

### Modelos Utilizados

| Componente | Modelo | Justificaci√≥n |
|------------|--------|---------------|
| Embeddings | [nombre] | [por qu√© elegiste este] |
| Clasificaci√≥n | [nombre] | [por qu√© elegiste este] |
| Generaci√≥n | [nombre] | [por qu√© elegiste este] |

### Decisiones de Dise√±o

1. **[Decisi√≥n 1]**: [Explicaci√≥n]
2. **[Decisi√≥n 2]**: [Explicaci√≥n]
3. **[Decisi√≥n 3]**: [Explicaci√≥n]

## üîç An√°lisis de Resultados

### Fortalezas del Sistema

1. **[Fortaleza 1]**: [Descripci√≥n y evidencia]
2. **[Fortaleza 2]**: [Descripci√≥n y evidencia]
3. **[Fortaleza 3]**: [Descripci√≥n y evidencia]

### Limitaciones Identificadas

1. **[Limitaci√≥n 1]**: [Descripci√≥n y posible soluci√≥n]
2. **[Limitaci√≥n 2]**: [Descripci√≥n y posible soluci√≥n]
3. **[Limitaci√≥n 3]**: [Descripci√≥n y posible soluci√≥n]

### Mejoras Futuras

1. **Corto plazo**:
   - [Mejora 1]
   - [Mejora 2]

2. **Largo plazo**:
   - [Mejora 1]
   - [Mejora 2]

## üéì Aprendizajes y Conclusiones

### Principales Aprendizajes

1. **T√©cnico**:
   - [Aprendizaje t√©cnico 1]
   - [Aprendizaje t√©cnico 2]

2. **Conceptual**:
   - [Aprendizaje conceptual 1]
   - [Aprendizaje conceptual 2]

3. **Pr√°ctico**:
   - [Aprendizaje pr√°ctico 1]
   - [Aprendizaje pr√°ctico 2]

### Reflexi√≥n Final

[Escribe un p√°rrafo reflexionando sobre:
- Lo que aprendiste en el curso
- C√≥mo aplicar√≠as estos conocimientos
- Pr√≥ximos pasos en tu aprendizaje de NLP/LLMs]

---

# üì¶ Secci√≥n 9: Empaquetado y Entrega

Antes de entregar tu proyecto, aseg√∫rate de:

## ‚úÖ Checklist Final

Marca cada item cuando est√© completado:

### C√≥digo
- [ ] Todos los ejercicios est√°n completados
- [ ] El c√≥digo ejecuta sin errores
- [ ] Las funciones tienen documentaci√≥n (docstrings)
- [ ] El c√≥digo est√° comentado apropiadamente
- [ ] Se siguen buenas pr√°cticas de programaci√≥n

### Componentes
- [ ] ‚úÖ Preprocesamiento NLP cl√°sico implementado
- [ ] ‚úÖ Sistema de embeddings y b√∫squeda sem√°ntica funcional
- [ ] ‚úÖ Clasificador con BERT implementado y evaluado
- [ ] ‚úÖ Sistema RAG completo funcionando
- [ ] ‚úÖ Generador de texto implementado
- [ ] ‚úÖ Agente integrador creado

### Documentaci√≥n
- [ ] Secci√≥n 0 completada (definici√≥n del proyecto)
- [ ] Demo completa funcional
- [ ] Arquitectura documentada
- [ ] An√°lisis de resultados incluido
- [ ] Conclusiones y aprendizajes escritos

### Entrega
- [ ] Notebook ejecuta completamente en Colab
- [ ] Todas las celdas producen output esperado
- [ ] Enlace de Colab o repo de GitHub preparado
- [ ] README.md creado (si usas GitHub)

### Calidad
- [ ] C√≥digo limpio y organizado
- [ ] Visualizaciones claras y √∫tiles
- [ ] Ejemplos demostrativos incluidos
- [ ] M√©tricas de evaluaci√≥n calculadas

## üì§ Instrucciones de Entrega Final

### Si usas Google Colab:

1. Ejecuta todas las celdas: `Entorno de ejecuci√≥n ‚Üí Ejecutar todas`
2. Verifica que no haya errores
3. Guarda: `Archivo ‚Üí Guardar una copia en Drive`
4. Comparte: Click en `Compartir` ‚Üí `Cualquier persona con el enlace`
5. Copia el enlace y env√≠alo

### Si usas GitHub:

1. Crea un repositorio nuevo
2. A√±ade este notebook
3. Crea un README.md con:
   - T√≠tulo del proyecto
   - Descripci√≥n breve
   - Instrucciones de instalaci√≥n
   - Instrucciones de uso
   - Ejemplos de resultados
   - Cr√©ditos y referencias
4. Sube el c√≥digo: `git add . && git commit -m "Proyecto final" && git push`
5. Comparte el enlace del repositorio

### Informaci√≥n a incluir en la entrega:

- **Nombre**: [Tu nombre]
- **T√≠tulo del proyecto**: [T√≠tulo]
- **Enlace**: [URL de Colab o GitHub]
- **Opci√≥n elegida**: [A, B, C, o D]
- **Tiempo invertido**: [Aproximadamente X horas]
- **Comentarios adicionales**: [Opcional]

---

# üéâ ¬°Felicitaciones!

Si has llegado hasta aqu√≠, has completado el desaf√≠o final del curso de NLP y LLMs.

Has construido un sistema completo que integra:
- T√©cnicas cl√°sicas de NLP
- Modelos de lenguaje modernos
- Arquitecturas transformer (BERT, GPT)
- Sistemas avanzados (RAG, Agentes)

## üöÄ Pr√≥ximos Pasos

Para continuar tu aprendizaje:

1. **Expande tu proyecto**:
   - A√±ade m√°s fuentes de datos
   - Implementa una interfaz web (Gradio, Streamlit)
   - Fine-tunea modelos en tu dominio espec√≠fico

2. **Explora nuevos temas**:
   - Modelos multimodales (CLIP, BLIP)
   - LLMs m√°s grandes (Llama, Mistral)
   - T√©cnicas de optimizaci√≥n (LoRA, quantizaci√≥n)

3. **Comparte y colabora**:
   - Publica tu proyecto en GitHub
   - Escribe un blog post sobre lo aprendido
   - Contribuye a proyectos open source

## üìö Recursos Adicionales

- [Hugging Face Course](https://huggingface.co/course)
- [Papers with Code](https://paperswithcode.com/)
- [Andrej Karpathy - Neural Networks](https://karpathy.ai/)
- [Sebastian Ruder - NLP Blog](https://ruder.io/)

---

**¬°Mucho √©xito con tu proyecto y tu carrera en NLP!** üéì‚ú®