# Procesamiento del Lenguaje Natural e Introducción a LLMs

**Materiales del Curso - Índice General**

---

Bienvenido al repositorio de materiales del curso. Este índice te guía a través de todos los notebooks disponibles, organizados por tema y nivel de dificultad.

---

## Estructura de la Clase

Los materiales están organizados en módulos progresivos:

1. **Herramientas y Colaboración** - Git y GitHub para trabajo en equipo
2. **Procesamiento de Audio** - Transcripción de audio y video con Whisper
3. **Named Entity Recognition** - Extracción de entidades en textos
4. **Visión y Lenguaje** - Generación de descripciones de imágenes
5. **Infraestructura y Deployment** - Docker, n8n y Ollama para producción

---

## Índice de Notebooks

### Módulo 0: Herramientas de Colaboración

#### 000 - Git y GitHub para Trabajo en Equipo

**Archivo:** `000_Git_GitHub_Trabajo_Equipo.ipynb`

**Descripción:**  
Guía completa de Git y GitHub para trabajar en equipo. Incluye comandos esenciales, flujos de trabajo, resolución de conflictos y buenas prácticas.

**Contenido:**
- Configuración inicial de Git
- Comandos básicos y avanzados
- Trabajo con ramas (branches)
- Pull requests y code review
- Resolución de conflictos
- Ejercicios prácticos grupales

**Nivel:** Básico  
**Prerrequisitos:** Ninguno  
**Tiempo estimado:** 45-60 minutos  
**Tipo:** Guía de referencia

---

### Módulo 1: Procesamiento de Audio y Video

#### 001 - Transcripción de Audio con Resumen Inteligente

**Archivo:** `001_Audio_Transcripcion_Resumen.ipynb`

**Descripción:**  
Sistema completo de transcripción de audio con Whisper y generación de resúmenes contextualizados con Gemini.

**Contenido:**
- Transcripción automática con Whisper
- Resúmenes inteligentes con Gemini 2.5
- Diferentes tipos de resumen (ejecutivo, detallado, puntos clave)
- Contextos especializados (reunión, entrevista, conferencia)
- Interfaz Gradio completa

**Nivel:** Intermedio  
**Prerrequisitos:** API Key de Google AI Studio, GPU en Colab  
**Tiempo estimado:** 90 minutos  
**Tecnologías:** Whisper, Gemini, Gradio

---

#### 001A - Transcripción Simple de Audio

**Archivo:** `001A_Transcripcion_Audio_Simple.ipynb`

**Descripción:**  
Versión simplificada enfocada únicamente en transcripción de audio a texto, sin resumen.

**Contenido:**
- Transcripción con Whisper
- Selección de diferentes modelos (tiny, small, medium, large)
- Interfaz Gradio simple
- Guardar transcripciones en archivos
- Comparación de modelos

**Nivel:** Básico  
**Prerrequisitos:** GPU en Colab (recomendado)  
**Tiempo estimado:** 45 minutos  
**Tecnologías:** Whisper, Gradio

**Ideal para:** Empezar con transcripción sin complejidades adicionales

---

#### 001B - Transcripción de Videos

**Archivo:** `001B_Transcripcion_Video_Simple.ipynb`

**Descripción:**  
Extracción automática de audio de videos y transcripción a texto.

**Contenido:**
- Extracción de audio con MoviePy
- Transcripción con Whisper
- Soporte para múltiples formatos (MP4, AVI, MOV, MKV)
- Generación de subtítulos con timestamps
- Limpieza automática de archivos temporales

**Nivel:** Básico-Intermedio  
**Prerrequisitos:** GPU en Colab (recomendado)  
**Tiempo estimado:** 60 minutos  
**Tecnologías:** Whisper, MoviePy, Gradio

**Ideal para:** Generar subtítulos, transcribir conferencias grabadas

---

### Módulo 2: Named Entity Recognition (NER)

#### 002 - NER con Transformers y Gemini

**Archivo:** `002_NER_Transformers_Gemini.ipynb`

**Descripción:**  
Extracción de entidades nombradas comparando dos enfoques: modelo local (Transformers) vs API (Gemini).

**Contenido:**
- NER con modelo BERT en español
- NER con Gemini API
- Comparación de resultados
- Detección de personas, lugares, organizaciones
- Interfaces Gradio para ambos modelos
- Ejemplos con contexto argentino

**Nivel:** Intermedio  
**Prerrequisitos:** API Key de Google (opcional), GPU recomendada  
**Tiempo estimado:** 75 minutos  
**Tecnologías:** Transformers, Gemini, Gradio

**Casos de uso:** Análisis de documentos, extracción de información, procesamiento de CVs

---

### Módulo 3: Visión y Lenguaje (Image Captioning)

#### 003 - Image Captioning Básico

**Archivo:** `003_Image_Captioning_Basico.ipynb`

**Descripción:**  
Introducción a la generación de descripciones de imágenes con modelos visión-lenguaje.

**Contenido:**
- Modelo BLIP base
- Generación de descripciones simples
- Interfaz Gradio básica
- Carga y procesamiento de imágenes

**Nivel:** Básico  
**Prerrequisitos:** Ninguno especial  
**Tiempo estimado:** 30 minutos  
**Tecnologías:** BLIP, Transformers, Gradio

**Ideal para:** Primera experiencia con modelos multimodales

---

#### 004 - Image Captioning Avanzado

**Archivo:** `004_Image_Captioning_Avanzado.ipynb`

**Descripción:**  
Sistema completo de generación de descripciones en español con traducción automática.

**Contenido:**
- Modelo BLIP large para mejor calidad
- Traducción automática inglés-español
- Interfaz Gradio profesional
- Explicaciones detalladas de arquitectura
- Ejercicios de reflexión

**Nivel:** Intermedio  
**Prerrequisitos:** GPU recomendada  
**Tiempo estimado:** 60 minutos  
**Tecnologías:** BLIP, Helsinki-NLP, Transformers, Gradio

**Casos de uso:** Accesibilidad, organización de fotos, e-commerce

---

### Módulo 4: Infraestructura y Deployment

#### 005 - Asistente NLP con Docker, n8n y Ollama

**Archivo:** `005_Asistente_NLP_Docker_n8n_Ollama.ipynb`

**Descripción:**  
Construcción de un sistema de procesamiento de lenguaje natural completo, desplegable y escalable usando containerización.

**Contenido:**
- Fundamentos de Docker y containerización
- Docker Compose para orquestación
- n8n para workflows visuales
- Ollama para modelos de lenguaje locales
- IBM Granite 4 (modelo híbrido Mamba-Transformer)
- Construcción paso a paso de workflow NLP
- Creación de imágenes Docker personalizadas
- Conceptos de deployment en servidores

**Tareas de NLP implementadas:**
- Named Entity Recognition
- Análisis de sentimiento
- Sumarización de textos
- Clasificación de documentos
- Extracción de palabras clave

**Nivel:** Avanzado  
**Prerrequisitos:** Docker Desktop instalado, conceptos básicos de terminal  
**Tiempo estimado:** 2 horas  
**Tecnologías:** Docker, n8n, Ollama, IBM Granite 4, Streamlit

**IMPORTANTE:** Este notebook NO se puede ejecutar en Google Colab. Requiere instalación local.

**Casos de uso:** Aplicaciones de producción, sistemas empresariales, prototipos escalables

---

## Guía de Uso

### Cómo usar estos materiales

1. **Empieza por el principio**: Si sos nuevo en el curso, comenzá con el módulo 0 (Git/GitHub)
2. **Sigue el orden**: Los notebooks están diseñados para seguir una progresión lógica
3. **Practica**: Cada notebook incluye ejercicios prácticos
4. **Experimenta**: Modifica parámetros, prueba con tus propios datos
5. **Colabora**: Usa Git para trabajar en equipo en los proyectos
---

## Tabla Comparativa de Notebooks

| Notebook | Nivel | GPU | API Key | Colab | Local | Tiempo |
|----------|-------|-----|---------|-------|-------|--------|
| 000 Git/GitHub | Básico | No | No | Si | Si | 45 min |
| 001 Audio+Resumen | Intermedio | Si | Si | Si | Si | 90 min |
| 001A Audio Simple | Básico | Recomendada | No | Si | Si | 45 min |
| 001B Video | Básico-Int | Recomendada | No | Si | Si | 60 min |
| 002 NER | Intermedio | Recomendada | Opcional | Si | Si | 75 min |
| 003 Image Básico | Básico | No | No | Si | Si | 30 min |
| 004 Image Avanzado | Intermedio | Recomendada | No | Si | Si | 60 min |
| 005 Docker/n8n | Avanzado | No | No | **No** | **Si** | 120 min |

**Leyenda:**
- **GPU:** Si se requiere o recomienda GPU
- **API Key:** Si requiere clave API de servicios externos
- **Colab:** Si puede ejecutarse en Google Colab
- **Local:** Si puede ejecutarse en máquina local

---

## Prerrequisitos Generales

### Software

**Para ejecutar en Google Colab:**
- Cuenta de Google
- Navegador web moderno
- Conexión a internet

**Para ejecutar localmente:**
- Python 3.8 o superior
- Jupyter Notebook o JupyterLab
- pip o conda para gestión de paquetes

**Para el módulo de Docker (005):**
- Docker Desktop
- 16GB RAM recomendados
- 20GB espacio en disco

### Conocimientos previos

**Básicos (necesarios):**
- Python básico (variables, funciones, listas)
- Uso de Jupyter notebooks
- Conceptos básicos de terminal/línea de comandos

**Intermedios (recomendados):**
- NumPy y manejo de arrays
- Conceptos de machine learning
- APIs y requests HTTP

**Avanzados (para módulo 4):**
- Contenedores y Docker
- Redes y puertos
- Conceptos de deployment

---

## Obtener API Keys

### Google AI Studio (para Gemini)

1. Visita: https://aistudio.google.com/app/apikey
2. Inicia sesión con tu cuenta de Google
3. Haz clic en "Create API Key"
4. Copia la clave generada
5. En Google Colab: guárdala en Secrets (icono de llave)

**Notebooks que la requieren:**
- 001 Audio + Resumen
- 002 NER (opcional)

### Hugging Face (opcional)

1. Visita: https://huggingface.co/settings/tokens
2. Crea una cuenta si no tienes
3. Genera un token de acceso
4. Útil para descargar modelos grandes

---

## Configurar GPU en Google Colab

### Pasos para habilitar GPU

1. Abre el notebook en Google Colab
2. Ve al menú: **Runtime > Change runtime type**
3. En "Hardware accelerator", selecciona **GPU**
4. Haz clic en **Save**
5. El runtime se reiniciará

### Verificar GPU disponible

Ejecuta en una celda:

```python
import torch
print("GPU disponible:", torch.cuda.is_available())
if torch.cuda.is_available():
    print("GPU:", torch.cuda.get_device_name(0))
```

### Notebooks que requieren GPU

**Necesaria:**
- 001 Audio + Resumen
- 001A Audio Simple (para Whisper medium/large)
- 001B Video

**Recomendada:**
- 002 NER
- 004 Image Captioning Avanzado

---

## Rutas de Aprendizaje Sugeridas

### Ruta 1: Principiante en NLP

```
000 Git/GitHub (básico)
    ↓
001A Audio Simple (familiarizarse con Whisper)
    ↓
003 Image Captioning Básico (visión+lenguaje)
    ↓
002 NER (extracción de información)
```

**Tiempo total:** 3-4 horas

---

### Ruta 2: Desarrollo de Aplicaciones

```
000 Git/GitHub (colaboración)
    ↓
001 Audio + Resumen (pipeline completo)
    ↓
004 Image Captioning Avanzado (traducción)
    ↓
005 Docker/n8n (deployment)
```

**Tiempo total:** 6-7 horas

---

### Ruta 3: Procesamiento Multimedia

```
001A Audio Simple (transcripción)
    ↓
001B Video (audio de video)
    ↓
003 Image Básico (descripciones)
    ↓
004 Image Avanzado (sistema completo)
```

**Tiempo total:** 3-4 horas

---

### Ruta 4: Infraestructura y Producción

```
000 Git/GitHub (control de versiones)
    ↓
001 Audio + Resumen (caso de uso completo)
    ↓
005 Docker/n8n (containerización)
```

**Tiempo total:** 4-5 horas

---

## Proyectos Integradores Sugeridos

### Proyecto 1: Sistema de Análisis de Reuniones

**Notebooks involucrados:** 001, 002

**Descripción:**  
Sistema que transcribe reuniones, extrae participantes y decisiones importantes, y genera resumen ejecutivo.

**Habilidades:**
- Transcripción con Whisper
- NER para extraer nombres
- Resumen con Gemini

---

### Proyecto 2: Analizador de Contenido Multimedia

**Notebooks involucrados:** 001B, 004

**Descripción:**  
Aplicación que procesa videos educativos: genera transcripción, extrae frames clave, describe imágenes y crea resumen.

**Habilidades:**
- Procesamiento de video
- Image captioning
- Integración multimodal

---

### Proyecto 3: Asistente de Documentación

**Notebooks involucrados:** 002, 005

**Descripción:**  
Sistema desplegable que analiza documentos, extrae entidades, clasifica temas y permite consultas.

**Habilidades:**
- NER
- Clasificación
- Docker deployment
- n8n workflows

---

### Proyecto 4: Plataforma de Accesibilidad

**Notebooks involucrados:** 001B, 003, 004

**Descripción:**  
Sistema que convierte contenido multimedia en texto accesible: transcripciones, descripciones de imágenes, subtítulos.

**Habilidades:**
- Transcripción
- Image captioning
- Generación de subtítulos
- Interfaz de usuario

---

## Solución de Problemas Comunes

### Error: Out of Memory en Colab

**Solución:**
1. Reinicia el runtime: Runtime > Restart runtime
2. Usa modelos más pequeños (tiny, small en lugar de large)
3. Procesa archivos más cortos
4. Limpia variables: `del variable_grande`

---

### Error: GPU no disponible

**Solución:**
1. Verifica: Runtime > Change runtime type > GPU
2. Si Colab no asigna GPU, espera unos minutos
3. Usa modelos optimizados para CPU
4. Considera Colab Pro para más acceso a GPU

---

### Error: API Key inválida

**Solución:**
1. Verifica que la key esté bien copiada
2. En Colab Secrets, asegúrate del nombre exacto
3. Regenera la key si es necesaria
4. Verifica que tenga permisos activos

---

### Error: Módulo no encontrado

**Solución:**
1. Ejecuta la celda de instalación de dependencias
2. Reinicia el runtime después de instalar
3. Verifica la versión de las librerías

---

## Recursos Adicionales

### Documentación oficial

- [Hugging Face Transformers](https://huggingface.co/docs/transformers/)
- [Google AI Studio](https://ai.google.dev/)
- [Gradio Documentation](https://gradio.app/docs/)
- [Docker Documentation](https://docs.docker.com/)
- [n8n Documentation](https://docs.n8n.io/)
- [Ollama Documentation](https://ollama.ai/)

### Comunidades y soporte

- [Hugging Face Forums](https://discuss.huggingface.co/)
- [Stack Overflow - NLP tag](https://stackoverflow.com/questions/tagged/nlp)
- [GitHub Discussions](https://github.com/)

### Datasets para practicar

- [Hugging Face Datasets](https://huggingface.co/datasets)
- [Kaggle Datasets](https://www.kaggle.com/datasets)
- [Common Voice](https://commonvoice.mozilla.org/) - Audio en español

---

## Información del Curso

**Nombre:** Procesamiento del Lenguaje Natural e Introducción a LLMs  

**Objetivos de aprendizaje:**
1. Comprender y aplicar técnicas modernas de NLP
2. Trabajar con modelos de lenguaje grandes (LLMs)
3. Implementar sistemas multimodales (texto, audio, imagen)
4. Desplegar aplicaciones de NLP en producción
5. Colaborar en proyectos usando Git/GitHub

---

**Última actualización:** Noviembre 2025  

---

## Notas Finales

### Para estudiantes

Este material está diseñado para ser autocontenido y progresivo. No tengas miedo de experimentar y modificar el código. Los errores son parte del aprendizaje.

**Consejos:**
- Lee los comentarios en el código
- Completa todos los ejercicios
- Forma grupos de estudio
- Usa Git desde el principio
- Pregunta cuando tengas dudas

Este material está en constante evolución. Si encontrás errores o tenés sugerencias:
1. Usa Git para hacer un fork del repositorio
2. Crea una rama con tu mejora
3. Envía un pull request
4. Participa en las discusiones

---

**¡Éxito en tu aprendizaje de NLP!**