# Trabajo Integrador Individual - NLP
## "De Texto Crudo a Insights: Pipeline Completo de Análisis de NLP"

**Fecha de entrega**: Jueves 25 de septiembre  
**Modalidad**: Individual  
**Formato**: Repositorio GitHub con notebook documentado

---

## Objetivos del Trabajo

Este trabajo integrador tiene como objetivo que demuestres tu capacidad de:

1. **Construir un corpus textual** siguiendo criterios metodológicos apropiados
2. **Aplicar todo el pipeline de NLP** aprendida durante el curso
3. **Comparar diferentes técnicas** de representación y análisis textual
4. **Interpretar resultados** en el contexto del dominio elegido
5. **Documentar y presentar** tu trabajo de manera profesional

Al completar este trabajo, tendrás una demostración tangible de tus habilidades en procesamiento de lenguaje natural que podés incluir en tu portafolio profesional.

---

## ¿Por qué Cuadernos Interactivos para IA y Ciencias de Datos?

### Diferencias Metodológicas Fundamentales

El trabajo en inteligencia artificial y ciencias de datos requiere un enfoque metodológico diferente al desarrollo de software tradicional. Mientras que la programación tradicional sigue un flujo lineal y predecible, el trabajo con datos es inherentemente iterativo y exploratorio.

**Programación Tradicional:**
```
Requisitos → Diseño → Implementación → Testing → Producto
```

**Investigación en IA/Datos:**
```
Hipótesis ⟷ Experimento ⟷ Análisis ⟷ Refinamiento ⟷ Nueva Hipótesis
```

### Ventajas de los Cuadernos Interactivos

1. **Narrativa Científica:** Permiten documentar el proceso de pensamiento, no solo el resultado final
2. **Iteración Rápida:** Ejecutar y modificar secciones específicas sin reejecutar todo el programa
3. **Visualización Inmediata:** Ver resultados inmediatamente después de cada paso
4. **Comunicación Efectiva:** Stakeholders no técnicos pueden seguir el proceso y entender decisiones
5. **Reproducibilidad:** Otros investigadores pueden replicar exactamente los experimentos

### Casos de Uso en la Industria

- **Google Research:** Publica papers con cuadernos que permiten reproducir experimentos
- **Netflix:** Usa cuadernos para análisis de datos de usuarios y recomendaciones
- **Uber:** Análisis de patrones de viajes y optimización de rutas
- **Kaggle:** Plataforma completa basada en cuadernos para competencias de machine learning

### Cuándo Usar Cada Herramienta

**Usar Cuadernos para:**
- Análisis exploratorio de datos
- Experimentación y prototipado
- Comunicación de resultados
- Educación y documentación

**Usar Scripts para:**
- Sistemas en producción
- Automatización de tareas repetitivas
- APIs y servicios web
- Pipelines de datos automatizados

En este trabajo práctico, usaremos cuadernos porque estamos en la fase de investigación y experimentación, donde necesitamos entender los datos, probar diferentes enfoques y documentar nuestros hallazgos.

---

## Parte 1: Construcción del Corpus

### ¿Qué es un Corpus?

Un **corpus** es una colección estructurada y organizada de textos que representa un dominio específico del lenguaje. En procesamiento de lenguaje natural, necesitamos datos textuales bien organizados para poder analizarlos de manera sistemática y obtener insights significativos.

**Pensá en un corpus como una "muestra representativa"** del tipo de lenguaje que querés estudiar, similar a como un científico toma muestras representativas para estudiar un fenómeno.

### Características de un Buen Corpus

Para que tu análisis sea exitoso, tu corpus debe cumplir con estas características:

#### 1. Coherencia Temática
- Los textos deben estar relacionados por **tema**, **género**, **autor**, **época** o **estilo**
- Debe haber un "hilo conductor" que justifique por qué esos textos van juntos
- **Ejemplo**: Todas las canciones de rock nacional argentino, o todos los cuentos de terror contemporáneo

#### 2. Tamaño Suficiente
- **Mínimo**: 15-20 documentos para análisis significativo
- **Óptimo**: 20-30 documentos
- Cada documento debe tener contenido sustancial (no tweets de 2 líneas)

#### 3. Variabilidad Interna
- Aunque coherente, debe haber **diferencias** entre los textos
- Esta variabilidad permite encontrar patrones interesantes
- **Ejemplo**: Canciones del mismo género pero de diferentes décadas

#### 4. Calidad Textual
- Textos **completos**, no fragmentos muy cortos
- **Legibles** y bien formateados
- **Sin errores** de codificación o caracteres extraños

### Opciones de Corpus que Podés Elegir

Elegí **UNA** de estas opciones o proponé una similar:

#### Opción A: Corpus Musical 🎵

**Posibilidades**:
- Letras de canciones de un **género específico** (rock nacional, tango, trap argentino, folklore)
- Canciones de una **época determinada** (años 80, década del 2000, música actual)
- Obra de **artistas relacionados** (Charly García, Luis Alberto Spinetta, Fito Páez)
- Canciones sobre un **tema específico** (amor, protesta social, Buenos Aires)

**Requerimientos**: Mínimo 20-25 canciones completas

**Fuentes sugeridas**: Genius.com, LyricFind, sitios oficiales de artistas, Rock.com.ar

**Ejemplo de pregunta de investigación**: "¿Cómo evolucionó el vocabulario del rock nacional argentino entre los 80 y la actualidad?"

---

#### Opción B: Corpus Literario 📚

**Posibilidades**:
- **Cuentos cortos** de un autor (Borges, Cortázar, Silvina Ocampo)
- **Poemas** de diferentes autores argentinos o latinoamericanos
- **Microrrelatos** contemporáneos
- **Crónicas** de un autor específico (Caparrós, Villoro, Monterroso)

**Requerimientos**: Mínimo 15-20 textos completos

**Fuentes sugeridas**: Biblioteca Digital Argentina, Cervantes Virtual, Project Gutenberg (español), Ciudad Seva

**Ejemplo de pregunta de investigación**: "¿Qué diferencias estilísticas se pueden identificar entre los cuentos de Borges y Cortázar?"

---

#### Opción C: Corpus Periodístico 📰

**Posibilidades**:
- **Artículos de opinión** sobre un tema (deporte, política, cultura, tecnología)
- **Crónicas** de un medio específico (Página/12, La Nación, Clarín)
- **Reseñas** de un tipo específico (libros, películas, restaurantes, música)
- **Editoriales** sobre acontecimientos importantes

**Requerimientos**: Mínimo 20-25 artículos

**Fuentes sugeridas**: Sitios web de diarios argentinos, revistas culturales, blogs periodísticos

**Ejemplo de pregunta de investigación**: "¿Cómo difiere el lenguaje usado en reseñas positivas vs negativas de restaurantes?"

---

#### Opción D: Corpus Digital 💻

**Posibilidades**:
- **Publicaciones de blog** sobre un tema específico (viajes, cocina, tecnología, deportes)
- **Reseñas de productos** de una categoría (libros en Goodreads, productos en MercadoLibre)
- **Posts de LinkedIn** de profesionales de un sector
- **Transcripciones** de podcasts argentinos

**Requerimientos**: Mínimo 25-30 textos

**Fuentes sugeridas**: Plataformas de reseñas, blogs públicos, redes sociales profesionales

**Ejemplo de pregunta de investigación**: "¿Qué características del lenguaje distinguen las reseñas de productos exitosas de las menos útiles?"

### Consideraciones para la Construcción del Corpus

#### Aspectos Éticos y Legales ⚖️

**MUY IMPORTANTE**: Respetá siempre estos principios:

1. **Usar solo fuentes públicas y gratuitas**
   - No usar contenido de pago o con restricciones
   - Verificar que el contenido sea de acceso libre

2. **Respetar derechos de autor**
   - Citar todas las fuentes correctamente
   - Para análisis académico, generalmente es "fair use"
   - No redistribuir los textos completos públicamente

3. **No incluir información privada o sensible**
   - Evitar datos personales de individuos privados
   - No usar conversaciones privadas o información confidencial

#### Aspectos Técnicos 🛠️

**Formato estándar para organizar tu corpus**:

```
mi_corpus/
├── raw_texts/
│   ├── 01_titulo_descriptivo.txt
│   ├── 02_titulo_descriptivo.txt
│   ├── ...
│   └── 25_titulo_descriptivo.txt
└── metadata.csv
```

**Especificaciones técnicas**:
- **Un archivo .txt por documento**
- **Naming consistente**: `01_titulo.txt`, `02_titulo.txt`, etc.
- **Codificación UTF-8** para manejar acentos y caracteres especiales
- **Solo texto plano**, sin formato HTML o markdown

#### Metadatos Obligatorios 📊

Creá un archivo `metadata.csv` con esta información mínima:

| archivo | titulo | autor_fuente | fecha | categoria | palabras_aprox |
|---------|--------|--------------|-------|-----------|----------------|
| 01_titulo.txt | "Título completo" | "Autor/Fuente" | "2023-09-15" | "rock" | 150 |
| 02_titulo.txt | "Otro título" | "Otro autor" | "2023-08-20" | "rock" | 200 |

**Columnas obligatorias**:
- `archivo`: Nombre del archivo de texto
- `titulo`: Título del documento
- `autor_fuente`: Autor o fuente del texto
- `fecha`: Fecha de publicación (aproximada si no sabés exacta)
- `categoria`: Categoría o subtipo (si aplicable)
- `palabras_aprox`: Número aproximado de palabras

#### Aspectos Metodológicos 🔬

**Preguntas que tenés que poder responder**:

1. **¿Por qué elegiste estos textos específicos?**
   - Criterios de selección claros
   - Justificación de inclusión/exclusión

2. **¿Los textos representan bien el dominio elegido?**
   - Cobertura adecuada del tema/género/época
   - Balance entre diferentes subtipos si aplicable

3. **¿Qué variabilidad esperás encontrar?**
   - Diferencias y similitudes anticipadas
   - Hipótesis sobre patrones que podrías descubrir

### Fuentes Recomendadas por Tipo de Corpus

#### Para Corpus Musical 🎵
- **Genius.com**: Base de datos masiva de letras con información detallada
- **LyricFind**: Letras verificadas y oficiales
- **Rock.com.ar**: Específico para rock nacional argentino
- **Sitios oficiales** de artistas o discográficas
- **LastFM**: Letras y metadatos de canciones

#### Para Corpus Literario 📚
- **Cervantes Virtual**: Biblioteca digital en español
- **Biblioteca Digital Argentina**: Textos de autores argentinos
- **Project Gutenberg** (sección español): Clásicos de dominio público
- **Ciudad Seva**: Cuentos y textos cortos
- **Wikisource**: Textos libres colaborativos

#### Para Corpus Periodístico 📰
- **Página/12**: Archivo web de artículos
- **La Nación**: Sección de opinión y cultura
- **Clarín**: Archivo de notas y columnas
- **Perfil**: Artículos de análisis político y cultural
- **Infobae**: Variedad de temas y secciones

#### Para Corpus Digital 💻
- **Goodreads**: Reseñas de libros en español
- **TripAdvisor**: Reseñas de lugares y servicios
- **Blogs especializados**: En el tema que elijas
- **LinkedIn**: Posts profesionales públicos
- **Reddit** (subreddits argentinos): Discusiones temáticas

### Herramientas Técnicas para Recolección

#### Recolección Manual (Recomendado para principiantes)
- **Copy-paste** desde sitios web
- **Guardar como texto** desde navegadores
- **Organizar** manualmente en carpetas

#### Recolección Semi-automatizada (Para más avanzados)
```python
import requests
from bs4 import BeautifulSoup
# Código para extraer texto de páginas web
# Solo si tenés experiencia con web scraping
```

#### APIs Disponibles (Opcionales)
- **Genius API**: Para letras de canciones
- **NewsAPI**: Para artículos periodísticos
- **Reddit API**: Para posts de reddit

**Nota**: Si usás APIs o web scraping, asegurate de respetar los términos de servicio y límites de velocidad.

---

## Parte 2: Análisis Técnico - Estructura del Notebook

Tu notebook principal debe tener **exactamente** estas secciones, en este orden:

### Sección 1: Presentación del Corpus (15% de la nota)

```python
# Título: "Análisis de [Tu Corpus]: [Pregunta de Investigación]"

# 1.1 Descripción del corpus elegido
# - Qué tipo de textos incluye
# - Cuántos documentos
# - Período temporal abarcado
# - Fuentes utilizadas

# 1.2 Justificación de la elección
# - Por qué elegiste este corpus
# - Qué te interesa descubrir
# - Qué hipótesis tenés sobre lo que vas a encontrar

# 1.3 Proceso de recolección
# - Cómo obtuviste los textos
# - Criterios de inclusión/exclusión
# - Dificultades encontradas y cómo las resolviste

# 1.4 Estadísticas básicas
# - Número total de textos
# - Número total de palabras (aproximado)
# - Distribución de tamaños de documentos
# - Gráfico de distribución temporal (si aplicable)

# 1.5 Exploración inicial
# - Mostrar fragmentos representativos
# - Primeras observaciones cualitativas
# - Nube de palabras inicial (opcional)
```

### Sección 2: Preprocesamiento (20% de la nota)

```python
# 2.1 Carga y organización de datos
import pandas as pd
import numpy as np
import pickle
import re
import string
from collections import Counter

# - Código para cargar todos los archivos de texto
# - Integración con metadatos
# - Verificación de integridad de datos

# 2.2 Limpieza de texto
# - Aplicar técnicas vistas en clase:
#   * Conversión a minúsculas
#   * Eliminación de signos de puntuación
#   * Eliminación de números (si no son relevantes)
#   * Eliminación de caracteres especiales
# - Justificar cada decisión de limpieza

# 2.3 Tokenización y normalización
# - Separar texto en palabras
# - Decidir si aplicar stemming o lemmatización (justificar)
# - Mostrar ejemplos de antes y después

# 2.4 Manejo de stop words
import nltk
nltk.download('stopwords')
# - Decidir qué stop words usar (español estándar + específicas del dominio)
# - Mostrar impacto de eliminar stop words
# - Justificar decisiones

# 2.5 Estadísticas post-procesamiento
# - Vocabulario final (número de palabras únicas)
# - Distribución de frecuencias
# - Comparación antes/después del preprocesamiento
```

### Sección 3: Análisis con BoW/TF-IDF (25% de la nota)

```python
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
import seaborn as sns

# 3.1 Vectorización del corpus
# - Crear matriz documento-término con CountVectorizer
# - Crear matriz TF-IDF
# - Mostrar dimensiones y características de las matrices
# - Explicar qué representan los números

# 3.2 Términos más frecuentes y distintivos
# - Top 20 palabras más frecuentes (BoW)
# - Top 20 términos con mayor TF-IDF
# - Comparar ambas listas: ¿qué diferencias ves?
# - Interpretación: ¿estos términos caracterizan bien tu corpus?

# 3.3 Matriz de similitud entre documentos
# - Calcular similitud coseno entre todos los pares de documentos
# - Encontrar los 2-3 pares más similares
# - Encontrar los 2-3 pares más diferentes
# - Analizar: ¿tiene sentido lo que encontraste?

# 3.4 Visualización
# - Nube de palabras con términos más importantes
# - Gráfico de barras con términos más frecuentes
# - Heatmap de similitud entre documentos (si no son demasiados)

# 3.5 Interpretación de resultados
# - ¿Qué patrones encontrás en tu corpus?
# - ¿Los documentos similares realmente parecen similares?
# - ¿Hay agrupaciones naturales en tus datos?
# - ¿Qué limitaciones ves en este enfoque?
```

### Sección 4: Análisis con Word Embeddings (25% de la nota)

```python
import spacy
# Cargar modelo en español
nlp = spacy.load("es_core_news_md")

# 4.1 Aplicación de embeddings
# - Procesar tu corpus con spaCy
# - Obtener vectores para documentos (promedio de vectores de palabras)
# - Explicar qué son los embeddings y por qué son diferentes a BoW

# 4.2 Análisis de similitud semántica
# - Calcular similitud entre documentos usando embeddings
# - Comparar con resultados de TF-IDF
# - ¿Qué documentos son más similares según embeddings?
# - ¿Coinciden los resultados con TF-IDF?

# 4.3 Búsqueda de analogías relevantes al corpus
# - Encontrar palabras más similares a términos clave de tu dominio
# - Intentar crear 2-3 analogías que funcionen con vocabulario de tu corpus
# - Ejemplo: "rock es a guitarra como tango es a ?"
# - Interpretar: ¿las analogías tienen sentido?

# 4.4 Comparación con resultados de BoW
# - Crear tabla comparativa de documentos más similares
# - ¿Qué método da resultados más intuitivos?
# - ¿En qué casos embeddings es claramente superior?
# - ¿En qué casos BoW podría ser suficiente?

# 4.5 Visualización de embeddings (si es posible)
# - Intentar reducir dimensionalidad (PCA o t-SNE)
# - Graficar documentos en 2D
# - ¿Se ven agrupaciones naturales?
# (Esta parte es opcional si resulta muy compleja)
```

### Sección 5: Análisis Complementario (10% de la nota)

**Elegí UNA de estas tres opciones** según lo que hayan visto en clase:

#### Opción A: POS Tagging y Análisis Gramatical
```python
# - Analizar distribución de tipos de palabras (sustantivos, verbos, adjetivos)
# - ¿Hay diferencias gramaticales entre subcategorías de tu corpus?
# - Interpretación estilística de los patrones encontrados
```

#### Opción B: Análisis de Sentimientos
```python
# - Aplicar análisis de sentimientos a tus textos
# - ¿Cuáles son los más positivos/negativos?
# - ¿Hay patrones de sentimiento por categoría/autor/época?
```

#### Opción C: Extracción Básica de Entidades
```python
# - Usar spaCy para extraer entidades nombradas (si aplicable a tu corpus)
# - ¿Qué personas, lugares, organizaciones se mencionan más?
# - ¿Hay diferencias entre subcategorías de tu corpus?
```

### Sección 6: Conclusiones y Reflexiones (5% de la nota)

```python
# 6.1 Hallazgos principales sobre el corpus
# - ¿Qué descubriste sobre tu corpus que no sabías antes?
# - ¿Se confirmaron tus hipótesis iniciales?
# - ¿Qué te sorprendió más?

# 6.2 Comparación de métodos utilizados
# - ¿Qué técnica te pareció más útil para tu tipo de corpus?
# - ¿Cuándo usarías BoW/TF-IDF vs embeddings?
# - ¿Qué ventajas y desventajas encontraste en cada método?

# 6.3 Limitaciones encontradas
# - ¿Qué no pudiste capturar con las técnicas usadas?
# - ¿Qué aspectos importantes de tu corpus quedan sin analizar?
# - ¿Qué mejorarías si tuvieras más tiempo/recursos?

# 6.4 Aplicaciones potenciales del análisis
# - ¿Cómo se podría usar este análisis en un contexto real?
# - ¿Qué valor agregado proporciona?
# - ¿Qué otros análisis te gustaría hacer en el futuro?
```

---

## Parte 3: Especificaciones de Entrega

### Estructura del Repositorio GitHub

Tu repositorio debe tener **exactamente** esta estructura:

```
apellido-nombre-nlp-integrador/
├── README.md                          # Descripción del proyecto
├── corpus/
│   ├── raw_texts/                     # Textos originales
│   │   ├── 01_texto.txt
│   │   ├── 02_texto.txt
│   │   ├── ...
│   │   └── XX_texto.txt
│   ├── metadata.csv                   # Información de los textos
│   └── processed/                     # Datos procesados (opcional)
│       └── corpus_limpio.pkl
├── notebooks/
│   └── analisis_integrador.ipynb     # Notebook principal
├── visualizations/                   # Gráficos generados
│   ├── nube_palabras.png
│   ├── frecuencias.png
│   └── similitud_docs.png
└── requirements.txt                   # Dependencias necesarias
```

### README.md Obligatorio

Tu README debe incluir **exactamente** esta información:

```markdown
# Análisis de NLP: [Título Descriptivo de Tu Corpus]

## Descripción
Breve descripción (2-3 párrafos) del corpus elegido, objetivos del análisis,
y principales hallazgos encontrados.

## Información del Corpus
- **Tipo**: [Música/Literatura/Periodismo/Digital]
- **Tamaño**: X textos, aproximadamente Y palabras totales
- **Fuentes principales**: [Listar las fuentes más importantes]
- **Período temporal**: [Si aplicable]
- **Criterios de selección**: [Brevemente explicar por qué elegiste estos textos]

## Técnicas de NLP Aplicadas
- Preprocesamiento de texto (limpieza, tokenización, stop words)
- Análisis con Bag of Words (BoW) y TF-IDF
- Análisis con Word Embeddings (spaCy)
- [Técnica complementaria aplicada: POS/Sentiment/NER]

## Principales Hallazgos
- [Hallazgo más importante #1]
- [Hallazgo más importante #2]
- [Hallazgo más importante #3]
- [Comparación entre métodos: cuál funcionó mejor y por qué]

## Tecnologías Utilizadas
- Python 3.x
- pandas, numpy
- scikit-learn
- spaCy
- matplotlib, seaborn
- [Otras librerías específicas que hayas usado]

## Instrucciones de Reproducción
1. Clonar este repositorio
2. Instalar dependencias: `pip install -r requirements.txt`
3. Ejecutar el notebook: `jupyter notebook notebooks/analisis_integrador.ipynb`

## Limitaciones y Trabajo Futuro
- [Principal limitación encontrada]
- [Qué análisis te gustaría hacer en el futuro]

## Autor
[Tu nombre] - [Tu email o GitHub]
Trabajo Integrador - NLP - [Fecha]
```

### Archivo requirements.txt

Incluí todas las librerías que usaste:

```
pandas>=1.3.0
numpy>=1.21.0
scikit-learn>=1.0.0
spacy>=3.4.0
matplotlib>=3.5.0
seaborn>=0.11.0
nltk>=3.7.0
wordcloud>=1.8.0
jupyter>=1.0.0
```

---

## Criterios de Evaluación

### Construcción del Corpus (25%)

**Excelente (23-25 puntos)**:
- Corpus coherente temáticamente y bien justificado
- Tamaño apropiado y textos de buena calidad
- Metadatos completos y organizados
- Consideraciones éticas respetadas
- Criterios de selección claros y bien argumentados

**Bueno (18-22 puntos)**:
- Corpus adecuado con justificación razonable
- Tamaño suficiente, calidad aceptable
- Metadatos mayormente completos
- Aspectos éticos considerados

**Suficiente (13-17 puntos)**:
- Corpus básico pero funcional
- Tamaño mínimo, calidad variable
- Metadatos incompletos
- Justificación superficial

**Insuficiente (0-12 puntos)**:
- Corpus inadecuado o muy pequeño
- Sin metadatos o muy incompletos
- Sin justificación clara
- Problemas éticos no considerados

### Aplicación Técnica (50%)

**Excelente (45-50 puntos)**:
- Preprocesamiento apropiado y bien justificado
- BoW/TF-IDF implementado correctamente con interpretación profunda
- Word embeddings aplicados apropiadamente
- Comparaciones metodológicas claras y fundamentadas
- Código limpio, comentado y reproducible

**Bueno (35-44 puntos)**:
- Técnicas aplicadas correctamente
- Interpretación adecuada de resultados
- Algunas comparaciones entre métodos
- Código funcional y documentado

**Suficiente (25-34 puntos)**:
- Implementación básica de técnicas
- Interpretación superficial
- Código funciona pero con pocos comentarios

**Insuficiente (0-24 puntos)**:
- Implementación incorrecta o incompleta
- Sin interpretación de resultados
- Código no funcional o no reproducible

### Análisis e Interpretación (15%)

**Excelente (14-15 puntos)**:
- Insights originales y bien fundamentados
- Conexión clara entre resultados y contexto del corpus
- Reflexión crítica sobre métodos y limitaciones
- Conclusiones bien argumentadas

**Bueno (11-13 puntos)**:
- Análisis adecuado con algunas conexiones interesantes
- Interpretación contextualizada
- Algunas reflexiones sobre limitaciones

**Suficiente (8-10 puntos)**:
- Análisis básico y descriptivo
- Poca conexión con contexto
- Conclusiones superficiales

**Insuficiente (0-7 puntos)**:
- Sin análisis real de resultados
- Sin interpretación contextual
- Sin conclusiones claras

### Presentación y Organización (10%)

**Excelente (9-10 puntos)**:
- Repositorio GitHub perfectamente organizado
- README completo e informativo
- Notebook claro, bien estructurado y documentado
- Visualizaciones efectivas y bien diseñadas

**Bueno (7-8 puntos)**:
- Organización adecuada
- README informativo
- Notebook claro
- Buenas visualizaciones

**Suficiente (5-6 puntos)**:
- Organización básica
- README incompleto
- Notebook funcional pero poco claro

**Insuficiente (0-4 puntos)**:
- Desorganizado o incompleto
- Sin README o muy pobre
- Notebook confuso o no funcional

---

## Cronograma Sugerido

Para completar exitosamente este trabajo en el tiempo disponible, seguí este cronograma:

### Días 1-2: Construcción del Corpus (Fin de semana)
**Objetivos**: Tener corpus completo y organizado

**Tareas**:
- [ ] Decidir tema y tipo de corpus
- [ ] Identificar fuentes específicas
- [ ] Recolectar 20-30 textos
- [ ] Organizar archivos según estructura requerida
- [ ] Crear archivo metadata.csv completo
- [ ] Subir corpus inicial a GitHub
- [ ] Verificar que todo funciona correctamente

**Tiempo estimado**: 4-5 horas total

### Días 3-4: Preprocesamiento y BoW (Lunes-Martes)
**Objetivos**: Tener análisis BoW/TF-IDF completo

**Tareas**:
- [ ] Crear notebook con estructura base
- [ ] Implementar carga y limpieza de datos
- [ ] Aplicar preprocesamiento completo
- [ ] Implementar análisis BoW y TF-IDF
- [ ] Crear visualizaciones básicas
- [ ] Interpretar primeros resultados

**Tiempo estimado**: 3-4 horas total

### Día 5: Embeddings y Análisis Complementario (Miércoles)
**Objetivos**: Completar análisis técnico

**Tareas**:
- [ ] Implementar análisis con embeddings
- [ ] Comparar resultados con BoW/TF-IDF
- [ ] Aplicar técnica complementaria elegida
- [ ] Generar visualizaciones finales
- [ ] Documentar código con comentarios

**Tiempo estimado**: 2-3 horas total

### Día 6-7: Documentación y Entrega Final (Miércoles-Jueves)
**Objetivos**: Finalizar documentación y entregar

**Tareas**:
- [ ] Escribir sección de conclusiones
- [ ] Completar README.md
- [ ] Crear requirements.txt
- [ ] Revisar notebook completo (ejecutar de principio a fin)
- [ ] Verificar que repositorio esté bien organizado
- [ ] Hacer commit final y verificar entrega

**Tiempo estimado**: 1-2 horas total

### Tiempo Total Estimado: 10-14 horas

**Distribución sugerida**:
- Fin de semana: 5 horas (corpus)
- Lunes-Martes: 1.5-2 horas por día (análisis BoW)
- Miércoles: 2-3 horas (embeddings)
- Jueves: 1 hora final (documentación y entrega)

---

## Recursos de Apoyo

### Tutoriales de GitHub (Obligatorio revisar)

Si no tenés experiencia con GitHub, **es fundamental** que revises estos tutoriales:

1. **[Crear cuenta en GitHub](https://github.com/join)**
2. **[Crear un repositorio](https://docs.github.com/es/get-started/quickstart/create-a-repo)**
3. **[Subir archivos a GitHub](https://docs.github.com/es/repositories/working-with-files/managing-files/adding-a-file-to-a-repository)**
4. **[Escribir un buen README](https://docs.github.com/es/repositories/managing-your-repositorys-settings-and-features/customizing-your-repository/about-readmes)**

### Herramientas Recomendadas

#### Para trabajar con GitHub:
- **GitHub Desktop**: Interfaz gráfica fácil de usar
- **VS Code**: Editor que integra bien con GitHub
- **Navegador web**: Para subir archivos directamente

#### Para desarrollo:
- **Google Colab**: Para desarrollar el notebook (gratis)
- **Jupyter Lab**: Si preferís trabajar localmente
- **Anaconda**: Para gestionar librerías Python

### Librerías Python Esenciales

Asegurate de tener instaladas estas librerías:

```python
# Para instalar todas juntas:
!pip install pandas numpy scikit-learn spacy matplotlib seaborn nltk wordcloud

# Para descargar modelos de spaCy:
!python -m spacy download es_core_news_md

# Para descargar recursos de NLTK:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
```

### Templates y Códigos de Ejemplo

#### Template básico para cargar corpus:
```python
import os
import pandas as pd

def cargar_corpus(directorio_textos, archivo_metadata):
    """Cargar corpus desde directorio de textos y archivo de metadatos"""
    # Cargar metadatos
    metadata = pd.read_csv(archivo_metadata)
    
    # Cargar textos
    textos = {}
    for _, row in metadata.iterrows():
        archivo_path = os.path.join(directorio_textos, row['archivo'])
        with open(archivo_path, 'r', encoding='utf-8') as f:
            textos[row['archivo']] = f.read()
    
    return textos, metadata
```

#### Template para preprocesamiento:
```python
import re
import string
from nltk.corpus import stopwords

def limpiar_texto(texto):
    """Aplicar preprocesamiento básico a texto"""
    # Convertir a minúsculas
    texto = texto.lower()
    
    # Eliminar signos de puntuación
    texto = re.sub(f'[{re.escape(string.punctuation)}]', ' ', texto)
    
    # Eliminar números
    texto = re.sub(r'\d+', ' ', texto)
    
    # Eliminar espacios extra
    texto = re.sub(r'\s+', ' ', texto).strip()
    
    return texto
```

**Características de trabajos exitosos anteriores**:
- Corpus bien justificado y coherente
- Análisis técnico correcto con interpretación contextual
- Comparaciones claras entre métodos
- Documentación completa y profesional
- Conclusiones fundamentadas y reflexivas

---

## Preguntas Frecuentes (FAQ)

### Sobre la Construcción del Corpus

**P: ¿Puedo usar textos en inglés?**  
R: No, el corpus debe ser en español. El modelo de spaCy y las stop words están optimizados para español.

**P: ¿Qué hago si no encuentro suficientes textos de un tema?**  
R: Ampliá los criterios de búsqueda o cambiá de tema. Es mejor un corpus coherente de 20 textos que uno inconsistente de 30.

**P: ¿Puedo incluir textos de diferentes autores en mi corpus?**  
R: Sí, siempre que tengan coherencia temática. Por ejemplo: "Cuentos de terror argentinos contemporáneos" de diferentes autores.

**P: ¿Cómo manejo textos muy largos (novelas completas)?**  
R: Usá fragmentos representativos (capítulos) en lugar de novelas completas. Documentá tu criterio de selección.

### Sobre el Análisis Técnico

**P: ¿Qué hago si mi corpus es muy pequeño y no da resultados interesantes?**  
R: Analizá las limitaciones en la sección de conclusiones. Un análisis honesto de un corpus pequeño es mejor que resultados artificiales.

**P: ¿Tengo que usar exactamente las mismas técnicas que vimos en clase?**  
R: Sí, usá las técnicas vistas. Podés explorar variaciones (diferentes parámetros, visualizaciones adicionales) pero la base debe ser la misma.

**P: ¿Qué hago si embeddings no da resultados muy diferentes a BoW?**  
R: Documentá esto en tus conclusiones. Es un resultado válido que puede deberse al tipo de corpus o tamaño. Reflexioná sobre por qué ocurre.

**P: ¿Puedo usar modelos pre-entrenados diferentes al de spaCy?**  
R: Preferiblemente usá spaCy como vimos en clase. Si querés experimentar con otros, hacelo como análisis adicional, no reemplazando spaCy.

### Sobre GitHub y la Entrega

**P: ¿Qué hago si nunca usé GitHub?**  
R: Revisá los tutoriales recomendados. También podés usar GitHub Desktop o la interfaz web. Empezá a practicar YA, no esperes al último día.

**P: ¿Puedo hacer el repositorio privado?**  
R: No, debe ser público para que puedan evaluarlo. Podés hacerlo privado después de la evaluación si querés.

**P: ¿Qué pasa si mi notebook es muy pesado para GitHub?**  
R: Subí una versión "limpia" sin outputs muy pesados. Asegurate de que el código sea reproducible.

**P: ¿Tengo que incluir todos los archivos de texto en el repositorio?**  
R: Sí, incluí todos los textos que usaste. Si hay problemas de derechos de autor, incluí solo una muestra y documentá dónde encontrar el resto.

### Sobre Evaluación y Tiempo

**P: ¿Qué pasa si no termino todo a tiempo?**  
R: Entregá lo que tengas completo. Un trabajo parcial bien hecho es mejor que uno completo pero mal ejecutado.

**P: ¿Puedo pedir extensión del plazo?**  
R: Solo en casos excepcionales y justificados. Consultá con anticipación, no el día de la entrega.

**P: ¿Cómo sé si mi trabajo está en el nivel esperado?**  
R: Revisá los criterios de evaluación. Si podés responder satisfactoriamente las preguntas de cada sección, estás en buen camino.

**P: ¿Puedo consultar dudas durante el desarrollo?**  
R: Sí, usá los canales de consulta disponibles. Es mejor consultar dudas específicas que estar perdido.

---

## Mensaje Final

Este trabajo integrador es tu oportunidad de demostrar todo lo que aprendiste sobre procesamiento de lenguaje natural. **No es solo un ejercicio académico**: es una pieza de portafolio que podés mostrar en entrevistas laborales y que refleja tus habilidades reales en NLP.

**Consejos para el éxito**:

1. **Empezá temprano**: No dejes todo para último momento
2. **Elegí un corpus que te interese**: Vas a pasar muchas horas analizándolo
3. **Documentá todo**: Un código bien documentado vale más que código complejo sin explicación
4. **Sé honesto**: Si algo no funciona como esperabas, documentalo y reflexioná sobre por qué
5. **Pedí ayuda**: No te quedes trabado, consultá cuando tengas dudas

**Recordá**: El objetivo no es hacer el trabajo más complejo, sino demostrar que entendés los conceptos y podés aplicarlos apropiadamente. Un análisis simple pero bien ejecutado es mucho mejor que uno complejo pero mal fundamentado.

¡Éxitos con tu trabajo integrador!

---

*Última actualización: 08-09-2025  
Curso: Procesamiento de Lenguaje Natural    
Profesor: Matías Barreto  
Institución: IFTS24*