# Trabajo Integrador Individual - NLP
## "De Texto Crudo a Insights: Pipeline Completo de An√°lisis de NLP"

**Fecha de entrega**: Jueves 25 de septiembre  
**Modalidad**: Individual  
**Formato**: Repositorio GitHub con notebook documentado

---

## Objetivos del Trabajo

Este trabajo integrador tiene como objetivo que demuestres tu capacidad de:

1. **Construir un corpus textual** siguiendo criterios metodol√≥gicos apropiados
2. **Aplicar todo el pipeline de NLP** aprendida durante el curso
3. **Comparar diferentes t√©cnicas** de representaci√≥n y an√°lisis textual
4. **Interpretar resultados** en el contexto del dominio elegido
5. **Documentar y presentar** tu trabajo de manera profesional

Al completar este trabajo, tendr√°s una demostraci√≥n tangible de tus habilidades en procesamiento de lenguaje natural que pod√©s incluir en tu portafolio profesional.

---

## ¬øPor qu√© Cuadernos Interactivos para IA y Ciencias de Datos?

### Diferencias Metodol√≥gicas Fundamentales

El trabajo en inteligencia artificial y ciencias de datos requiere un enfoque metodol√≥gico diferente al desarrollo de software tradicional. Mientras que la programaci√≥n tradicional sigue un flujo lineal y predecible, el trabajo con datos es inherentemente iterativo y exploratorio.

**Programaci√≥n Tradicional:**
```
Requisitos ‚Üí Dise√±o ‚Üí Implementaci√≥n ‚Üí Testing ‚Üí Producto
```

**Investigaci√≥n en IA/Datos:**
```
Hip√≥tesis ‚ü∑ Experimento ‚ü∑ An√°lisis ‚ü∑ Refinamiento ‚ü∑ Nueva Hip√≥tesis
```

### Ventajas de los Cuadernos Interactivos

1. **Narrativa Cient√≠fica:** Permiten documentar el proceso de pensamiento, no solo el resultado final
2. **Iteraci√≥n R√°pida:** Ejecutar y modificar secciones espec√≠ficas sin reejecutar todo el programa
3. **Visualizaci√≥n Inmediata:** Ver resultados inmediatamente despu√©s de cada paso
4. **Comunicaci√≥n Efectiva:** Stakeholders no t√©cnicos pueden seguir el proceso y entender decisiones
5. **Reproducibilidad:** Otros investigadores pueden replicar exactamente los experimentos

### Casos de Uso en la Industria

- **Google Research:** Publica papers con cuadernos que permiten reproducir experimentos
- **Netflix:** Usa cuadernos para an√°lisis de datos de usuarios y recomendaciones
- **Uber:** An√°lisis de patrones de viajes y optimizaci√≥n de rutas
- **Kaggle:** Plataforma completa basada en cuadernos para competencias de machine learning

### Cu√°ndo Usar Cada Herramienta

**Usar Cuadernos para:**
- An√°lisis exploratorio de datos
- Experimentaci√≥n y prototipado
- Comunicaci√≥n de resultados
- Educaci√≥n y documentaci√≥n

**Usar Scripts para:**
- Sistemas en producci√≥n
- Automatizaci√≥n de tareas repetitivas
- APIs y servicios web
- Pipelines de datos automatizados

En este trabajo pr√°ctico, usaremos cuadernos porque estamos en la fase de investigaci√≥n y experimentaci√≥n, donde necesitamos entender los datos, probar diferentes enfoques y documentar nuestros hallazgos.

---

## Parte 1: Construcci√≥n del Corpus

### ¬øQu√© es un Corpus?

Un **corpus** es una colecci√≥n estructurada y organizada de textos que representa un dominio espec√≠fico del lenguaje. En procesamiento de lenguaje natural, necesitamos datos textuales bien organizados para poder analizarlos de manera sistem√°tica y obtener insights significativos.

**Pens√° en un corpus como una "muestra representativa"** del tipo de lenguaje que quer√©s estudiar, similar a como un cient√≠fico toma muestras representativas para estudiar un fen√≥meno.

### Caracter√≠sticas de un Buen Corpus

Para que tu an√°lisis sea exitoso, tu corpus debe cumplir con estas caracter√≠sticas:

#### 1. Coherencia Tem√°tica
- Los textos deben estar relacionados por **tema**, **g√©nero**, **autor**, **√©poca** o **estilo**
- Debe haber un "hilo conductor" que justifique por qu√© esos textos van juntos
- **Ejemplo**: Todas las canciones de rock nacional argentino, o todos los cuentos de terror contempor√°neo

#### 2. Tama√±o Suficiente
- **M√≠nimo**: 15-20 documentos para an√°lisis significativo
- **√ìptimo**: 20-30 documentos
- Cada documento debe tener contenido sustancial (no tweets de 2 l√≠neas)

#### 3. Variabilidad Interna
- Aunque coherente, debe haber **diferencias** entre los textos
- Esta variabilidad permite encontrar patrones interesantes
- **Ejemplo**: Canciones del mismo g√©nero pero de diferentes d√©cadas

#### 4. Calidad Textual
- Textos **completos**, no fragmentos muy cortos
- **Legibles** y bien formateados
- **Sin errores** de codificaci√≥n o caracteres extra√±os

### Opciones de Corpus que Pod√©s Elegir

Eleg√≠ **UNA** de estas opciones o propon√© una similar:

#### Opci√≥n A: Corpus Musical üéµ

**Posibilidades**:
- Letras de canciones de un **g√©nero espec√≠fico** (rock nacional, tango, trap argentino, folklore)
- Canciones de una **√©poca determinada** (a√±os 80, d√©cada del 2000, m√∫sica actual)
- Obra de **artistas relacionados** (Charly Garc√≠a, Luis Alberto Spinetta, Fito P√°ez)
- Canciones sobre un **tema espec√≠fico** (amor, protesta social, Buenos Aires)

**Requerimientos**: M√≠nimo 20-25 canciones completas

**Fuentes sugeridas**: Genius.com, LyricFind, sitios oficiales de artistas, Rock.com.ar

**Ejemplo de pregunta de investigaci√≥n**: "¬øC√≥mo evolucion√≥ el vocabulario del rock nacional argentino entre los 80 y la actualidad?"

---

#### Opci√≥n B: Corpus Literario üìö

**Posibilidades**:
- **Cuentos cortos** de un autor (Borges, Cort√°zar, Silvina Ocampo)
- **Poemas** de diferentes autores argentinos o latinoamericanos
- **Microrrelatos** contempor√°neos
- **Cr√≥nicas** de un autor espec√≠fico (Caparr√≥s, Villoro, Monterroso)

**Requerimientos**: M√≠nimo 15-20 textos completos

**Fuentes sugeridas**: Biblioteca Digital Argentina, Cervantes Virtual, Project Gutenberg (espa√±ol), Ciudad Seva

**Ejemplo de pregunta de investigaci√≥n**: "¬øQu√© diferencias estil√≠sticas se pueden identificar entre los cuentos de Borges y Cort√°zar?"

---

#### Opci√≥n C: Corpus Period√≠stico üì∞

**Posibilidades**:
- **Art√≠culos de opini√≥n** sobre un tema (deporte, pol√≠tica, cultura, tecnolog√≠a)
- **Cr√≥nicas** de un medio espec√≠fico (P√°gina/12, La Naci√≥n, Clar√≠n)
- **Rese√±as** de un tipo espec√≠fico (libros, pel√≠culas, restaurantes, m√∫sica)
- **Editoriales** sobre acontecimientos importantes

**Requerimientos**: M√≠nimo 20-25 art√≠culos

**Fuentes sugeridas**: Sitios web de diarios argentinos, revistas culturales, blogs period√≠sticos

**Ejemplo de pregunta de investigaci√≥n**: "¬øC√≥mo difiere el lenguaje usado en rese√±as positivas vs negativas de restaurantes?"

---

#### Opci√≥n D: Corpus Digital üíª

**Posibilidades**:
- **Publicaciones de blog** sobre un tema espec√≠fico (viajes, cocina, tecnolog√≠a, deportes)
- **Rese√±as de productos** de una categor√≠a (libros en Goodreads, productos en MercadoLibre)
- **Posts de LinkedIn** de profesionales de un sector
- **Transcripciones** de podcasts argentinos

**Requerimientos**: M√≠nimo 25-30 textos

**Fuentes sugeridas**: Plataformas de rese√±as, blogs p√∫blicos, redes sociales profesionales

**Ejemplo de pregunta de investigaci√≥n**: "¬øQu√© caracter√≠sticas del lenguaje distinguen las rese√±as de productos exitosas de las menos √∫tiles?"

### Consideraciones para la Construcci√≥n del Corpus

#### Aspectos √âticos y Legales ‚öñÔ∏è

**MUY IMPORTANTE**: Respet√° siempre estos principios:

1. **Usar solo fuentes p√∫blicas y gratuitas**
   - No usar contenido de pago o con restricciones
   - Verificar que el contenido sea de acceso libre

2. **Respetar derechos de autor**
   - Citar todas las fuentes correctamente
   - Para an√°lisis acad√©mico, generalmente es "fair use"
   - No redistribuir los textos completos p√∫blicamente

3. **No incluir informaci√≥n privada o sensible**
   - Evitar datos personales de individuos privados
   - No usar conversaciones privadas o informaci√≥n confidencial

#### Aspectos T√©cnicos üõ†Ô∏è

**Formato est√°ndar para organizar tu corpus**:

```
mi_corpus/
‚îú‚îÄ‚îÄ raw_texts/
‚îÇ   ‚îú‚îÄ‚îÄ 01_titulo_descriptivo.txt
‚îÇ   ‚îú‚îÄ‚îÄ 02_titulo_descriptivo.txt
‚îÇ   ‚îú‚îÄ‚îÄ ...
‚îÇ   ‚îî‚îÄ‚îÄ 25_titulo_descriptivo.txt
‚îî‚îÄ‚îÄ metadata.csv
```

**Especificaciones t√©cnicas**:
- **Un archivo .txt por documento**
- **Naming consistente**: `01_titulo.txt`, `02_titulo.txt`, etc.
- **Codificaci√≥n UTF-8** para manejar acentos y caracteres especiales
- **Solo texto plano**, sin formato HTML o markdown

#### Metadatos Obligatorios üìä

Cre√° un archivo `metadata.csv` con esta informaci√≥n m√≠nima:

| archivo | titulo | autor_fuente | fecha | categoria | palabras_aprox |
|---------|--------|--------------|-------|-----------|----------------|
| 01_titulo.txt | "T√≠tulo completo" | "Autor/Fuente" | "2023-09-15" | "rock" | 150 |
| 02_titulo.txt | "Otro t√≠tulo" | "Otro autor" | "2023-08-20" | "rock" | 200 |

**Columnas obligatorias**:
- `archivo`: Nombre del archivo de texto
- `titulo`: T√≠tulo del documento
- `autor_fuente`: Autor o fuente del texto
- `fecha`: Fecha de publicaci√≥n (aproximada si no sab√©s exacta)
- `categoria`: Categor√≠a o subtipo (si aplicable)
- `palabras_aprox`: N√∫mero aproximado de palabras

#### Aspectos Metodol√≥gicos üî¨

**Preguntas que ten√©s que poder responder**:

1. **¬øPor qu√© elegiste estos textos espec√≠ficos?**
   - Criterios de selecci√≥n claros
   - Justificaci√≥n de inclusi√≥n/exclusi√≥n

2. **¬øLos textos representan bien el dominio elegido?**
   - Cobertura adecuada del tema/g√©nero/√©poca
   - Balance entre diferentes subtipos si aplicable

3. **¬øQu√© variabilidad esper√°s encontrar?**
   - Diferencias y similitudes anticipadas
   - Hip√≥tesis sobre patrones que podr√≠as descubrir

### Fuentes Recomendadas por Tipo de Corpus

#### Para Corpus Musical üéµ
- **Genius.com**: Base de datos masiva de letras con informaci√≥n detallada
- **LyricFind**: Letras verificadas y oficiales
- **Rock.com.ar**: Espec√≠fico para rock nacional argentino
- **Sitios oficiales** de artistas o discogr√°ficas
- **LastFM**: Letras y metadatos de canciones

#### Para Corpus Literario üìö
- **Cervantes Virtual**: Biblioteca digital en espa√±ol
- **Biblioteca Digital Argentina**: Textos de autores argentinos
- **Project Gutenberg** (secci√≥n espa√±ol): Cl√°sicos de dominio p√∫blico
- **Ciudad Seva**: Cuentos y textos cortos
- **Wikisource**: Textos libres colaborativos

#### Para Corpus Period√≠stico üì∞
- **P√°gina/12**: Archivo web de art√≠culos
- **La Naci√≥n**: Secci√≥n de opini√≥n y cultura
- **Clar√≠n**: Archivo de notas y columnas
- **Perfil**: Art√≠culos de an√°lisis pol√≠tico y cultural
- **Infobae**: Variedad de temas y secciones

#### Para Corpus Digital üíª
- **Goodreads**: Rese√±as de libros en espa√±ol
- **TripAdvisor**: Rese√±as de lugares y servicios
- **Blogs especializados**: En el tema que elijas
- **LinkedIn**: Posts profesionales p√∫blicos
- **Reddit** (subreddits argentinos): Discusiones tem√°ticas

### Herramientas T√©cnicas para Recolecci√≥n

#### Recolecci√≥n Manual (Recomendado para principiantes)
- **Copy-paste** desde sitios web
- **Guardar como texto** desde navegadores
- **Organizar** manualmente en carpetas

#### Recolecci√≥n Semi-automatizada (Para m√°s avanzados)
```python
import requests
from bs4 import BeautifulSoup
# C√≥digo para extraer texto de p√°ginas web
# Solo si ten√©s experiencia con web scraping
```

#### APIs Disponibles (Opcionales)
- **Genius API**: Para letras de canciones
- **NewsAPI**: Para art√≠culos period√≠sticos
- **Reddit API**: Para posts de reddit

**Nota**: Si us√°s APIs o web scraping, asegurate de respetar los t√©rminos de servicio y l√≠mites de velocidad.

---

## Parte 2: An√°lisis T√©cnico - Estructura del Notebook

Tu notebook principal debe tener **exactamente** estas secciones, en este orden:

### Secci√≥n 1: Presentaci√≥n del Corpus (15% de la nota)

```python
# T√≠tulo: "An√°lisis de [Tu Corpus]: [Pregunta de Investigaci√≥n]"

# 1.1 Descripci√≥n del corpus elegido
# - Qu√© tipo de textos incluye
# - Cu√°ntos documentos
# - Per√≠odo temporal abarcado
# - Fuentes utilizadas

# 1.2 Justificaci√≥n de la elecci√≥n
# - Por qu√© elegiste este corpus
# - Qu√© te interesa descubrir
# - Qu√© hip√≥tesis ten√©s sobre lo que vas a encontrar

# 1.3 Proceso de recolecci√≥n
# - C√≥mo obtuviste los textos
# - Criterios de inclusi√≥n/exclusi√≥n
# - Dificultades encontradas y c√≥mo las resolviste

# 1.4 Estad√≠sticas b√°sicas
# - N√∫mero total de textos
# - N√∫mero total de palabras (aproximado)
# - Distribuci√≥n de tama√±os de documentos
# - Gr√°fico de distribuci√≥n temporal (si aplicable)

# 1.5 Exploraci√≥n inicial
# - Mostrar fragmentos representativos
# - Primeras observaciones cualitativas
# - Nube de palabras inicial (opcional)
```

### Secci√≥n 2: Preprocesamiento (20% de la nota)

```python
# 2.1 Carga y organizaci√≥n de datos
import pandas as pd
import numpy as np
import pickle
import re
import string
from collections import Counter

# - C√≥digo para cargar todos los archivos de texto
# - Integraci√≥n con metadatos
# - Verificaci√≥n de integridad de datos

# 2.2 Limpieza de texto
# - Aplicar t√©cnicas vistas en clase:
#   * Conversi√≥n a min√∫sculas
#   * Eliminaci√≥n de signos de puntuaci√≥n
#   * Eliminaci√≥n de n√∫meros (si no son relevantes)
#   * Eliminaci√≥n de caracteres especiales
# - Justificar cada decisi√≥n de limpieza

# 2.3 Tokenizaci√≥n y normalizaci√≥n
# - Separar texto en palabras
# - Decidir si aplicar stemming o lemmatizaci√≥n (justificar)
# - Mostrar ejemplos de antes y despu√©s

# 2.4 Manejo de stop words
import nltk
nltk.download('stopwords')
# - Decidir qu√© stop words usar (espa√±ol est√°ndar + espec√≠ficas del dominio)
# - Mostrar impacto de eliminar stop words
# - Justificar decisiones

# 2.5 Estad√≠sticas post-procesamiento
# - Vocabulario final (n√∫mero de palabras √∫nicas)
# - Distribuci√≥n de frecuencias
# - Comparaci√≥n antes/despu√©s del preprocesamiento
```

### Secci√≥n 3: An√°lisis con BoW/TF-IDF (25% de la nota)

```python
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
import seaborn as sns

# 3.1 Vectorizaci√≥n del corpus
# - Crear matriz documento-t√©rmino con CountVectorizer
# - Crear matriz TF-IDF
# - Mostrar dimensiones y caracter√≠sticas de las matrices
# - Explicar qu√© representan los n√∫meros

# 3.2 T√©rminos m√°s frecuentes y distintivos
# - Top 20 palabras m√°s frecuentes (BoW)
# - Top 20 t√©rminos con mayor TF-IDF
# - Comparar ambas listas: ¬øqu√© diferencias ves?
# - Interpretaci√≥n: ¬øestos t√©rminos caracterizan bien tu corpus?

# 3.3 Matriz de similitud entre documentos
# - Calcular similitud coseno entre todos los pares de documentos
# - Encontrar los 2-3 pares m√°s similares
# - Encontrar los 2-3 pares m√°s diferentes
# - Analizar: ¬øtiene sentido lo que encontraste?

# 3.4 Visualizaci√≥n
# - Nube de palabras con t√©rminos m√°s importantes
# - Gr√°fico de barras con t√©rminos m√°s frecuentes
# - Heatmap de similitud entre documentos (si no son demasiados)

# 3.5 Interpretaci√≥n de resultados
# - ¬øQu√© patrones encontr√°s en tu corpus?
# - ¬øLos documentos similares realmente parecen similares?
# - ¬øHay agrupaciones naturales en tus datos?
# - ¬øQu√© limitaciones ves en este enfoque?
```

### Secci√≥n 4: An√°lisis con Word Embeddings (25% de la nota)

```python
import spacy
# Cargar modelo en espa√±ol
nlp = spacy.load("es_core_news_md")

# 4.1 Aplicaci√≥n de embeddings
# - Procesar tu corpus con spaCy
# - Obtener vectores para documentos (promedio de vectores de palabras)
# - Explicar qu√© son los embeddings y por qu√© son diferentes a BoW

# 4.2 An√°lisis de similitud sem√°ntica
# - Calcular similitud entre documentos usando embeddings
# - Comparar con resultados de TF-IDF
# - ¬øQu√© documentos son m√°s similares seg√∫n embeddings?
# - ¬øCoinciden los resultados con TF-IDF?

# 4.3 B√∫squeda de analog√≠as relevantes al corpus
# - Encontrar palabras m√°s similares a t√©rminos clave de tu dominio
# - Intentar crear 2-3 analog√≠as que funcionen con vocabulario de tu corpus
# - Ejemplo: "rock es a guitarra como tango es a ?"
# - Interpretar: ¬ølas analog√≠as tienen sentido?

# 4.4 Comparaci√≥n con resultados de BoW
# - Crear tabla comparativa de documentos m√°s similares
# - ¬øQu√© m√©todo da resultados m√°s intuitivos?
# - ¬øEn qu√© casos embeddings es claramente superior?
# - ¬øEn qu√© casos BoW podr√≠a ser suficiente?

# 4.5 Visualizaci√≥n de embeddings (si es posible)
# - Intentar reducir dimensionalidad (PCA o t-SNE)
# - Graficar documentos en 2D
# - ¬øSe ven agrupaciones naturales?
# (Esta parte es opcional si resulta muy compleja)
```

### Secci√≥n 5: An√°lisis Complementario (10% de la nota)

**Eleg√≠ UNA de estas tres opciones** seg√∫n lo que hayan visto en clase:

#### Opci√≥n A: POS Tagging y An√°lisis Gramatical
```python
# - Analizar distribuci√≥n de tipos de palabras (sustantivos, verbos, adjetivos)
# - ¬øHay diferencias gramaticales entre subcategor√≠as de tu corpus?
# - Interpretaci√≥n estil√≠stica de los patrones encontrados
```

#### Opci√≥n B: An√°lisis de Sentimientos
```python
# - Aplicar an√°lisis de sentimientos a tus textos
# - ¬øCu√°les son los m√°s positivos/negativos?
# - ¬øHay patrones de sentimiento por categor√≠a/autor/√©poca?
```

#### Opci√≥n C: Extracci√≥n B√°sica de Entidades
```python
# - Usar spaCy para extraer entidades nombradas (si aplicable a tu corpus)
# - ¬øQu√© personas, lugares, organizaciones se mencionan m√°s?
# - ¬øHay diferencias entre subcategor√≠as de tu corpus?
```

### Secci√≥n 6: Conclusiones y Reflexiones (5% de la nota)

```python
# 6.1 Hallazgos principales sobre el corpus
# - ¬øQu√© descubriste sobre tu corpus que no sab√≠as antes?
# - ¬øSe confirmaron tus hip√≥tesis iniciales?
# - ¬øQu√© te sorprendi√≥ m√°s?

# 6.2 Comparaci√≥n de m√©todos utilizados
# - ¬øQu√© t√©cnica te pareci√≥ m√°s √∫til para tu tipo de corpus?
# - ¬øCu√°ndo usar√≠as BoW/TF-IDF vs embeddings?
# - ¬øQu√© ventajas y desventajas encontraste en cada m√©todo?

# 6.3 Limitaciones encontradas
# - ¬øQu√© no pudiste capturar con las t√©cnicas usadas?
# - ¬øQu√© aspectos importantes de tu corpus quedan sin analizar?
# - ¬øQu√© mejorar√≠as si tuvieras m√°s tiempo/recursos?

# 6.4 Aplicaciones potenciales del an√°lisis
# - ¬øC√≥mo se podr√≠a usar este an√°lisis en un contexto real?
# - ¬øQu√© valor agregado proporciona?
# - ¬øQu√© otros an√°lisis te gustar√≠a hacer en el futuro?
```

---

## Parte 3: Especificaciones de Entrega

### Estructura del Repositorio GitHub

Tu repositorio debe tener **exactamente** esta estructura:

```
apellido-nombre-nlp-integrador/
‚îú‚îÄ‚îÄ README.md                          # Descripci√≥n del proyecto
‚îú‚îÄ‚îÄ corpus/
‚îÇ   ‚îú‚îÄ‚îÄ raw_texts/                     # Textos originales
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ 01_texto.txt
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ 02_texto.txt
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ ...
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ XX_texto.txt
‚îÇ   ‚îú‚îÄ‚îÄ metadata.csv                   # Informaci√≥n de los textos
‚îÇ   ‚îî‚îÄ‚îÄ processed/                     # Datos procesados (opcional)
‚îÇ       ‚îî‚îÄ‚îÄ corpus_limpio.pkl
‚îú‚îÄ‚îÄ notebooks/
‚îÇ   ‚îî‚îÄ‚îÄ analisis_integrador.ipynb     # Notebook principal
‚îú‚îÄ‚îÄ visualizations/                   # Gr√°ficos generados
‚îÇ   ‚îú‚îÄ‚îÄ nube_palabras.png
‚îÇ   ‚îú‚îÄ‚îÄ frecuencias.png
‚îÇ   ‚îî‚îÄ‚îÄ similitud_docs.png
‚îî‚îÄ‚îÄ requirements.txt                   # Dependencias necesarias
```

### README.md Obligatorio

Tu README debe incluir **exactamente** esta informaci√≥n:

```markdown
# An√°lisis de NLP: [T√≠tulo Descriptivo de Tu Corpus]

## Descripci√≥n
Breve descripci√≥n (2-3 p√°rrafos) del corpus elegido, objetivos del an√°lisis,
y principales hallazgos encontrados.

## Informaci√≥n del Corpus
- **Tipo**: [M√∫sica/Literatura/Periodismo/Digital]
- **Tama√±o**: X textos, aproximadamente Y palabras totales
- **Fuentes principales**: [Listar las fuentes m√°s importantes]
- **Per√≠odo temporal**: [Si aplicable]
- **Criterios de selecci√≥n**: [Brevemente explicar por qu√© elegiste estos textos]

## T√©cnicas de NLP Aplicadas
- Preprocesamiento de texto (limpieza, tokenizaci√≥n, stop words)
- An√°lisis con Bag of Words (BoW) y TF-IDF
- An√°lisis con Word Embeddings (spaCy)
- [T√©cnica complementaria aplicada: POS/Sentiment/NER]

## Principales Hallazgos
- [Hallazgo m√°s importante #1]
- [Hallazgo m√°s importante #2]
- [Hallazgo m√°s importante #3]
- [Comparaci√≥n entre m√©todos: cu√°l funcion√≥ mejor y por qu√©]

## Tecnolog√≠as Utilizadas
- Python 3.x
- pandas, numpy
- scikit-learn
- spaCy
- matplotlib, seaborn
- [Otras librer√≠as espec√≠ficas que hayas usado]

## Instrucciones de Reproducci√≥n
1. Clonar este repositorio
2. Instalar dependencias: `pip install -r requirements.txt`
3. Ejecutar el notebook: `jupyter notebook notebooks/analisis_integrador.ipynb`

## Limitaciones y Trabajo Futuro
- [Principal limitaci√≥n encontrada]
- [Qu√© an√°lisis te gustar√≠a hacer en el futuro]

## Autor
[Tu nombre] - [Tu email o GitHub]
Trabajo Integrador - NLP - [Fecha]
```

### Archivo requirements.txt

Inclu√≠ todas las librer√≠as que usaste:

```
pandas>=1.3.0
numpy>=1.21.0
scikit-learn>=1.0.0
spacy>=3.4.0
matplotlib>=3.5.0
seaborn>=0.11.0
nltk>=3.7.0
wordcloud>=1.8.0
jupyter>=1.0.0
```

---

## Criterios de Evaluaci√≥n

### Construcci√≥n del Corpus (25%)

**Excelente (23-25 puntos)**:
- Corpus coherente tem√°ticamente y bien justificado
- Tama√±o apropiado y textos de buena calidad
- Metadatos completos y organizados
- Consideraciones √©ticas respetadas
- Criterios de selecci√≥n claros y bien argumentados

**Bueno (18-22 puntos)**:
- Corpus adecuado con justificaci√≥n razonable
- Tama√±o suficiente, calidad aceptable
- Metadatos mayormente completos
- Aspectos √©ticos considerados

**Suficiente (13-17 puntos)**:
- Corpus b√°sico pero funcional
- Tama√±o m√≠nimo, calidad variable
- Metadatos incompletos
- Justificaci√≥n superficial

**Insuficiente (0-12 puntos)**:
- Corpus inadecuado o muy peque√±o
- Sin metadatos o muy incompletos
- Sin justificaci√≥n clara
- Problemas √©ticos no considerados

### Aplicaci√≥n T√©cnica (50%)

**Excelente (45-50 puntos)**:
- Preprocesamiento apropiado y bien justificado
- BoW/TF-IDF implementado correctamente con interpretaci√≥n profunda
- Word embeddings aplicados apropiadamente
- Comparaciones metodol√≥gicas claras y fundamentadas
- C√≥digo limpio, comentado y reproducible

**Bueno (35-44 puntos)**:
- T√©cnicas aplicadas correctamente
- Interpretaci√≥n adecuada de resultados
- Algunas comparaciones entre m√©todos
- C√≥digo funcional y documentado

**Suficiente (25-34 puntos)**:
- Implementaci√≥n b√°sica de t√©cnicas
- Interpretaci√≥n superficial
- C√≥digo funciona pero con pocos comentarios

**Insuficiente (0-24 puntos)**:
- Implementaci√≥n incorrecta o incompleta
- Sin interpretaci√≥n de resultados
- C√≥digo no funcional o no reproducible

### An√°lisis e Interpretaci√≥n (15%)

**Excelente (14-15 puntos)**:
- Insights originales y bien fundamentados
- Conexi√≥n clara entre resultados y contexto del corpus
- Reflexi√≥n cr√≠tica sobre m√©todos y limitaciones
- Conclusiones bien argumentadas

**Bueno (11-13 puntos)**:
- An√°lisis adecuado con algunas conexiones interesantes
- Interpretaci√≥n contextualizada
- Algunas reflexiones sobre limitaciones

**Suficiente (8-10 puntos)**:
- An√°lisis b√°sico y descriptivo
- Poca conexi√≥n con contexto
- Conclusiones superficiales

**Insuficiente (0-7 puntos)**:
- Sin an√°lisis real de resultados
- Sin interpretaci√≥n contextual
- Sin conclusiones claras

### Presentaci√≥n y Organizaci√≥n (10%)

**Excelente (9-10 puntos)**:
- Repositorio GitHub perfectamente organizado
- README completo e informativo
- Notebook claro, bien estructurado y documentado
- Visualizaciones efectivas y bien dise√±adas

**Bueno (7-8 puntos)**:
- Organizaci√≥n adecuada
- README informativo
- Notebook claro
- Buenas visualizaciones

**Suficiente (5-6 puntos)**:
- Organizaci√≥n b√°sica
- README incompleto
- Notebook funcional pero poco claro

**Insuficiente (0-4 puntos)**:
- Desorganizado o incompleto
- Sin README o muy pobre
- Notebook confuso o no funcional

---

## Cronograma Sugerido

Para completar exitosamente este trabajo en el tiempo disponible, segu√≠ este cronograma:

### D√≠as 1-2: Construcci√≥n del Corpus (Fin de semana)
**Objetivos**: Tener corpus completo y organizado

**Tareas**:
- [ ] Decidir tema y tipo de corpus
- [ ] Identificar fuentes espec√≠ficas
- [ ] Recolectar 20-30 textos
- [ ] Organizar archivos seg√∫n estructura requerida
- [ ] Crear archivo metadata.csv completo
- [ ] Subir corpus inicial a GitHub
- [ ] Verificar que todo funciona correctamente

**Tiempo estimado**: 4-5 horas total

### D√≠as 3-4: Preprocesamiento y BoW (Lunes-Martes)
**Objetivos**: Tener an√°lisis BoW/TF-IDF completo

**Tareas**:
- [ ] Crear notebook con estructura base
- [ ] Implementar carga y limpieza de datos
- [ ] Aplicar preprocesamiento completo
- [ ] Implementar an√°lisis BoW y TF-IDF
- [ ] Crear visualizaciones b√°sicas
- [ ] Interpretar primeros resultados

**Tiempo estimado**: 3-4 horas total

### D√≠a 5: Embeddings y An√°lisis Complementario (Mi√©rcoles)
**Objetivos**: Completar an√°lisis t√©cnico

**Tareas**:
- [ ] Implementar an√°lisis con embeddings
- [ ] Comparar resultados con BoW/TF-IDF
- [ ] Aplicar t√©cnica complementaria elegida
- [ ] Generar visualizaciones finales
- [ ] Documentar c√≥digo con comentarios

**Tiempo estimado**: 2-3 horas total

### D√≠a 6-7: Documentaci√≥n y Entrega Final (Mi√©rcoles-Jueves)
**Objetivos**: Finalizar documentaci√≥n y entregar

**Tareas**:
- [ ] Escribir secci√≥n de conclusiones
- [ ] Completar README.md
- [ ] Crear requirements.txt
- [ ] Revisar notebook completo (ejecutar de principio a fin)
- [ ] Verificar que repositorio est√© bien organizado
- [ ] Hacer commit final y verificar entrega

**Tiempo estimado**: 1-2 horas total

### Tiempo Total Estimado: 10-14 horas

**Distribuci√≥n sugerida**:
- Fin de semana: 5 horas (corpus)
- Lunes-Martes: 1.5-2 horas por d√≠a (an√°lisis BoW)
- Mi√©rcoles: 2-3 horas (embeddings)
- Jueves: 1 hora final (documentaci√≥n y entrega)

---

## Recursos de Apoyo

### Tutoriales de GitHub (Obligatorio revisar)

Si no ten√©s experiencia con GitHub, **es fundamental** que revises estos tutoriales:

1. **[Crear cuenta en GitHub](https://github.com/join)**
2. **[Crear un repositorio](https://docs.github.com/es/get-started/quickstart/create-a-repo)**
3. **[Subir archivos a GitHub](https://docs.github.com/es/repositories/working-with-files/managing-files/adding-a-file-to-a-repository)**
4. **[Escribir un buen README](https://docs.github.com/es/repositories/managing-your-repositorys-settings-and-features/customizing-your-repository/about-readmes)**

### Herramientas Recomendadas

#### Para trabajar con GitHub:
- **GitHub Desktop**: Interfaz gr√°fica f√°cil de usar
- **VS Code**: Editor que integra bien con GitHub
- **Navegador web**: Para subir archivos directamente

#### Para desarrollo:
- **Google Colab**: Para desarrollar el notebook (gratis)
- **Jupyter Lab**: Si prefer√≠s trabajar localmente
- **Anaconda**: Para gestionar librer√≠as Python

### Librer√≠as Python Esenciales

Asegurate de tener instaladas estas librer√≠as:

```python
# Para instalar todas juntas:
!pip install pandas numpy scikit-learn spacy matplotlib seaborn nltk wordcloud

# Para descargar modelos de spaCy:
!python -m spacy download es_core_news_md

# Para descargar recursos de NLTK:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
```

### Templates y C√≥digos de Ejemplo

#### Template b√°sico para cargar corpus:
```python
import os
import pandas as pd

def cargar_corpus(directorio_textos, archivo_metadata):
    """Cargar corpus desde directorio de textos y archivo de metadatos"""
    # Cargar metadatos
    metadata = pd.read_csv(archivo_metadata)
    
    # Cargar textos
    textos = {}
    for _, row in metadata.iterrows():
        archivo_path = os.path.join(directorio_textos, row['archivo'])
        with open(archivo_path, 'r', encoding='utf-8') as f:
            textos[row['archivo']] = f.read()
    
    return textos, metadata
```

#### Template para preprocesamiento:
```python
import re
import string
from nltk.corpus import stopwords

def limpiar_texto(texto):
    """Aplicar preprocesamiento b√°sico a texto"""
    # Convertir a min√∫sculas
    texto = texto.lower()
    
    # Eliminar signos de puntuaci√≥n
    texto = re.sub(f'[{re.escape(string.punctuation)}]', ' ', texto)
    
    # Eliminar n√∫meros
    texto = re.sub(r'\d+', ' ', texto)
    
    # Eliminar espacios extra
    texto = re.sub(r'\s+', ' ', texto).strip()
    
    return texto
```

**Caracter√≠sticas de trabajos exitosos anteriores**:
- Corpus bien justificado y coherente
- An√°lisis t√©cnico correcto con interpretaci√≥n contextual
- Comparaciones claras entre m√©todos
- Documentaci√≥n completa y profesional
- Conclusiones fundamentadas y reflexivas

---

## Preguntas Frecuentes (FAQ)

### Sobre la Construcci√≥n del Corpus

**P: ¬øPuedo usar textos en ingl√©s?**  
R: No, el corpus debe ser en espa√±ol. El modelo de spaCy y las stop words est√°n optimizados para espa√±ol.

**P: ¬øQu√© hago si no encuentro suficientes textos de un tema?**  
R: Ampli√° los criterios de b√∫squeda o cambi√° de tema. Es mejor un corpus coherente de 20 textos que uno inconsistente de 30.

**P: ¬øPuedo incluir textos de diferentes autores en mi corpus?**  
R: S√≠, siempre que tengan coherencia tem√°tica. Por ejemplo: "Cuentos de terror argentinos contempor√°neos" de diferentes autores.

**P: ¬øC√≥mo manejo textos muy largos (novelas completas)?**  
R: Us√° fragmentos representativos (cap√≠tulos) en lugar de novelas completas. Document√° tu criterio de selecci√≥n.

### Sobre el An√°lisis T√©cnico

**P: ¬øQu√© hago si mi corpus es muy peque√±o y no da resultados interesantes?**  
R: Analiz√° las limitaciones en la secci√≥n de conclusiones. Un an√°lisis honesto de un corpus peque√±o es mejor que resultados artificiales.

**P: ¬øTengo que usar exactamente las mismas t√©cnicas que vimos en clase?**  
R: S√≠, us√° las t√©cnicas vistas. Pod√©s explorar variaciones (diferentes par√°metros, visualizaciones adicionales) pero la base debe ser la misma.

**P: ¬øQu√© hago si embeddings no da resultados muy diferentes a BoW?**  
R: Document√° esto en tus conclusiones. Es un resultado v√°lido que puede deberse al tipo de corpus o tama√±o. Reflexion√° sobre por qu√© ocurre.

**P: ¬øPuedo usar modelos pre-entrenados diferentes al de spaCy?**  
R: Preferiblemente us√° spaCy como vimos en clase. Si quer√©s experimentar con otros, hacelo como an√°lisis adicional, no reemplazando spaCy.

### Sobre GitHub y la Entrega

**P: ¬øQu√© hago si nunca us√© GitHub?**  
R: Revis√° los tutoriales recomendados. Tambi√©n pod√©s usar GitHub Desktop o la interfaz web. Empez√° a practicar YA, no esperes al √∫ltimo d√≠a.

**P: ¬øPuedo hacer el repositorio privado?**  
R: No, debe ser p√∫blico para que puedan evaluarlo. Pod√©s hacerlo privado despu√©s de la evaluaci√≥n si quer√©s.

**P: ¬øQu√© pasa si mi notebook es muy pesado para GitHub?**  
R: Sub√≠ una versi√≥n "limpia" sin outputs muy pesados. Asegurate de que el c√≥digo sea reproducible.

**P: ¬øTengo que incluir todos los archivos de texto en el repositorio?**  
R: S√≠, inclu√≠ todos los textos que usaste. Si hay problemas de derechos de autor, inclu√≠ solo una muestra y document√° d√≥nde encontrar el resto.

### Sobre Evaluaci√≥n y Tiempo

**P: ¬øQu√© pasa si no termino todo a tiempo?**  
R: Entreg√° lo que tengas completo. Un trabajo parcial bien hecho es mejor que uno completo pero mal ejecutado.

**P: ¬øPuedo pedir extensi√≥n del plazo?**  
R: Solo en casos excepcionales y justificados. Consult√° con anticipaci√≥n, no el d√≠a de la entrega.

**P: ¬øC√≥mo s√© si mi trabajo est√° en el nivel esperado?**  
R: Revis√° los criterios de evaluaci√≥n. Si pod√©s responder satisfactoriamente las preguntas de cada secci√≥n, est√°s en buen camino.

**P: ¬øPuedo consultar dudas durante el desarrollo?**  
R: S√≠, us√° los canales de consulta disponibles. Es mejor consultar dudas espec√≠ficas que estar perdido.

---

## Mensaje Final

Este trabajo integrador es tu oportunidad de demostrar todo lo que aprendiste sobre procesamiento de lenguaje natural. **No es solo un ejercicio acad√©mico**: es una pieza de portafolio que pod√©s mostrar en entrevistas laborales y que refleja tus habilidades reales en NLP.

**Consejos para el √©xito**:

1. **Empez√° temprano**: No dejes todo para √∫ltimo momento
2. **Eleg√≠ un corpus que te interese**: Vas a pasar muchas horas analiz√°ndolo
3. **Document√° todo**: Un c√≥digo bien documentado vale m√°s que c√≥digo complejo sin explicaci√≥n
4. **S√© honesto**: Si algo no funciona como esperabas, documentalo y reflexion√° sobre por qu√©
5. **Ped√≠ ayuda**: No te quedes trabado, consult√° cuando tengas dudas

**Record√°**: El objetivo no es hacer el trabajo m√°s complejo, sino demostrar que entend√©s los conceptos y pod√©s aplicarlos apropiadamente. Un an√°lisis simple pero bien ejecutado es mucho mejor que uno complejo pero mal fundamentado.

¬°√âxitos con tu trabajo integrador!

---

*√öltima actualizaci√≥n: 08-09-2025  
Curso: Procesamiento de Lenguaje Natural    
Profesor: Mat√≠as Barreto  
Instituci√≥n: IFTS24*