# Introducción a NLTK de Python para el análisis de texto  



Aquí tienes un **diseño detallado para un Taller de Introducción a NLTK**, contextualizado a tu investigación y enfocado en aplicaciones prácticas para el análisis de datos textuales en administración de empresas:

---

# **Taller: Introducción a NLTK para Análisis de Texto en Investigación Empresarial**  
**Duración**: 1h 40min (4:20 PM - 6:00 PM)  
**Herramientas**: Python 3.10+, Jupyter Notebook, Google Colab  

---

## **Objetivos del Taller**  
1. Introducir conceptos básicos de Procesamiento de Lenguaje Natural (NLP) con NLTK.  
2. Aplicar técnicas de análisis textual a datos empresariales (ej. reseñas de clientes, informes).  
3. Vincular NLP con el desarrollo de habilidades digitales para la toma de decisiones.  

---

## **Estructura del Taller**  
### **1. Introducción (15 min)**  
**Contenido**:  
- Importancia del NLP en la administración empresarial:  
  - Análisis de sentimientos en redes sociales.  
  - Clasificación automática de documentos (ej. contratos).  
  - Extracción de insights de encuestas cualitativas.  

**Actividad**:  
- Discusión grupal: *¿Cómo podrían usar el análisis de texto en sus proyectos de Machine Learning?*  

---

### **2. Configuración y Primeros Pasos (20 min)**  
**Código**:  
```python
# Instalación de NLTK y descarga de recursos
!pip install nltk
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

# Cargar dataset de ejemplo (reseñas de clientes)
texto_ejemplo = """
El servicio fue excelente y rápido, pero el producto llegó dañado. 
La atención al cliente resolvió el problema de inmediato. ¡Muy recomendados!
"""
```

**Actividad Guiada**:  
- Ejecutar en Google Colab y verificar instalación.  

---

### **3. Procesamiento Básico de Texto (30 min)**  
**Técnicas**:  
```python
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

# Tokenización
oraciones = sent_tokenize(texto_ejemplo, language='spanish')
palabras = word_tokenize(texto_ejemplo.lower(), language='spanish')

# Eliminar stopwords
stopwords_es = set(stopwords.words('spanish'))
palabras_limpias = [p for p in palabras if p.isalnum() and p not in stopwords_es]

print("Palabras clave:", palabras_limpias)
```

**Aplicación a Caso G-Líderes**:  
- *Ejercicio práctico*: Analizar respuestas abiertas de una encuesta sobre satisfacción estudiantil.  

---

### **4. Análisis de Sentimientos (25 min)**  
**Código**:  
```python
from nltk.sentiment import SentimentIntensityAnalyzer
nltk.download('vader_lexicon')

analizador = SentimentIntensityAnalyzer()
resultado = analizador.polarity_scores(texto_ejemplo)

# Visualización
import matplotlib.pyplot as plt
etiquetas = ['Negativo', 'Neutral', 'Positivo', 'Compuesto']
valores = list(resultado.values())
plt.bar(etiquetas, valores)
plt.title("Análisis de Sentimiento")
plt.show()
```

**Caso de Uso**:  
- *Actividad*: Clasificar tweets sobre una marca para estrategias de CRM.  

---

### **5. Integración con Machine Learning (20 min)**  
**Flujo de Trabajo**:  
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# Dataset simulado (0=negativo, 1=positivo)
textos = ["mala calidad", "excelente servicio", "no recomiendo", "rápida entrega"]
etiquetas = [0, 1, 0, 1]

# Vectorización
vectorizador = TfidfVectorizer()
X = vectorizador.fit_transform(textos)

# Entrenar modelo (ej. Regresión Logística)
from sklearn.linear_model import LogisticRegression
modelo = LogisticRegression()
modelo.fit(X, etiquetas)

# Predicción
nuevo_texto = vectorizador.transform(["buena experiencia"])
print("Predicción:", modelo.predict(nuevo_texto))
```

**Vinculación con Proyectos**:  
- *Discusión*: Cómo usar NLP para enriquecer modelos de predicción de deserción de clientes.  

---

### **6. Reto Final y Recursos (10 min)**  
**Reto Práctico**:  
- Analizar un dataset real de reseñas de Yelp (pre-procesado) para identificar temas recurrentes usando `nltk.FreqDist()`.  

**Recursos Adicionales**:  
1. [Libro NLTK en Español](https://www.nltk.org/book_spanish/)  
2. [Dataset de Reseñas en Español](https://www.kaggle.com/datasets/juliomartinez/customer-reviews-in-spanish)  

---

## **Evaluación**  
- **Cuestionario rápido**: 3 preguntas sobre tokenización, stopwords y análisis de sentimientos.  
- **Entrega de código**: Archivo .ipynb con el análisis del reto final.  

---

## **Materiales de Apoyo**  
- Plantilla de Jupyter Notebook pre-configurada.  
- Video-tutorial de 10 min sobre instalación.  
- Dataset de ejemplo (encuestas de satisfacción empresarial).  

---

## **Vinculación con la Investigación**  
Este taller desarrolla la **competencia digital de análisis de datos textuales**, clave para:  
1. Procesar encuestas cualitativas en los focus groups del proyecto.  
2. Enriquecer modelos de Machine Learning con variables de texto.  
3. Generar informes ejecutivos automatizados (ej. detección de temas críticos).  

¿Necesitas ajustar algún componente para alinearlo mejor con tus talleres de Power BI y Deep Learning? 🧠