### 2.3 Stop Words

Palabras frecuentes que aportan poco significado (artículos, preposiciones).

In [1]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('stopwords')

texto = "El rápido zorro marrón salta sobre el perro perezoso"
stop_words = set(stopwords.words('spanish'))
tokens = word_tokenize(texto.lower())

filtrado = [p for p in tokens if p not in stop_words]
print("Original:", tokens)
print("Sin stop words:", filtrado)

Original: ['el', 'rápido', 'zorro', 'marrón', 'salta', 'sobre', 'el', 'perro', 'perezoso']
Sin stop words: ['rápido', 'zorro', 'marrón', 'salta', 'perro', 'perezoso']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


**Consideraciones:**
- Listas varían por idioma
- A veces conviene mantener algunas (para análisis de sentimiento)
- Pueden personalizarse

## 3. Representación de Texto

### 3.1 Bolsa de Palabras (Bag of Words)

Representa documentos como vectores de conteos de palabras.

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'El gato come pescado',
    'El perro come carne',
    'El gato y el perro son amigos'
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print("Vocabulario:", vectorizer.get_feature_names_out())
print("Matriz BoW:\n", X.toarray())

Vocabulario: ['amigos' 'carne' 'come' 'el' 'gato' 'perro' 'pescado' 'son']
Matriz BoW:
 [[0 0 1 1 1 0 1 0]
 [0 1 1 1 0 1 0 0]
 [1 0 0 2 1 1 0 1]]


**Características:**
  
- Simple pero efectivo para muchos casos
- Ignora orden y contexto
- Alta dimensionalidad con vocabularios grandes

### 3.2 TF-IDF con sklearn

Evalúa importancia de términos ponderando frecuencia por rareza.

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(corpus)

print("Matriz TF-IDF:\n", X_tfidf.toarray())

Matriz TF-IDF:
 [[0.         0.         0.4804584  0.37311881 0.4804584  0.
  0.63174505 0.        ]
 [0.         0.63174505 0.4804584  0.37311881 0.         0.4804584
  0.         0.        ]
 [0.46869865 0.         0.         0.55364194 0.3564574  0.3564574
  0.         0.46869865]]


**Ventajas sobre BoW:**
    
- Reduce peso de palabras muy frecuentes
- Destaca términos distintivos
- Mejor rendimiento en tareas de recuperación de información

## Conclusión

Estas técnicas tradicionales forman la base del NLP moderno. Aunque las redes neuronales han avanzado el campo, estos métodos siguen siendo relevantes para:

1. **Proyectos con recursos limitados**: Donde no se justifica usar modelos pesados
2. **Preprocesamiento**: Mejorar la calidad de entrada para modelos complejos
3. **Interpretabilidad**: Son más fáciles de entender y depurar

Para implementaciones modernas, muchas de estas técnicas pueden combinarse con enfoques de deep learning usando frameworks como PyTorch o TensorFlow.