# 📗 Vectorizing (BOW)

La vectorización en el procesamiento del lenguaje natural (NLP) se refiere al **proceso de convertir texto en datos numéricos, es decir, representar el texto como vectores numéricos**. Este paso es esencial para que los algoritmos de aprendizaje automático puedan trabajar con datos de texto, ya que la mayoría de los algoritmos requieren entradas numéricas.

El modelo "Bag of Words" (BoW) es una técnica común de vectorización en NLP. En el enfoque BoW, se crea un "saco de palabras" que representa el documento como un conjunto no ordenado de palabras, ignorando la estructura gramatical y el orden de las palabras. Cada palabra en el vocabulario se asocia con un índice único, y el vector resultante indica la frecuencia de cada palabra en el documento.

Aquí tienes un ejemplo de cómo realizar la vectorización usando `CountVectorizer` de la biblioteca scikit-learn, que también se puede usar en conjunto con NLTK para preprocesar el texto:

In [1]:
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

# Descargar recursos necesarios de NLTK
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USURIO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USURIO\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
# Texto de ejemplo
documento = [
    "La vectorización en NLP es importante para representar texto numéricamente.",
    "Bag of Words es una técnica común de vectorización en procesamiento del lenguaje natural."
]

In [3]:
# Tokenización y eliminación de palabras vacías (stopwords)
stop_words = set(stopwords.words('spanish'))
vectorizer = CountVectorizer(stop_words=list(stop_words))  # Convertir set a list

In [4]:
# Aplicar CountVectorizer para vectorizar el texto
matriz_vectores = vectorizer.fit_transform(documento)

In [5]:
# Obtener el vocabulario y las características
vocabulario = vectorizer.get_feature_names_out()
caracteristicas = matriz_vectores.toarray()

In [6]:
# Imprimir el resultado
print("Vocabulario:")
print(vocabulario)
print("\nMatriz de Características:")
print(caracteristicas)

Vocabulario:
['bag' 'común' 'importante' 'lenguaje' 'natural' 'nlp' 'numéricamente'
 'of' 'procesamiento' 'representar' 'texto' 'técnica' 'vectorización'
 'words']

Matriz de Características:
[[0 0 1 0 0 1 1 0 0 1 1 0 1 0]
 [1 1 0 1 1 0 0 1 1 0 0 1 1 1]]
