In [1]:
import re
import nltk
from collections import Counter

In [2]:
# Creación de dataset de ejemplo
documentos_ejemplo = [
    "La inteligencia artificial está revolucionando el mundo tecnológico actual.",
    "Machine learning es una rama importante de la inteligencia artificial.",
    "El procesamiento de lenguaje natural permite a las máquinas entender texto.",
    "Los algoritmos de deep learning están transformando la industria.",
    "Python es el lenguaje de programación más popular para ciencia de datos.",
    "Las redes neuronales profundas pueden resolver problemas complejos.",
    "El análisis de sentimientos usa técnicas de procesamiento de lenguaje natural.",
    "Los modelos de inteligencia artificial requieren grandes cantidades de datos."
]

1. Recopilar y preparar los datos:
    Reúne el texto que deseas analizar.
    Limpia el texto eliminando caracteres especiales, convirtiendo a minúsculas, etc.
2. Tokenización:
    Divide el texto en palabras individuales (tokens).
3. Eliminar palabras vacías
4. Construir el vocabulario:
    Crea una lista de todas las palabras únicas en el corpus.
5. Contar las frecuencias:
    Cuenta cuántas veces aparece cada palabra en cada documento.
6. Crear el vector BoW:
    Representa cada documento como un vector de frecuencias depalabras.

In [3]:
dir(set)

['__and__',
 '__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iand__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__isub__',
 '__iter__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__rand__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__ror__',
 '__rsub__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__xor__',
 'add',
 'clear',
 'copy',
 'difference',
 'difference_update',
 'discard',
 'intersection',
 'intersection_update',
 'isdisjoint',
 'issubset',
 'issuperset',
 'pop',
 'remove',
 'symmetric_difference',
 'symmetric_difference_update',
 'union',
 'update']

In [4]:
def crear_BoW(docs: list, language="spanish"):
    # --- 1) Limpiar docs y generar vocabulario
    palabras_vacias = nltk.corpus.stopwords.words(language)
    documentos_ejemplo_limpio = []
    for doc in docs:
        tmp = doc.lower()
        tmp = re.sub(r'\W+', " ", tmp)
        tokens = nltk.word_tokenize(tmp)
        tokens_clean = [word for word in tokens if word not in palabras_vacias]
        documentos_ejemplo_limpio.append(tokens_clean)
        # documentos_ejemplo_limpio.append(" ".join(tokens_clean))
    
    vocabulario = set()
    for doc in documentos_ejemplo_limpio:
        vocabulario.update(doc)
    # print(vocabulario)

    # ---2) Generar el BoW
    bow_matrix = []
    for doc in documentos_ejemplo_limpio:
        word_counts = Counter(doc)
        bow_vector = [word_counts.get(word, 0) for word in vocabulario]
        bow_matrix.append(bow_vector)

    return bow_matrix, vocabulario

In [32]:
def crear_BoW(docs: list, language="spanish", binario=False):
 # --- 1) Limpiar docs y generar vocabulario
    palabras_vacias = nltk.corpus.stopwords.words(language)
    documentos_ejemplo_limpio = []
    for doc in docs:
        tmp = doc.lower()
        tmp = re.sub(r'\W+', " ", tmp)
        tokens = nltk.word_tokenize(tmp)
        tokens_clean = [word for word in tokens if word not in palabras_vacias]
        documentos_ejemplo_limpio.append(tokens_clean)
        # documentos_ejemplo_limpio.append(" ".join(tokens_clean))
    
    vocabulario = set()
    for doc in documentos_ejemplo_limpio:
        vocabulario.update(doc)
# ---2) Generar el BoW
    bow_matrix = []
    if binario:
        for doc in documentos_ejemplo_limpio:
            word_set = set(doc)
            bow_vector = [1 if word in word_set else 0 for word in vocabulario]
            bow_matrix.append(bow_vector)
    else:
        for doc in documentos_ejemplo_limpio:
            word_counts = Counter(doc)
            bow_vector = [word_counts.get(word, 0) for word in vocabulario]
            bow_matrix.append(bow_vector)
    return bow_matrix, vocabulario

In [5]:
bow_matrix, vocab = crear_BoW(documentos_ejemplo)

In [6]:
type(bow_matrix)

list

In [7]:
len(bow_matrix)

8

In [8]:
print(vocab)
for row in bow_matrix:
    print(row)

{'algoritmos', 'ciencia', 'programación', 'neuronales', 'resolver', 'profundas', 'deep', 'usa', 'procesamiento', 'máquinas', 'complejos', 'popular', 'redes', 'grandes', 'artificial', 'revolucionando', 'importante', 'texto', 'problemas', 'pueden', 'actual', 'datos', 'lenguaje', 'learning', 'transformando', 'industria', 'machine', 'inteligencia', 'permite', 'modelos', 'cantidades', 'entender', 'python', 'natural', 'mundo', 'técnicas', 'tecnológico', 'requieren', 'rama', 'análisis', 'sentimientos'}
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0]
[1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0,

In [9]:
print(f"Forma de la matriz BoW: {len(bow_matrix)} documentos x {len(vocab)} palabras")

Forma de la matriz BoW: 8 documentos x 41 palabras


In [10]:
import pandas as pd

In [11]:
documentos_ejemplo

['La inteligencia artificial está revolucionando el mundo tecnológico actual.',
 'Machine learning es una rama importante de la inteligencia artificial.',
 'El procesamiento de lenguaje natural permite a las máquinas entender texto.',
 'Los algoritmos de deep learning están transformando la industria.',
 'Python es el lenguaje de programación más popular para ciencia de datos.',
 'Las redes neuronales profundas pueden resolver problemas complejos.',
 'El análisis de sentimientos usa técnicas de procesamiento de lenguaje natural.',
 'Los modelos de inteligencia artificial requieren grandes cantidades de datos.']

In [12]:
pd.DataFrame(bow_matrix, columns=list(vocab), index=documentos_ejemplo)

Unnamed: 0,algoritmos,ciencia,programación,neuronales,resolver,profundas,deep,usa,procesamiento,máquinas,...,entender,python,natural,mundo,técnicas,tecnológico,requieren,rama,análisis,sentimientos
La inteligencia artificial está revolucionando el mundo tecnológico actual.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,1,0,0,0,0
Machine learning es una rama importante de la inteligencia artificial.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
El procesamiento de lenguaje natural permite a las máquinas entender texto.,0,0,0,0,0,0,0,0,1,1,...,1,0,1,0,0,0,0,0,0,0
Los algoritmos de deep learning están transformando la industria.,1,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Python es el lenguaje de programación más popular para ciencia de datos.,0,1,1,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
Las redes neuronales profundas pueden resolver problemas complejos.,0,0,0,1,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
El análisis de sentimientos usa técnicas de procesamiento de lenguaje natural.,0,0,0,0,0,0,0,1,1,0,...,0,0,1,0,1,0,0,0,1,1
Los modelos de inteligencia artificial requieren grandes cantidades de datos.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0


---

In [13]:
diccionario = {
    "animales": ["gatos", "perros"],
    "personas": ["miguel", "juan"]
}

In [14]:
oracion = """El perro marrón corre por el parque todos los días. 
El perro juega con otros perros y siempre encuentra algo interesante en el parque. 
A veces, el perro se sienta bajo un árbol y observa a las personas que pasan por el parque."""

In [15]:
documents = [
    "El gato come pescado.",
    "El perro come carne.", 
    "El gato y el perro juegan."
]

In [25]:
bow_matrix, vocab = crear_BoW(oracion.split("\n"))

In [26]:
print(vocab)
print(bow_matrix)

{'encuentra', 'observa', 'marrón', 'árbol', 'perros', 'veces', 'bajo', 'siempre', 'parque', 'interesante', 'personas', 'días', 'pasan', 'sienta', 'juega', 'perro', 'corre'}
[[0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1], [1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0], [0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0]]


In [27]:
pd.DataFrame(bow_matrix, columns=list(vocab), index=documents)

Unnamed: 0,encuentra,observa,marrón,árbol,perros,veces,bajo,siempre,parque,interesante,personas,días,pasan,sienta,juega,perro,corre
El gato come pescado.,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,1,1
El perro come carne.,1,0,0,0,1,0,0,1,1,1,0,0,0,0,1,1,0
El gato y el perro juegan.,0,1,0,1,0,1,1,0,1,0,1,0,1,1,0,1,0


---

In [28]:
documentos_bow = [
    "El gato come pescado. El gato es muy inteligente.",
    "El perro juega en el parque. El perro corre rápido.",
    "Los gatos y perros son animales domésticos. Los animales necesitan cuidado.",
    "El pescado nada en el agua. El agua está muy limpia.",
    "Python es un lenguaje de programación. Python es muy fácil de aprender.",
    "El machine learning usa algoritmos. Los algoritmos procesan datos.",
    "Los datos son importantes para la ciencia. La ciencia avanza con datos.",
    "El algoritmo de clasificación funciona bien. El algoritmo es eficiente.",
    "La inteligencia artificial revoluciona el mundo. La inteligencia humana es única.",
    "El aprendizaje automático requiere datos. El aprendizaje es un proceso continuo.",
    "Los modelos predicen el comportamiento. Los modelos necesitan entrenamiento.",
    "El texto se procesa con algoritmos. El texto contiene información valiosa.",
    "Las redes neuronales imitan el cerebro. Las redes aprenden patrones complejos.",
    "El análisis de datos revela patrones. El análisis requiere herramientas especializadas.",
    "La programación en Python es divertida. La programación resuelve problemas complejos."
]

In [29]:
bow_matrix, vocab = crear_BoW(documentos_bow)

In [31]:
pd.DataFrame(bow_matrix, columns=list(vocab), index=documentos_bow)

Unnamed: 0,algoritmos,ciencia,programación,neuronales,gato,come,predicen,perros,humana,entrenamiento,...,limpia,divertida,parque,fácil,procesa,cuidado,continuo,aprenden,avanza,perro
El gato come pescado. El gato es muy inteligente.,0,0,0,0,2,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
El perro juega en el parque. El perro corre rápido.,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,2
Los gatos y perros son animales domésticos. Los animales necesitan cuidado.,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0
El pescado nada en el agua. El agua está muy limpia.,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
Python es un lenguaje de programación. Python es muy fácil de aprender.,0,0,1,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
El machine learning usa algoritmos. Los algoritmos procesan datos.,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Los datos son importantes para la ciencia. La ciencia avanza con datos.,0,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
El algoritmo de clasificación funciona bien. El algoritmo es eficiente.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
La inteligencia artificial revoluciona el mundo. La inteligencia humana es única.,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
El aprendizaje automático requiere datos. El aprendizaje es un proceso continuo.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0


In [33]:
bow_matrix, vocab = crear_BoW(documentos_bow, binario=True)

In [34]:
pd.DataFrame(bow_matrix, columns=list(vocab), index=documentos_bow)

Unnamed: 0,algoritmos,ciencia,programación,neuronales,gato,come,predicen,perros,humana,entrenamiento,...,limpia,divertida,parque,fácil,procesa,cuidado,continuo,aprenden,avanza,perro
El gato come pescado. El gato es muy inteligente.,0,0,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
El perro juega en el parque. El perro corre rápido.,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1
Los gatos y perros son animales domésticos. Los animales necesitan cuidado.,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0
El pescado nada en el agua. El agua está muy limpia.,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
Python es un lenguaje de programación. Python es muy fácil de aprender.,0,0,1,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
El machine learning usa algoritmos. Los algoritmos procesan datos.,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Los datos son importantes para la ciencia. La ciencia avanza con datos.,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
El algoritmo de clasificación funciona bien. El algoritmo es eficiente.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
La inteligencia artificial revoluciona el mundo. La inteligencia humana es única.,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
El aprendizaje automático requiere datos. El aprendizaje es un proceso continuo.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0


---
En pocas líneas con otro módulo (librería)

In [37]:
%pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp313-cp313-macosx_12_0_arm64.whl.metadata (11 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.16.2-cp313-cp313-macosx_14_0_arm64.whl.metadata (62 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.2-cp313-cp313-macosx_12_0_arm64.whl (8.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.6/8.6 MB[0m [31m17.1 MB/s[0m  [33m0:00:00[0m eta [36m0:00:01[0m
[?25hDownloading scipy-1.16.2-cp313-cp313-macosx_14_0_arm64.whl (20.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.9/20.9 MB[0m [31m18.1 MB/s[0m  [33m0:00:01[0m eta [36m0:00:01[0m
[?25hDownloading threadpoolctl-3.6.0-py3-none-any.whl (18 kB)
Installing collected packages: threadpoolctl, scipy, scikit-learn
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3/3[0m [scikit-learn][0m [scikit-lear

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [39]:
documents = [
    "El gato come pescado",
    "El perro come carne", 
    "El gato y el perro juegan"
]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)
print("Vocabulario:", vectorizer.get_feature_names_out())
print("\nMatriz BoW:")
print(X.toarray())
df = pd.DataFrame(X.toarray(), 
                 columns=vectorizer.get_feature_names_out(),
                 index=['Texto 1', 'Texto 2', 'Texto 3'])
print("\nDataFrame:")
print(df)

Vocabulario: ['carne' 'come' 'el' 'gato' 'juegan' 'perro' 'pescado']

Matriz BoW:
[[0 1 1 1 0 0 1]
 [1 1 1 0 0 1 0]
 [0 0 2 1 1 1 0]]

DataFrame:
         carne  come  el  gato  juegan  perro  pescado
Texto 1      0     1   1     1       0      0        1
Texto 2      1     1   1     0       0      1        0
Texto 3      0     0   2     1       1      1        0
