In [9]:
import re
import nltk
from collections import Counter

In [2]:
# Creación de dataset de ejemplo
documentos_ejemplo = [
    "La inteligencia artificial está revolucionando el mundo tecnológico actual.",
    "Machine learning es una rama importante de la inteligencia artificial.",
    "El procesamiento de lenguaje natural permite a las máquinas entender texto.",
    "Los algoritmos de deep learning están transformando la industria.",
    "Python es el lenguaje de programación más popular para ciencia de datos.",
    "Las redes neuronales profundas pueden resolver problemas complejos.",
    "El análisis de sentimientos usa técnicas de procesamiento de lenguaje natural.",
    "Los modelos de inteligencia artificial requieren grandes cantidades de datos."
]

1. Recopilar y preparar los datos:
    Reúne el texto que deseas analizar.
    Limpia el texto eliminando caracteres especiales, convirtiendo a minúsculas, etc.
2. Tokenización:
    Divide el texto en palabras individuales (tokens).
3. Eliminar palabras vacías
4. Construir el vocabulario:
    Crea una lista de todas las palabras únicas en el corpus.
5. Contar las frecuencias:
    Cuenta cuántas veces aparece cada palabra en cada documento.
6. Crear el vector BoW:
    Representa cada documento como un vector de frecuencias depalabras.

In [4]:
dir(set)

['__and__',
 '__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iand__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__isub__',
 '__iter__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__rand__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__ror__',
 '__rsub__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__xor__',
 'add',
 'clear',
 'copy',
 'difference',
 'difference_update',
 'discard',
 'intersection',
 'intersection_update',
 'isdisjoint',
 'issubset',
 'issuperset',
 'pop',
 'remove',
 'symmetric_difference',
 'symmetric_difference_update',
 'union',
 'update']

In [30]:
def crear_BoW(docs: list, language="spanish"):
    # --- 1) Limpiar docs y generar vocabulario
    palabras_vacias = nltk.corpus.stopwords.words(language)
    documentos_ejemplo_limpio = []
    for doc in docs:
        tmp = doc.lower()
        tmp = re.sub(r'\W+', " ", tmp)
        tokens = nltk.word_tokenize(tmp)
        tokens_clean = [word for word in tokens if word not in palabras_vacias]
        documentos_ejemplo_limpio.append(tokens_clean)
        # documentos_ejemplo_limpio.append(" ".join(tokens_clean))
    
    vocabulario = set()
    for doc in documentos_ejemplo_limpio:
        vocabulario.update(doc)
    # print(vocabulario)

    # ---2) Generar el BoW
    bow_matrix = []
    for doc in documentos_ejemplo_limpio:
        word_counts = Counter(doc)
        bow_vector = [word_counts.get(word, 0) for word in vocabulario]
        bow_matrix.append(bow_vector)

    return bow_matrix, vocabulario

In [31]:
bow_matrix, vocab = crear_BoW(documentos_ejemplo)

In [28]:
type(bow_matrix)

list

In [None]:
len(bow_matrix)

8

In [34]:
print(vocab)
for row in bow_matrix:
    print(row)

{'artificial', 'machine', 'learning', 'problemas', 'revolucionando', 'neuronales', 'texto', 'transformando', 'popular', 'requieren', 'lenguaje', 'redes', 'cantidades', 'deep', 'algoritmos', 'python', 'industria', 'usa', 'inteligencia', 'tecnológico', 'actual', 'grandes', 'procesamiento', 'técnicas', 'importante', 'máquinas', 'entender', 'mundo', 'resolver', 'sentimientos', 'ciencia', 'pueden', 'datos', 'profundas', 'programación', 'rama', 'natural', 'permite', 'complejos', 'modelos', 'análisis'}
[1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0]
[0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0,

In [39]:
print(f"Forma de la matriz BoW: {len(bow_matrix)} documentos x {len(vocab)} palabras")

Forma de la matriz BoW: 8 documentos x 41 palabras


In [35]:
import pandas as pd

In [40]:
documentos_ejemplo

['La inteligencia artificial está revolucionando el mundo tecnológico actual.',
 'Machine learning es una rama importante de la inteligencia artificial.',
 'El procesamiento de lenguaje natural permite a las máquinas entender texto.',
 'Los algoritmos de deep learning están transformando la industria.',
 'Python es el lenguaje de programación más popular para ciencia de datos.',
 'Las redes neuronales profundas pueden resolver problemas complejos.',
 'El análisis de sentimientos usa técnicas de procesamiento de lenguaje natural.',
 'Los modelos de inteligencia artificial requieren grandes cantidades de datos.']

In [41]:
pd.DataFrame(bow_matrix, columns=list(vocab), index=documentos_ejemplo)

Unnamed: 0,artificial,machine,learning,problemas,revolucionando,neuronales,texto,transformando,popular,requieren,...,pueden,datos,profundas,programación,rama,natural,permite,complejos,modelos,análisis
La inteligencia artificial está revolucionando el mundo tecnológico actual.,1,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Machine learning es una rama importante de la inteligencia artificial.,1,1,1,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
El procesamiento de lenguaje natural permite a las máquinas entender texto.,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,1,0,0,0
Los algoritmos de deep learning están transformando la industria.,0,0,1,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
Python es el lenguaje de programación más popular para ciencia de datos.,0,0,0,0,0,0,0,0,1,0,...,0,1,0,1,0,0,0,0,0,0
Las redes neuronales profundas pueden resolver problemas complejos.,0,0,0,1,0,1,0,0,0,0,...,1,0,1,0,0,0,0,1,0,0
El análisis de sentimientos usa técnicas de procesamiento de lenguaje natural.,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,1
Los modelos de inteligencia artificial requieren grandes cantidades de datos.,1,0,0,0,0,0,0,0,0,1,...,0,1,0,0,0,0,0,0,1,0


---

In [14]:
diccionario = {
    "animales": ["gatos", "perros"],
    "personas": ["miguel", "juan"]
}