# Bag of Words

En este notebook vamos a ver un ejemplo práctico de la técnica de "Bag of Words".

Como hemos visto, cuando operamos con textos, no hay ninguna operación matemática definida que pueda trabajar con ellos directamente. Por ejemplo, no podemos combinar las palabras _"hola"_ y _"adiós"_. 

Por lo tanto, para poder utilizar textos definidos en lenguaje natural, independientemente del idioma utilizado, necesitamos **transformar estos textos en vectores numéricos** que los representen.

La técnica más conocida para hacer esta transformación se llama ***bolsa de palabras*** o **Bag of Words**. 

Veamos cómo funciona con un ejemplo. Supongamos que tenemos el siguiente texto

> *El miedo es el camino hacia el Lado Oscuro. El miedo lleva a la ira, la ira lleva al odio, el odio lleva al sufrimiento. Percibo mucho miedo en ti.* — Yoda a Anakin en el Consejo Jedi.

El primer paso que debemos realizar es la limpieza del dataset de caracteres extraños y homogeneizarlo a minúsculas:

> el miedo es el camino hacia el lado oscuro el miedo lleva a la ira la ira lleva al odio el odio lleva al sufrimiento percibo mucho miedo en ti

Después, procederemos con la **tokenización**, que consiste en transformar el texto anterior en una matriz de palabras. 

Es decir, vamos a separar cada una de las palabras que componen la frase anterior utilizando espacios separadores. Por tanto, obtendríamos la siguiente lista de *tokens*:

`['el', 'miedo', 'es', 'el', 'camino, 'hacia', 'el', 'lado', 'oscuro', 'el', 'miedo', 'lleva', 'a', 'la', 'ira', 'la', 'ira', 'lleva', 'al', 'odio', 'el', 'odio', 'lleva', 'al', 'sufrimiento', 'percibo', 'mucho', 'miedo', 'en', 'ti']`.

A partir de la lista anterior podemos construir un **diccionario** que contenga todas las palabras definidas en nuestro vocabulario. 

Entendemos por "nuestro vocabulario" las palabras que aparecen en los textos que estamos analizando. Así, analizando los *tokens* anteriores construiremos el siguiente diccionario:

`['el', 'miedo', 'es', 'camino, 'hacia', 'lado', 'oscuro', 'lleva', 'a', 'la', 'ira', 'al', 'odio', 'sufrimiento', 'percibo', 'mucho', 'en', 'ti']`

Por último, tenemos que transformar el texto original en un vector numérico de forma que las posiciones del vector representen las posiciones de las palabras del diccionario y los valores del vector representen el número de apariciones de la palabra del diccionario en el texto analizado. 

Dado que nuestro diccionario consta de 18 palabras, nuestro texto quedaría definido por el siguiente vector

`[5, 3, 1, 1, 1, 1, 1, 3, 1, 2, 2, 2, 2, 1, 1, 1, 1, 1]`

Viéndolo en formato tabla es más fácil de detectar:

| | el | miedo | es | camino | hacia | lado | oscuro | lleva | a | la | ira | al | odio | sufrimiento | percibo | mucho | en | ti |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| Frecuencia | 5 | 3 | 1 | 1 | 1 | 1 | 1 | 3 | 1 | 2 | 2 | 2 | 2 | 1 | 1 | 1 | 1 | 1 |

Analizándolo vemos que la palabra *'miedo'* se repite 3 veces, la palabra *'ira'* 2, la palabra *'el'* 5, y así sucesivamente.

En este caso hemos dejado la limpieza de las stop-words para después, pues nos interesaba ver el cambio entre el antes y el después.

Si eliminaramos las stop-words veríamos que desparecen los artículos, determinantes, preposiciones, etc.

En lugar de hacerlo manualmente, como hasta ahora, vamos a hacerlo con Python.

La forma más rápida de hacerlo es utilizando el objeto `CountVectorizer` del paquete `feature_extraction.text` de la librería `scikit-learn`.


In [1]:
import sklearn
import numpy as np

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer() # les asigna una fercuencia a cada palabra, pero limpio

In [3]:
corpus = [
    "El miedo es el camino hacia el Lado Oscuro. El miedo lleva a la ira, la ira lleva al odio, el odio lleva al sufrimiento. Percibo mucho miedo en ti."
]

X = count_vectorizer.fit_transform(corpus)

print(X.toarray())


[[2 1 5 1 1 1 2 2 1 3 3 1 2 1 1 1 1]]


Podemos ver el mapeo mediante la función `get_feature_names_out()`. Como podéis observar, ésta función detecta los símbolos de puntuación y los ignora.

In [4]:
print(count_vectorizer.get_feature_names_out())

['al' 'camino' 'el' 'en' 'es' 'hacia' 'ira' 'la' 'lado' 'lleva' 'miedo'
 'mucho' 'odio' 'oscuro' 'percibo' 'sufrimiento' 'ti']


Veamos ahora si elimináramos las stop-words:

In [7]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\dario\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

En este caso, es necesario limpiar el dataset y homogeneizar a minusculas antes de usar `nltk`:

In [8]:
import re
import string
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [9]:
# añadimos algunos más que no están en string.punctuation, como las comillas y 
# las aperturas de interrogación/exclamación
# si no los añadiésemos, no se eliminarían
chars = string.punctuation + '“”¡¿'
print(chars)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”¡¿


In [10]:
re_punc = re.compile('[%s]' % re.escape(chars))
# eliminar la puntuación de cada palabra
texto = re_punc.sub('', corpus[0])
print(texto)

El miedo es el camino hacia el Lado Oscuro El miedo lleva a la ira la ira lleva al odio el odio lleva al sufrimiento Percibo mucho miedo en ti


Convertimos el texto a minúsculas:

In [11]:
texto = texto.lower()
print(texto)

el miedo es el camino hacia el lado oscuro el miedo lleva a la ira la ira lleva al odio el odio lleva al sufrimiento percibo mucho miedo en ti


In [12]:
stop_words = stopwords.words('spanish')
palabras = texto.split(' ')
print(palabras)

['el', 'miedo', 'es', 'el', 'camino', 'hacia', 'el', 'lado', 'oscuro', 'el', 'miedo', 'lleva', 'a', 'la', 'ira', 'la', 'ira', 'lleva', 'al', 'odio', 'el', 'odio', 'lleva', 'al', 'sufrimiento', 'percibo', 'mucho', 'miedo', 'en', 'ti']


Eliminamos las stop-words:

In [13]:
palabras_limpias = [p for p in palabras if p not in stop_words]
print(palabras_limpias)

['miedo', 'camino', 'hacia', 'lado', 'oscuro', 'miedo', 'lleva', 'ira', 'ira', 'lleva', 'odio', 'odio', 'lleva', 'sufrimiento', 'percibo', 'miedo']


Unimos el texto de nuevo:

In [14]:
texto_limpio = ' '.join(palabras_limpias)
print(texto_limpio)

miedo camino hacia lado oscuro miedo lleva ira ira lleva odio odio lleva sufrimiento percibo miedo


Y aplicamos la técnica de Bag of Words:

In [15]:
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()

# el objeto count_vectorizer necesita una lista de textos para funcionar
X = count_vectorizer.fit_transform([texto_limpio])
print(X.toarray())

[[1 1 2 1 3 3 2 1 1 1]]


In [16]:
print(count_vectorizer.get_feature_names_out())

['camino' 'hacia' 'ira' 'lado' 'lleva' 'miedo' 'odio' 'oscuro' 'percibo'
 'sufrimiento']


Comparadlo con la versión sin limpiar:

In [17]:
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()

# el objeto count_vectorizer necesita una lista de textos para funcionar
X = count_vectorizer.fit_transform(corpus)
print(X.toarray())

[[2 1 5 1 1 1 2 2 1 3 3 1 2 1 1 1 1]]


In [18]:
print(count_vectorizer.get_feature_names_out())

['al' 'camino' 'el' 'en' 'es' 'hacia' 'ira' 'la' 'lado' 'lleva' 'miedo'
 'mucho' 'odio' 'oscuro' 'percibo' 'sufrimiento' 'ti']


### Ejercicio 1

Realiza la limpieza del dataset, la eliminación de stop-words y la vectorización del texto (bag of words) del siguiente texto:

> "¿Qué es el honor, comparado con el amor de una mujer? ¿Qué es el deber, comparado con el calor de un hijo recién nacido entre los brazos, o el recuerdo de la sonrisa de un hermano? Aire y palabras. Aire y palabras. Solo somos humanos, y los dioses nos hicieron para el amor. Es nuestra mayor gloria y nuestra peor tragedia." - Maestre Aemon, Juego de Tronos

In [23]:
text = ['¿Qué es el honor, comparado con el amor de una mujer? ¿Qué es el deber, comparado con el calor de un hijo recién nacido entre los brazos, o el recuerdo de la sonrisa de un hermano? Aire y palabras. Aire y palabras. Solo somos humanos, y los dioses nos hicieron para el amor. Es nuestra mayor gloria y nuestra peor tragedia.']

In [24]:
Z = count_vectorizer.fit_transform(text)

print(Z.toarray())


[[2 2 1 1 2 2 4 1 1 6 1 3 1 1 1 1 1 1 1 2 1 1 1 1 2 2 1 1 2 1 1 1 1 1 1 2
  1]]


In [25]:
re_punc = re.compile('[%s]' % re.escape(chars))
# eliminar la puntuación de cada palabra
texto = re_punc.sub('', text[0])
print(texto)

Qué es el honor comparado con el amor de una mujer Qué es el deber comparado con el calor de un hijo recién nacido entre los brazos o el recuerdo de la sonrisa de un hermano Aire y palabras Aire y palabras Solo somos humanos y los dioses nos hicieron para el amor Es nuestra mayor gloria y nuestra peor tragedia


In [26]:
texto = texto.lower()
print(texto)

qué es el honor comparado con el amor de una mujer qué es el deber comparado con el calor de un hijo recién nacido entre los brazos o el recuerdo de la sonrisa de un hermano aire y palabras aire y palabras solo somos humanos y los dioses nos hicieron para el amor es nuestra mayor gloria y nuestra peor tragedia


In [27]:
vocales = ["á", "é", "í", "ó", "ú"]
for vocal in vocales:
    if vocal == "á":
        texto = texto.replace(vocal, "a")
    elif vocal == "é":
        texto = texto.replace(vocal, "e")
    elif vocal == "í":
        texto = texto.replace(vocal, "i")
    elif vocal == "ó":
        texto = texto.replace(vocal, "o")
    elif vocal == "ú": 
        texto = texto.replace(vocal, "u")

print(texto)

que es el honor comparado con el amor de una mujer que es el deber comparado con el calor de un hijo recien nacido entre los brazos o el recuerdo de la sonrisa de un hermano aire y palabras aire y palabras solo somos humanos y los dioses nos hicieron para el amor es nuestra mayor gloria y nuestra peor tragedia


In [29]:
words = texto.split(' ')
print(words)

['que', 'es', 'el', 'honor', 'comparado', 'con', 'el', 'amor', 'de', 'una', 'mujer', 'que', 'es', 'el', 'deber', 'comparado', 'con', 'el', 'calor', 'de', 'un', 'hijo', 'recien', 'nacido', 'entre', 'los', 'brazos', 'o', 'el', 'recuerdo', 'de', 'la', 'sonrisa', 'de', 'un', 'hermano', 'aire', 'y', 'palabras', 'aire', 'y', 'palabras', 'solo', 'somos', 'humanos', 'y', 'los', 'dioses', 'nos', 'hicieron', 'para', 'el', 'amor', 'es', 'nuestra', 'mayor', 'gloria', 'y', 'nuestra', 'peor', 'tragedia']


In [32]:
cleared_words = [p for p in words if p not in stop_words]
print(cleared_words)

['honor', 'comparado', 'amor', 'mujer', 'deber', 'comparado', 'calor', 'hijo', 'recien', 'nacido', 'brazos', 'recuerdo', 'sonrisa', 'hermano', 'aire', 'palabras', 'aire', 'palabras', 'solo', 'humanos', 'dioses', 'hicieron', 'amor', 'mayor', 'gloria', 'peor', 'tragedia']


In [33]:
cleared_text = ' '.join(cleared_words)
print(cleared_text)

honor comparado amor mujer deber comparado calor hijo recien nacido brazos recuerdo sonrisa hermano aire palabras aire palabras solo humanos dioses hicieron amor mayor gloria peor tragedia


In [34]:
# el objeto count_vectorizer necesita una lista de textos para funcionar
Z = count_vectorizer.fit_transform([cleared_text])
print(Z.toarray())

[[2 2 1 1 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1]]


In [35]:
print(count_vectorizer.get_feature_names_out())

['aire' 'amor' 'brazos' 'calor' 'comparado' 'deber' 'dioses' 'gloria'
 'hermano' 'hicieron' 'hijo' 'honor' 'humanos' 'mayor' 'mujer' 'nacido'
 'palabras' 'peor' 'recien' 'recuerdo' 'solo' 'sonrisa' 'tragedia']


### Ejercicio 2

Realiza la limpieza del dataset, la eliminación de stop-words y la vectorización del texto (bag of words) del siguiente *corpus* de documentos:

> "Cuando se juega al Juego de Tronos, solo se puede ganar o morir." - Cersei Lannister

> "Por qué será que en cuanto un hombre construye un muro, su vecino inmediatamente quiere saber qué hay del otro lado." - Tyrion Lannister

> "¿Qué es el honor, comparado con el amor de una mujer? ¿Qué es el deber, comparado con el calor de un hijo recién nacido entre los brazos, o el recuerdo de la sonrisa de un hermano? Aire y palabras. Aire y palabras. Solo somos humanos, y los dioses nos hicieron para el amor. Es nuestra mayor gloria y nuestra peor tragedia." - Maestre Aemon, Juego de Tronos

> "El hombre que dicta la condena debe blandir la espada." - Eddard Stark

> "El poder reside donde los hombres creen que reside. Es un truco, una sombra en la pared. Y un hombre muy pequeño puede proyectar una sombra muy grande." - Lord Varys

In [37]:
corpus = [
    "Cuando se juega al Juego de Tronos, solo se puede ganar o morir.",
    "Por qué será que en cuanto un hombre construye un muro, su vecino inmediatamente quiere saber qué hay del otro lado.",
    "¿Qué es el honor, comparado con el amor de una mujer? ¿Qué es el deber, comparado con el calor de un hijo recién nacido entre los brazos, o el recuerdo de la sonrisa de un hermano? Aire y palabras. Aire y palabras. Solo somos humanos, y los dioses nos hicieron para el amor. Es nuestra mayor gloria y nuestra peor tragedia.",
    "El hombre que dicta la condena debe blandir la espada.",
    "El poder reside donde los hombres creen que reside. Es un truco, una sombra en la pared. Y un hombre muy pequeño puede proyectar una sombra muy grande."
]

In [38]:
Y = count_vectorizer.fit_transform(corpus)

print(Y.toarray())

[[0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
  0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 2 0 1 0 0
  0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0
  1 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 1 2 0 0 0 1 0 1 0 0 0
  0 1 0 0 0 2 0 1]
 [2 0 2 0 1 1 2 2 0 0 0 0 0 4 0 1 0 0 1 0 6 0 1 3 0 0 1 0 0 1 1 1 0 0 1 1
  0 0 0 1 0 2 1 0 1 0 0 1 1 2 0 2 1 0 1 0 0 0 0 0 0 0 2 1 1 0 0 0 0 1 0 1
  1 0 1 0 0 2 1 0]
 [0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0
  0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 1 0 1 0 0 0 1 0 0 0 0 1 1 0 0
  0 0 0 1 0 1 0 0 0 0 2 0 0 0 0 0 0 1 0 1 1 0 1 1 1 0 0 0 0 2 0 0 0 0 2 0
  0 0 0 0 1 2 2 0]]


In [51]:
for i in corpus:
    re_punc = re.compile('[%s]' % re.escape(chars))
    # eliminar la puntuación de cada palabra
    texto = re_punc.sub('', i)

    texto = texto.lower()

    for vocal in vocales:
        if vocal == "á":
            texto = texto.replace(vocal, "a")
        elif vocal == "é":
            texto = texto.replace(vocal, "e")
        elif vocal == "í":
            texto = texto.replace(vocal, "i")
        elif vocal == "ó":
            texto = texto.replace(vocal, "o")
        elif vocal == "ú": 
            texto = texto.replace(vocal, "u")

    words = texto.split(' ')

    cleared_words = [p for p in words if p not in stop_words]

    cleared_text = ' '.join(cleared_words)

    Z = count_vectorizer.fit_transform([cleared_text])
    
    print(count_vectorizer.get_feature_names_out())

    

['ganar' 'juega' 'juego' 'morir' 'puede' 'solo' 'tronos']
['construye' 'cuanto' 'hombre' 'inmediatamente' 'lado' 'muro' 'quiere'
 'saber' 'sera' 'vecino']
['aire' 'amor' 'brazos' 'calor' 'comparado' 'deber' 'dioses' 'gloria'
 'hermano' 'hicieron' 'hijo' 'honor' 'humanos' 'mayor' 'mujer' 'nacido'
 'palabras' 'peor' 'recien' 'recuerdo' 'solo' 'sonrisa' 'tragedia']
['blandir' 'condena' 'debe' 'dicta' 'espada' 'hombre']
['creen' 'grande' 'hombre' 'hombres' 'pared' 'pequeño' 'poder' 'proyectar'
 'puede' 'reside' 'sombra' 'truco']


In [52]:
all_words = []

for i in corpus:
    re_punc = re.compile('[%s]' % re.escape(chars))
    # eliminar la puntuación de cada palabra
    texto = re_punc.sub('', i)

    texto = texto.lower()

    for vocal in vocales:
        if vocal == "á":
            texto = texto.replace(vocal, "a")
        elif vocal == "é":
            texto = texto.replace(vocal, "e")
        elif vocal == "í":
            texto = texto.replace(vocal, "i")
        elif vocal == "ó":
            texto = texto.replace(vocal, "o")
        elif vocal == "ú": 
            texto = texto.replace(vocal, "u")

    words = texto.split(' ')

    cleared_words = [p for p in words if p not in stop_words]

    cleared_text = ' '.join(cleared_words)

    Z = count_vectorizer.fit_transform([cleared_text])
    
    features = count_vectorizer.get_feature_names_out()

    for feature in features:
        all_words.append(feature)

print(all_words)


['ganar', 'juega', 'juego', 'morir', 'puede', 'solo', 'tronos', 'construye', 'cuanto', 'hombre', 'inmediatamente', 'lado', 'muro', 'quiere', 'saber', 'sera', 'vecino', 'aire', 'amor', 'brazos', 'calor', 'comparado', 'deber', 'dioses', 'gloria', 'hermano', 'hicieron', 'hijo', 'honor', 'humanos', 'mayor', 'mujer', 'nacido', 'palabras', 'peor', 'recien', 'recuerdo', 'solo', 'sonrisa', 'tragedia', 'blandir', 'condena', 'debe', 'dicta', 'espada', 'hombre', 'creen', 'grande', 'hombre', 'hombres', 'pared', 'pequeño', 'poder', 'proyectar', 'puede', 'reside', 'sombra', 'truco']
