## <center>Bolsas de palabras y vectorización de documentos</center>

Antes de realizar modelado predictivo con texto, necesitamos prepararlo adecuadamente. Para ello, primero empezamos por limpiarlo y tokenizarlo. Si luego queremos realizar modelos de aprendizaje necesitamos codificar los datos de caracteres a números, para poder trabajar con vectores, si no será muy complicado extraer características de los datos.

Existen diferentes formas de codificar textos para realizar modelos con ellos, y cada una de ellas está enfocada a resolver un tipo de problema. En este documento mostramos las "bolsas de palabras".

Una bolsa de palabras es simplemente un conjunto de palabras predefinidos que usamos como base para analizar documentos. Por ejemplo, si tenemos un conjunto de palabras relacionadas con el fútbol, podremos detectar si un artículo periodístico está hablando de fútbol sólo con detectar si aparecen (o su frecuencia de aparición) aquellas palabras que tenemos en la bolsa. Otro punto a favor de este enfoque es que, los algoritmos de aprendizaje toman vectores de entrada con el mismo número de elementos en cada iteración, por lo que el largo del vector podemos representarlo con los elementos que hay en la bolsa de palabras.

### Vectorizador de contador
Este modelo se usa para obtener el número de apriciones de las palabras de una bolsa dentro de un documento.

Veamos un ejemplo con el vectorizador incluido en ``sklearn`` [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html):

In [15]:
from pprint import pprint
from sklearn.feature_extraction.text import CountVectorizer

# Creamos una bolsa de palabras
bag_words = [
    "Esta es mi bolsa de palabras. Voy a incluir" \
        + " otras palabras como: balón, árbitro y penalti.",
    "puedo incluirlas como array o como cadenas de texto",
]

# Instanciamos el vectorizador
vectorizer = CountVectorizer()

# Tokenizamos y ajustamos el vectorizador a las palabras
#   que hay en la bolsa
vectorizer.fit(bag_words)

# Imprimimos un resumen de las palabras
vocabulary = vectorizer.vocabulary_
pprint(vocabulary)
print("En mi bolsa de palabras hay %d palabras." % len(vocabulary))

{'array': 0,
 'balón': 1,
 'bolsa': 2,
 'cadenas': 3,
 'como': 4,
 'de': 5,
 'es': 6,
 'esta': 7,
 'incluir': 8,
 'incluirlas': 9,
 'mi': 10,
 'otras': 11,
 'palabras': 12,
 'penalti': 13,
 'puedo': 14,
 'texto': 15,
 'voy': 16,
 'árbitro': 17}
En mi bolsa de palabras hay 18 palabras.


A cada palabra, el vectorizador basado en contador, le asigna un número identificador ordenándolas alfabéticamente. También elimina las palabras repetidas. Podemos obtener más información sobre nuestra bolsa con los siguientes métodos:



In [17]:
vectorizer.get_feature_names()

['array',
 'balón',
 'bolsa',
 'cadenas',
 'como',
 'de',
 'es',
 'esta',
 'incluir',
 'incluirlas',
 'mi',
 'otras',
 'palabras',
 'penalti',
 'puedo',
 'texto',
 'voy',
 'árbitro']

Para aplicar esta bolsa de palabras a un documento, usamos la función ``transform`` del vectorizador.

In [13]:
docs = ["El Real Madrid es el equipo de fútbol que mejor domina el balón balón."]

# Codificamos los documentos
vector = vectorizer.transform(docs)

# Imprimimos un resumen del vector codificado
print(vector.shape)
print(type(vector))
print(vector.toarray())

(1, 18)
<class 'scipy.sparse.csr.csr_matrix'>
[[0 2 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0]]


Como podemos observar en la salida anterior, el segundo elemento del vector es 2, cuyo índice corresponde con la posición de la palabra ``balón`` en el ajuste del modelo y cuyo valor corresponde con el número de apariciones de la palabra en el documento. Por ello, es un vectorizador de contador.