Vectorización de texto
==================

Un modelos de aprendizaje automático es, a groso modo, una función parametrizada `f(x)` que toma como entrada
un vector `x`, `n-dimensional`, y produce un vector de salida `m-dimensional`. Tal función puede ser simple (para un modelo lineal por ejemplo) o más compleja (como una red neuronal).

Cuando trabajamos con lenguaje natural, la mayoría de nuestros datos de entrada representarán características discretas y categóricas, ya sean palabras, letras o incluso utterancias (partes del discurso). La pregunta que nos haremos entonces es ¿Cómo codificamos esos datos categóricos de una manera que sea práctica para ser utilizada por un modelo de aprendizaje automático? 

Discutiremos las opciones disponibles.

 - [One-hot encoding](#One-hot-encoding)
 - [Index-based encoding](#Index-based-encoding)
 - [Bag-of-words (BOW)](#Bag-of-words-(BOW))
 - [Dense encoding (embeddings)](#Dense-encoding-(embeddings))
 
 Utilizaremos el siguiente corpus para nuestros ejemplos:


In [31]:
corpus = ["El hielo es agua en estado sólido",
          "El hielo es uno de los cuatro estados naturales del agua",
          "El agua pura se congela a 0 grados",
          "El hielo es el nombre común del agua en estado sólido"]

## One-hot encoding

Dado que el texto representará características discretas y categóricas, hace sentido pensar en utilizar métodos clásicos para este tipo de dato. `one-hot encoding` es una técnica sensilla que cosiste en representar las palabras con vectores de longitud igual al tamaño del vocabulario donde todas las posiciones son zero salvo la posición que corresponde al indice de la palabra en cuestión. Eso significa que las dimensiones de los vectores de entrada dependerá del tamaño del vocabulario y no del tamaño del cuerpo de texto. Este tipo de representación tiene la propiedad de que todas las palabras son igualmente relevantes para el modelo.

Si bien este método es sencillo de implementar, genera representaciones dispersas, con mucha cantidad de zeros, que genera dificultades a la hora de procesarlos.

## Index-based encoding

Es una técnica similar a `one-hot encoding` salvo que aqui los vectores están representados utilizando los valores numéricos correspondientes a los índices que ocupan cada palabra dentro del vocabulario. Es decir que cada palabra está codificada como un número entero. Esto hace que el tamaño del vector no depanda del tamaño del vocabulario.

En general, esta técnica no ofrece ninguna ventaja, pero se utiliza como una representación intermedia para implementar otras formas de vectorización.

In [112]:
vocab = { i:w for w,i in enumerate(set(' '.join(corpus).split())) }

In [119]:
vectors = [[vocab[w] for w in s.split(' ')] for s in corpus]

In [122]:
pd.DataFrame(vectors)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,8,15,18,6,16,3,19,,,,
1,8,15,18,10,4,5,13,21.0,11.0,14.0,6.0
2,8,6,2,9,0,22,17,1.0,,,
3,8,15,18,20,12,7,14,6.0,16.0,3.0,19.0


## Bag-of-words (BOW)

Se trata de una familia de métodos de los más ampliamente utilizado durante mucho tiempo para convertir texto en representaciones numéricas. En general, estos métodos representan el texto utilizando una lista de frecuencia de palabras, es decir, basandose de alguna forma en la frecuencia en la que aparecen.

Los métodos basados en bag-of-words tienen las siguientes limitaciones:

 - El orden de las palabras es ignorado
 - La frecuencia de la plabra no necesariamente encapsula la importancia
 - Las frecuencias marginales juegan un papel importante (relación entre files y columnas)

### Term frecuency

Utiliza un vector de longitud igual al tamaño del vocabulario, pero donde los valores corresponden a la frecuencia de la palabra w en el documento D. Las palabras más frecuentes tienen más relevancia.

$$TF = \frac {freq(w_i)} {len(doc)} $$

In [15]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(min_df=0., max_df=1.)
vectors = vectorizer.fit_transform(corpus)

In [16]:
vectors = vectors.todense()

In [17]:
vectors.shape

(4, 20)

> ¿Que representa 20 en las dimensiones del vector?

In [22]:
import pandas as pd
import numpy as np

# Obtenemos todas las palabras del vocabulario
vocab = vectorizer.get_feature_names()
# Vectores de cada uno de los documentos
pd.DataFrame(vectors, columns=vocab)

Unnamed: 0,agua,común,congela,cuatro,de,del,el,en,es,estado,estados,grados,hielo,los,naturales,nombre,pura,se,sólido,uno
0,1,0,0,0,0,0,1,1,1,1,0,0,1,0,0,0,0,0,1,0
1,1,0,0,1,1,1,1,0,1,0,1,0,1,1,1,0,0,0,0,1
2,1,0,1,0,0,0,1,0,0,0,0,1,0,0,0,0,1,1,0,0
3,1,1,0,0,0,1,2,1,1,1,0,0,1,0,0,1,0,0,1,0


### TF-IDF

Se trata de un método similar a Term Frecuency, pero cuyo objetivo es tratar de ajustar la frecuencia de la palabra en cada documento considerando que tan frecuente es dentro del corpus (dispersión). Dispersión justamente se refiere a que tan equitativamente las palabras están distribuidas entre los diferentes documentos del texto.

Este método considera que:

 - Cuanto más frecuente es una palabra en el corpus (más dispersa), más general es su significado.
 - Cuanto más centralizada está el uso de una palabra dentro de todo el corpus (baja dispersión), más probable es que la palabra represente un tópico puntual.

Para calcular el peso de cada palabra debemos obtener:

 - **TF:** La frecuencia del termino en el corpus.
 
 $$TF = \frac {freq(w_i)} {len(doc)} $$
 
 - **IDF:** La frecuencia (inversa) del termino en el documento.

$$IDF = 1 + log(\frac {len(corpus)} {freq(w_i, corpus)}) $$

Finalmente, `tfidf` se computa como la multiplicación de los dos terminos. Adicionalmente, se normaliza usando `L2`, es decir, la norma euclidiana. `L2` reducirá el tamaño de todos los pesos pero los hará 0. Si bien es menos eficiente en terminos de memoria, puede ser útil si queremos/necesitamos retener todos los parámetros.

$$
    \textit{TF-IDF}_{normalized} = \frac{tf \times idf}{\sqrt{(tf\times idf)^2}}
$$

Veamos como aplicarlo:

In [26]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(corpus)

In [29]:
vectors = vectors.todense()
vectors.shape

(4, 20)

> Notemos que cambiar la forma de vectorización en estos casos no cambia la longitud de nuestros vectores (que siempre está dada por la dimensionalidad del vocabulario, en este caso 6729). Solo cambia los valores numericos que se asignan en los vectores.

In [30]:
vocab = vectorizer.get_feature_names()
pd.DataFrame(np.round(vectors, 2), columns=vocab)

Unnamed: 0,agua,común,congela,cuatro,de,del,el,en,es,estado,estados,grados,hielo,los,naturales,nombre,pura,se,sólido,uno
0,0.29,0.0,0.0,0.0,0.0,0.0,0.29,0.44,0.36,0.44,0.0,0.0,0.36,0.0,0.0,0.0,0.0,0.0,0.44,0.0
1,0.18,0.0,0.0,0.35,0.35,0.28,0.18,0.0,0.23,0.0,0.35,0.0,0.23,0.35,0.35,0.0,0.0,0.0,0.0,0.35
2,0.24,0.0,0.47,0.0,0.0,0.0,0.24,0.0,0.0,0.0,0.0,0.47,0.0,0.0,0.0,0.0,0.47,0.47,0.0,0.0
3,0.2,0.39,0.0,0.0,0.0,0.31,0.4,0.31,0.25,0.31,0.0,0.0,0.25,0.0,0.0,0.39,0.0,0.0,0.31,0.0


## Dense encoding (embeddings)

Quizás el mayor salto conceptual al pasar de modelos lineales (que utilizan matrices dispersas) a modelos de aprendizaje profundo no lineales es dejar de representar cada característica (feature) como una única dimensión que depende del tamaño del vocabulario y representarlos como vectores densos. Es decir, cada característica está **embebida**
en un espacio dimensional d, y se representa como un vector en ese espacio. La dimensión d es usualmente mucho más pequeña que el tamaño del vocabulario (codificado como vectores unidimensionales). En general, estos vectores adquieren dimensiones de 100-300 dimensiones. Estos *embeddings* (la representación vectorial de cada una de las palabras) se incorporan como parámetros de modelos neuronales (generalmente).

> Abordaremos este tema en el próximo capítulo.