# Text Representation
## BoW and n-grams

Empezaremos por la representación más clave en NLP, que es la Bolsa de palabras.

La bolsa de palabras es extremadamente fácil de crear y extremadamente usada como input vector en muchísimos algoritmos de lenguaje. Nos permitirá recuperar numpy y ver la primera interacción con sklearn.

## ¿En qué consiste?

Consiste en representar un input textual como un vector. ¿Qué valor tendrá cada casilla de un vector? Fácil, primero generaremos un vocabulario de nuestro train data. Luego, asignaremos un entero a cada palabra y ese entero será el índice de este vector. Finalmente, por cada frase, asignaremos en cada posición del vector el número de veces que aparece en frases.

![](https://i.imgur.com/EPG2zSK.jpg)

Vamos a ello paso a paso.

### ¿Usaremos todas las palabras?

No siempre. Ver stop-words.

¿Alguna cosilla más en el vocabulary? UNK, PAD tokens.

{'muy': 10, 'tienen': 9, 'el': 13, 'mucho': 21, 'frases': 19, 'que': 23, 'en': 1, 'emacs.': 24, 'english': 3, 'vs': 26, 'esta': 5, 'frase': 0, 'no': 6, 'documentos': 8, 'de': 18, 'conjunto': 17, 'sentence': 4, 'castellano': 2, 'estos': 7, 'mejor': 22, 'documento': 14, 'spaces': 27, 'Vim': 20, 'es': 15, 'tabs': 25, 'un': 16, 'sentido': 12, 'poco': 11}


## Introducción de numpy en el curso.


In [0]:
import numpy as np

Ahora que ya hemos visto lo rápido que es preparar un modelo de Bolsa de palabras, habría que hacer un pequeno análisis de los problemas que puede tener.

Ver Bow Issues en OneNote.

¿Cuán grande puede ser un vocabulario?

El español tiene 100.000 palabras aproximadamente, sin contar con conjugaciones verbales.

<div align="center">
![](https://i.imgur.com/a29W4JC.png)
</div>

# N-grams

Una de las posibles soluciones al modelo de Bolsa de Palabras es una ampliación bastante natural. En lugar de coger palabras sueltas, cogemos n-palabras consecutivas. A esto lo denominamos n-grams.

Los bigrams, y trigrams son modelos de features bastante usados, hasta 5-grams, y no son de uso exclusivo. Es decir, podemos concatenar el input de una frase usando [unigram_vector, bigram_vector, trigram_vector].

p.e.:

> ¿Qué puedo hacer?

> Me dijo que quería hacer algo.

En un problema de clasificación, quizás es importante saber órdenes, aunque sean parciales.

La siguiente quote proviene de Google, cuando hicieron una release de los n-grams que calcularon en la web.

> 
We processed 1,024,908,267,229 words of running text and are publishing the counts for all 1,176,470,663 five-word sequences that appear at least 40 times. There are 13,588,391 unique words, after discarding words that appear less than 200 times.



Ahora veremos como se implementa un simple modelo de n-grams.

En este punto ya tenemos unas features básicas para poder realizar tareas de clasificación de textos con un clasificador como bayes.

Solo nos quedaría mapear esto a un numpy array. En estos ejemplos todo es magnífico. Pero, ¿y en la realidad? ¡Vectores enormes! ¡Explosión de features! ¿Qué pasa con los vocabularios muy extensos?

In [0]:
print('Hay', len(docs), 'frases')
print('Hemos generado', len(feature_map), 'features')
print('Solo teniamos', len(set([token for doc in docs for token in doc.split(' ')])), 'palabras unicas')
print('Comprobacion con ngrams', len(ngrams[1])-2, 'quitando <SOS> y <EOS>')

Hay 9 frases
Hemos generado 82 features
Solo teniamos 30 palabras unicas
Comprobacion con ngrams 30 quitando <SOS> y <EOS>


Se generan vectores enormes con muchos 0 y pocos 1. Más adelante veremos cómo dejar de tener vectores tan grandes. Hay dos tipos de representación en vectores: sparse, que es la que tenemos aquí, y dense, que la veremos en PCA/SVD o word embeddings.  

 <div><font color="red">

NLP tiene un gran problema que acabamos de ver. El vocabulario es ~infinito.</font>

El vocabulario se puede generar vocabulario usando tu train data, tambien se puede generar vocabulario con las palabras más usadas en un idioma. Es complicadísimo generar un vocabulario general para una tarea que contenga NLP.
</div>

De hecho, a lo largo de las sesiones, veremos que pasa con todas aquellas palabras Out Of Vocabulary (OOV). Es importante que tengamos en cuenta que esto nos va a ocurrir, y como modelamos nuestros problemas para que su afectación sea mínima, o nos permita generalizar de forma óptima.


 *Es MUY importante en nuestros pipelines de NLP intentar controlar el vocabulario de alguna manera.*

Hay varias maneras de hacerlo e iremos viendolas a lo largo de las sesiones. Ya hemos visto una (distancia de edición) para intentar corregir errores ortográficos. En problemas de clasificación con metodos de representación más clásicos, usaremos smoothing. En deep learning hay la tendencia de "unkificarlo todo", es decir todos aquellos tokens que desconocemos, tratarlos con un token especial < UNK >

A continuación veremos lo mismo de antes con la libreria sklearn, muy recomendable tirar de ella tanto para feature extraction como para clasificación.

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

Es muy fácil de usar, bastante eficiente y 100% integrable con otras librerías, ya que devuelve numpy arrays, que son la base para muchas otras librerías.

En caso de que el vocabulario sea muy grande, en lugar de utilizar CountVectorizer usaríamos http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html#sklearn.feature_extraction.text.HashingVectorizer .

Es más eficiente a nivel de memoria, pero con el drawback de que no podríamos sacar el inverso de las features que calcula. De todas formas, pronto veremos que los one hot vectors se usan cada vez menos. 

Normalmente, todos estas funciones como el CountVectorizer, o cualquier algoritmo que queramos implementar, debería permitir-nos poder usar tanto palabras, como carácteres como features. Aquí ya podemos verlo, y lo veremos mucho mejor en la siguiente sesión!