# Procesamiento de Lenguaje Natural

### Plan de la charla

#### Temático

* Modelos de embeddings de palabras
* Propiedades de los embeddings
* Traducción no-supervisada
* Traducción supervisada  

#### General

* Un viaje a través de distintas áreas de procesamiento de lenguaje natural y ciencia de datos en general

## Embeddings

* En NLP nos referimos a *embeddings* cuando a cada objeto le asignamos un vector.
* Un objeto puede ser un documento, una frase o una palabra.
* La idea de usar vectores es conseguir alguna propiedad en ese espacio que nos dé información de los objetos;
 + por ejemplo, que $$||\phi(\mathrm{Argentina}) - \phi(\mathrm{Brasil})|| > ||\phi(\mathrm{Argentina}) - \phi(\mathrm{Peretti})||$$
* Generalmente es una tarea no-supervisada.

### Embeddings de palabras  

* En este caso queremos asignarle a cada palabra un vector, de manera que palabras similares en semántica queden cercas en ese espacio.
* Como es una tarea no-supervisada, no tenemos explícitamente una referencia de las palabras similares que queremos que queden juntas.
* Definimos un objetivo parecido entonces: optimizar la predicción del contexto a partir de una palabra.
* Todos los modelos tienen generalmente un hiperparámetro $c$ que es la ventana de palabras a ver.
* Si dos palabras son semánticamente similares, pueden estar en contextos similares, por lo que deberían quedar cerca en el espacio.

### Un modelo sencillo: la matriz de coocurrencias

* Como en esencia queremos codificar los contextos, podemos simplemente tener una matriz cuadrada donde cada fila y columna refiere a una palabra.
* Los elementos de la matriz son la cantidad de coocurrencias de la palabra $i$ con la palabra $j$.
* En definitiva, intentamos predecir la palabra actual en base al contexto (implícitamente).
* El modelo funciona más o menos bien pero la matriz se hace impracticable en *corpus* grandes.

### Otros modelos basados en la matriz de coocurrencias
* Principalmente con el objetivo de reducir el tamaño de la matriz:
 + SVD (LSA)
 + otras factorizaciones (non-negative, etc.)
 + por proyecciones aleatorias

### CBOW y Skip-gram
* La matriz de coocurrencias tiene el objetivo implícito de predecir la palabra a partir del contexto.
* Una forma explícita y reducida de hacer esto es usar el Continuous Bag of Words Model (CBOW)
![CBOW architecture](images/cbow_architecture.png)
* A partir de un *one-hot encoding* por $W$ obtenemos el embedding y luego aplicamos la otra capa de la red (softmax(W*h))
* El objetivo es predecir el one-hot encoding de $w(t)$ a partir de $w(t\pm j)$
* demo: https://ronxin.github.io/wevi/

Si CBOW predice la palabra a partir del contexto, SG predice el contexto a partir de la palabra:
$$ \frac{1}{T} \sum_{t=1}^T \sum_{-c\leq j\leq c, j\neq 0} \log p(w_{t+j}|w_t)$$ 
![CBOW vs Skip Gram](images/cbow_vs_skipgram.png)
* Codifica explícitamente el orden de las palabras.

### FastText

### Representación de los espacios: tSNE

## Propiedades de los embeddings

## Traducción no-supervisada

## Traducción supervisada

## Referencias
[1] Mikolov: Distributed Representations of Words and Phrases and their Compositionality https://arxiv.org/pdf/1310.4546.pdf   
[2] Mikolov: Efficient Estimation of Word Representations in
Vector Space https://arxiv.org/pdf/1301.3781.pdf  
[3] Rong: word2vec Parameter Learning Explained https://arxiv.org/pdf/1411.2738.pdf