# Word Embeddings Playground

<div align="center">
![](https://cnet1.cbsistatic.com/img/Dhbs5P8xdv7rZSgZaKA1G7CgcnI=/970x0/2018/06/12/9254724c-44b8-4100-bce5-0898a8136a3c/nintendoswitch-fortnite-e3screenshot-2.png)
</div>

> **¿Qué podemos hacer sólo con word embeddings?**

In [0]:
import numpy as np
from tqdm import tqdm
import json
import io

from sklearn.metrics.pairwise import cosine_similarity

## Load embeddings

In [0]:
def loadGloveModel(gloveFile):
    f = gloveFile.split('\n')
    model = {}
    for line in tqdm(f):
        splitLine = line.split()
        word = splitLine[0]
        embedding = np.array([float(val) for val in splitLine[1:]])
        print(word, embedding.shape)
        model[word] = embedding
    print ("Done.",len(model)," words loaded!")
    return model

In [0]:
# cargar pre-trained embeddings
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))



In [0]:
glove = uploaded['glove.6B.50d.txt']
glove = io.StringIO(glove.decode('utf-8')).getvalue()

model = loadGloveModel(glove)

## Preparar Matrices

## Operations with word embeddings

Si tenemos vectores... que podemos hacer?

### Sumar vectores

![](http://hyperphysics.phy-astr.gsu.edu/hbase/imgmec/vec1.gif)

### Restar vectores

![](https://images.tutorvista.com/cms/images/113/head-to-tail-method.png)

### Calcular distancias

![](https://image.slidesharecdn.com/semanticimagesegmentatationusingwordembeddings-171106095230/95/oles-petriv-semantic-image-segmentation-using-word-embeddings-27-638.jpg?cb=1509964282)

## Si lo vemos como word vectores en lugar de A's y B's

![embedding.png](https://i.stack.imgur.com/V43vF.png)

### Calcular Similitudes

## Analogías

Que son las analogías? Visto en palabras comunes.

A es a B lo que C es a D.

Matematicamente?

D = B - A + C 

![](https://www.buzzle.com/img/articleImages/536114-22816-24.jpg =400x)

### Usaremos Capitales para el ejemplo

In [0]:
uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

In [0]:
capitals = uploaded['global_capitals.json']

capitals = json.loads(capitals)

In [0]:
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

### Visualización con T-SNE

T-SNE (t-distributed stochastic neighbor embedding) es un algoritmo que nos permite visualizar datos con muchas dimensiones, como es nuestro caso (50-300 dimensiones), y reducir estas dimensiones a 2-3. Esto os puede recordar a algoritmos como PCA, pero la gran diferencia entre PCA (alike) algoritmos y t-SNE, es que este último intenta preservar las distancias que hay en dimensiones más grandes y que queden patentes en 2 o 3 dimensiones.

Para clarificar un poco, el objetivo es el siguiente. Si tenemos una matriz de por ejemplo (5000, 300) obtener una matriz de (5000,2) en la que esos vectores que tenian distancias muy grandes en la original, mantengan al máximo posible esa distáncia en 2d.

Os dejo un par de links para los que quieran profundizar sobre el tema:

* [t-SNE](https://distill.pub/2016/misread-tsne/)
* [Vídeo Corto sobre porque t-SNE](https://www.youtube.com/watch?v=p3wFE85dAyY)

In [0]:
numeros = [str(i) for i in range(10)]
escritos = ['zero', 'one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine']
months = ['january', 'february', 'march', 'april', 'may','june', 'july', 'august', 'september', 'october', 'november', 'december']
various = numeros+escritos+months

### Que palabra no forma parte de un grupo?

Con word embeddings tambien podemos ver palabras que no nos "cuadren" con el resto del texto.

# Word Embeddings as spellchecker (Opcional)

## Bias and Fairness in Word Embeddings

Uno de los problemas actuales más presentes en el uso de técnicas que aprenden de datos de internet, es alto sesgo que nos podemos encontrar en los modelos que aprendemos.

<div align="centre">
    ![](https://abhishek-tiwari.com/assets/images/Gender-biases-in-word-embeddings.png)
</div>

Os dejo este [artículo](https://retina.elpais.com/retina/2017/05/12/tendencias/1494612619_910023.html) que se publicó en El País al respecto.

Aquí tenéis otro [ejemplo](https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist) Un chatbot que se entrenaba con lo que iba leyendo de twitter, y en menos de 24 horas pasó de ser amable, a en fin... leed vosotros mismos.

Estamos empezando a trabajar en como intentar que no haya sesgo en nuestros datos, pero aún es pronto. 

En NLP, tenéis que tener mucho cuidado, sobretodo si aplicáis NLP a *social media* de que vuestros datos esten lo más *limpios* y menos sesgados posibles.

![](https://temboo.files.wordpress.com/2017/07/garbageingarbageout1.png?w=515&h=221). 