# Word Embeddings

## ¬øC√≥mo representamos palabras, oraciones y significados en NLP?

## ¬øQu√© es una palabra?


![](../img/words.png)

Cuando hablamos de palabras, podemos distinguir dos conceptos diferentes:

- **ocurrencia** (*token*) se refiere a una observaci√≥n de una palabra en una cadena de texto. 

    Como hemos visto, en algunas lenguas es m√°s o menos complejo identificar los l√≠mites de las palabras, pero en la mayor√≠a de las lenguas occidentales y de nuestro entorno se utilizan espacios y otros signos de puntuaci√≥n para delimitar las palabras.

- **tipo** (*type*) es la representaci√≥n abstracta de una palabra. Cad **ocurrencia** pertenece a un **tipo** de palabra. Cuando contamos la frecuencia de las palabras de un *corpus* o colecci√≥n de textos, lo que hacemos es contar el n√∫mero de ocurrencias que tiene cada tipo.

In [1]:
from nltk import word_tokenize

texts = [
    """No hubo sorpresa en Bruselas. 621 votos a favor, 49 en contra (los 'remainers' brit√°nicos entre ellos) y 13 abstenciones.""",
    """'The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced "no evidence" that any irregularities took place.'""",
    """Áí∞Â§™Âπ≥Ê¥ãÈÄ†Â±±Â∏Ø„Å´Â±û„Åô„ÇãÂ∞è„Çπ„É≥„ÉÄÂàóÂ≥∂„ÅÆË•øÁ´Ø„Å´‰ΩçÁΩÆ„Åó„Å¶„ÅÑ„Çã„ÄÇ""",
]

for text in texts:
    print(word_tokenize(text))

['No', 'hubo', 'sorpresa', 'en', 'Bruselas', '.', '621', 'votos', 'a', 'favor', ',', '49', 'en', 'contra', '(', 'los', "'remainers", "'", 'brit√°nicos', 'entre', 'ellos', ')', 'y', '13', 'abstenciones', '.']
["'The", 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', 'Atlanta', "'s", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.', "'"]
['Áí∞Â§™Âπ≥Ê¥ãÈÄ†Â±±Â∏Ø„Å´Â±û„Åô„ÇãÂ∞è„Çπ„É≥„ÉÄÂàóÂ≥∂„ÅÆË•øÁ´Ø„Å´‰ΩçÁΩÆ„Åó„Å¶„ÅÑ„Çã„ÄÇ']


In [2]:
tweets = [
    """üéâ¬°#SORTEO! Gana una tostadora YummyToast Double. üéÅ 
‚ñ™Ô∏èS√≠guenos. 
‚ñ™Ô∏èComenta mencionando a 2 amigos junto a #Cecotec.
Tienes hasta el 9 de febrero para participar. El regalo se sortear√° aleatoriamente entre los participantes. ¬°Mucha suerte!.""",
    """we play for y‚Äôall üèÄ‚ÄºÔ∏èüñ§ https://t.co/sd12vW93 #MambaMentality""",
]

for tweet in tweets:
    print(word_tokenize(tweet))

['üéâ¬°', '#', 'SORTEO', '!', 'Gana', 'una', 'tostadora', 'YummyToast', 'Double', '.', 'üéÅ', '‚ñ™Ô∏èS√≠guenos', '.', '‚ñ™Ô∏èComenta', 'mencionando', 'a', '2', 'amigos', 'junto', 'a', '#', 'Cecotec', '.', 'Tienes', 'hasta', 'el', '9', 'de', 'febrero', 'para', 'participar', '.', 'El', 'regalo', 'se', 'sortear√°', 'aleatoriamente', 'entre', 'los', 'participantes', '.', '¬°Mucha', 'suerte', '!', '.']
['we', 'play', 'for', 'y', '‚Äô', 'all', 'üèÄ‚ÄºÔ∏èüñ§', 'https', ':', '//t.co/sd12vW93', '#', 'MambaMentality']


In [3]:
from nltk.tokenize import TweetTokenizer

tokenizer = TweetTokenizer()

for text in texts:
    print(tokenizer.tokenize(text))

for tweet in tweets:
    print(tokenizer.tokenize(tweet))

['No', 'hubo', 'sorpresa', 'en', 'Bruselas', '.', '621', 'votos', 'a', 'favor', ',', '49', 'en', 'contra', '(', 'los', "'", 'remainers', "'", 'brit√°nicos', 'entre', 'ellos', ')', 'y', '13', 'abstenciones', '.']
["'", 'The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '"', 'no', 'evidence', '"', 'that', 'any', 'irregularities', 'took', 'place', '.', "'"]
['Áí∞Â§™Âπ≥Ê¥ãÈÄ†Â±±Â∏Ø„Å´Â±û„Åô„ÇãÂ∞è„Çπ„É≥„ÉÄÂàóÂ≥∂„ÅÆË•øÁ´Ø„Å´‰ΩçÁΩÆ„Åó„Å¶„ÅÑ„Çã', '„ÄÇ']
['üéâ', '¬°', '#SORTEO', '!', 'Gana', 'una', 'tostadora', 'YummyToast', 'Double', '.', 'üéÅ', '‚ñ™', 'Ô∏è', 'S√≠guenos', '.', '‚ñ™', 'Ô∏è', 'Comenta', 'mencionando', 'a', '2', 'amigos', 'junto', 'a', '#Cecotec', '.', 'Tienes', 'hasta', 'el', '9', 'de', 'febrero', 'para', 'participar', '.', 'El', 'regalo', 'se', 'sortear√°', 'aleatoriamente', 'entre', 'los', 'participantes', '.', '¬°', 'Mucha', 'suerte', '!', '.']
['we', 'play', 'for', 'y', '‚Äô',

In [4]:
import spacy

nlp = spacy.load("en_core_web_md")

def tokenize(text):
    doc = nlp(text)
    return [token.text for token in doc]

In [5]:
for text in texts + tweets:
    print(tokenize(text))

['No', 'hubo', 'sorpresa', 'en', 'Bruselas', '.', '621', 'votos', 'a', 'favor', ',', '49', 'en', 'contra', '(', 'los', "'", 'remainers', "'", 'brit√°nicos', 'entre', 'ellos', ')', 'y', '13', 'abstenciones', '.']
["'", 'The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', 'Atlanta', "'s", 'recent', 'primary', 'election', 'produced', '"', 'no', 'evidence', '"', 'that', 'any', 'irregularities', 'took', 'place', '.', "'"]
['Áí∞Â§™Âπ≥Ê¥ãÈÄ†Â±±Â∏Ø„Å´Â±û„Åô„ÇãÂ∞è„Çπ„É≥„ÉÄÂàóÂ≥∂„ÅÆË•øÁ´Ø„Å´‰ΩçÁΩÆ„Åó„Å¶„ÅÑ„Çã', '„ÄÇ']
['üéâ', '¬°', '#', 'SORTEO', '!', 'Gana', 'una', 'tostadora', 'YummyToast', 'Double', '.', 'üéÅ', '\n', '‚ñ™', 'Ô∏èS√≠guenos', '.', '\n', '‚ñ™', 'Ô∏èComenta', 'mencionando', 'a', '2', 'amigos', 'junto', 'a', '#', 'Cecotec', '.', '\n', 'Tienes', 'hasta', 'el', '9', 'de', 'febrero', 'para', 'participar', '.', 'El', 'regalo', 'se', 'sortear√°', 'aleatoriamente', 'entre', 'los', 'participantes', '.', '¬°', 'Mucha', 'suerte!.']
['we', 'play', 'for

Veamos qu√© tipo de tokenizaci√≥n se prefiere cuando son humanos los que segmentan las palabras: el [corpus de Brown](https://en.wikipedia.org/wiki/Brown_Corpus) en ingl√©s, o [Ancora](http://clic.ub.edu/corpus/es) en espa√±ol.

In [6]:
from nltk.corpus import brown

brown_sents = brown.tagged_sents(categories="news")
for sentence in brown_sents[:3]:
    print([token for token, _tag in sentence])

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.']
['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.']
['The', 'September-October', 'term', 'jury', 'had', 'been', 'charged', 'by', 'Fulton', 'Superior', 'Court', 'Judge', 'Durwood', 'Pye', 'to', 'investigate', 'reports', 'of', 'possible', '``', 'irregularities', "''", 'in', 'the', 'hard-fought', 'primary', 'which', 'was', 'won', 'by', 'Mayor-nominate', 'Ivan', 'Allen', 'Jr.', '.']


In [7]:
from nltk.corpus import cess_esp

ancora_sents = cess_esp.tagged_sents()
for sentence in ancora_sents[:3]:
    print([token for token, _tag in sentence])

['El', 'grupo', 'estatal', 'Electricit√©_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunci√≥', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_√Åguila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japon√©s', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.']
['Una', 'portavoz', 'de', 'EDF', 'explic√≥', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcci√≥n', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prev√©', 'la', 'utilizaci√≥n', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.']
['La', 'electricidad', 'producida', 'pasar√°', 'a', 'la', 'red', 'el√©ctrica', 'p√∫blica', 'de', 'M√©xico', 'en_virtud_de', 'un', 'acuerdo', 'de', 'venta', 'de', 'energ√≠a', 'de', 'EAA', 'con', 'la', 

## Representaciones discretas: Cadenas o N√∫meros enteros

A partir de aqu√≠ vamos a asumir que tenemos solucionado el proceso de tokenizaci√≥n e identificaci√≥n de lo que es una palabra. ¬øC√≥mo continuamos?

La manera m√°s sencilla de representar una palabra es como una cadena, es decir, como una secuencia ordenada de caracteres. Esto es c√≥modo, pero implica dos cosas:

- La cantidad de memoria que ocupa cada cada palabra var√≠a en funci√≥n de la longitud :-/

- Comprobar si dos palabras son id√©nticas es un proceso lento :-(

Otra opci√≥n alternativa consiste en representar las palabras como n√∫meros enteros, de manera que a cada palabra se le asigna de manera m√°s o menos arbitraria un n√∫mero entero positivo.

![](../img/words-indexes.jpg)

In [8]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

tweets_tokens = []
tweets_tokens.extend([tokenize(tweet) for tweet in tweets][0])
print(tweets_tokens)

['üéâ', '¬°', '#', 'SORTEO', '!', 'Gana', 'una', 'tostadora', 'YummyToast', 'Double', '.', 'üéÅ', '\n', '‚ñ™', 'Ô∏èS√≠guenos', '.', '\n', '‚ñ™', 'Ô∏èComenta', 'mencionando', 'a', '2', 'amigos', 'junto', 'a', '#', 'Cecotec', '.', '\n', 'Tienes', 'hasta', 'el', '9', 'de', 'febrero', 'para', 'participar', '.', 'El', 'regalo', 'se', 'sortear√°', 'aleatoriamente', 'entre', 'los', 'participantes', '.', '¬°', 'Mucha', 'suerte!.']


In [9]:
label_encoder = LabelEncoder()

tokens_int = label_encoder.fit_transform(tweets_tokens)

token2int = dict(zip(tweets_tokens, tokens_int))
print(token2int)

{'üéâ': 39, '¬°': 34, '#': 2, 'SORTEO': 11, '!': 1, 'Gana': 9, 'una': 33, 'tostadora': 32, 'YummyToast': 13, 'Double': 7, '.': 3, 'üéÅ': 38, '\n': 0, '‚ñ™': 35, 'Ô∏èS√≠guenos': 37, 'Ô∏èComenta': 36, 'mencionando': 24, 'a': 14, '2': 4, 'amigos': 16, 'junto': 22, 'Cecotec': 6, 'Tienes': 12, 'hasta': 21, 'el': 18, '9': 5, 'de': 17, 'febrero': 20, 'para': 25, 'participar': 27, 'El': 8, 'regalo': 28, 'se': 29, 'sortear√°': 30, 'aleatoriamente': 15, 'entre': 19, 'los': 23, 'participantes': 26, 'Mucha': 10, 'suerte!.': 31}


Este tipo de representaci√≥n se caracteriza porque:

- Todos las palabras ocupan la cantidad de memoria.

- Comprobar si dos cadenas son la misma palabra es r√°pido :-)

- Estos identificadores arbitrarios no significan nada :-(

- No hay manera de relacionar palabras similares atendiendo a su identificador :-(

## Palabras como Vectores *one hot*

Cuando tenemos un mapeo como el anterior entre palabras y enteros, podemos representar cada palabra como un vector *one hot* de $n$ dimensiones, donde $n$ es el tama√±o de vocabulario que manejamos. Estos vectores contendr√°n $0$ en todas sus dimensiones excepto en la posici√≥n que coincida con el √≠ndice de la palabra en el vocabulario, que contendr√° un $1$.

![](../img/one-hot-vectors.png)

In [10]:
onehot_encoder = OneHotEncoder(sparse=False)

tokens_int = tokens_int.reshape(len(tokens_int), 1)
onehot_tokens = onehot_encoder.fit_transform(tokens_int)

print(onehot_tokens)

print(onehot_tokens[token2int["aleatoriamente"]])

[[0. 0. 0. ... 0. 0. 1.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [11]:
from keras.utils import to_categorical

onehot_tokens = to_categorical(tokens_int)

print(onehot_tokens)
print(onehot_tokens[token2int["aleatoriamente"]])

Using TensorFlow backend.


[[0. 0. 0. ... 0. 0. 1.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


Esta representaci√≥n en realidad no es muy diferente de la de representar palabras como enteros. Y aunque es muy √∫til en otros contextos, como cuando queremos codificar datos categ√≥ricos, aqu√≠ nos enfrentamos a un problema de dispersi√≥n y de espacio requerido para almacenar un vocabulario entero.

El inconveniente m√°s grave de este tipo de representaci√≥n es la falta de **similitud**. Es imposible detectar dos palabras con significados relacionados. 

De hecho, una t√©cnica habitual para medir la similitud entre dos vectores es calcular el **producto escalar**. Como cualquier par de vectores de este tipo son ortogonales, cualquier producto da como resultado $0$.

Vectorizar colecciones de documentos es una pr√°ctica habitual. Veamos un ejemplo:

In [12]:
import numpy as np

from sklearn.datasets import fetch_20newsgroups

categories = ["comp.windows.x", "rec.sport.baseball", "sci.space", "talk.religion.misc"]
remove = ("headers", "footers", "quotes")

newsgroups_train = fetch_20newsgroups(
    subset="train", categories=categories, remove=remove
)

newsgroups_train.filenames.shape

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


(2160,)

In [13]:
for doc in newsgroups_train.data[:3]:
    print(doc[:300])
    print("-" * 100)

for doc in newsgroups_train.data[-3:]:
    print(doc[:300])
    print("-" * 100)






We have no way of knowing because we cannot separate Morris' contribu-
tion  from the rest of the team's.  There is only one way of determin-
ing "best" in baseball.  And that is by looking at the  scoreboard  at
the  end  of  the game.  Each game determines which *team* is the best
that day.  
----------------------------------------------------------------------------------------------------
Actually Alomar is a two-time gold-glover (91-92).

----------------------------------------------------------------------------------------------------
Kent: With all due respect, how can I take you seriously, when you have
the NAMES wrong in the 1st place? E.g.:


	There is no such thing. The correct name is Ancient & Mystical
Order Rosae Crucis, abbreviated AMORC.


	There is no such thing either. It's the Rosicrucian Fellowship.
And they clearly
----------------------------------------------------------------------------------------------------


Dennis, I have worked on or written propo

In [14]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words="english")

vectors = vectorizer.fit_transform(
    newsgroups_train.data
).todense()  # (documentos, vocabulario)

vectors.shape

(2160, 27369)

Hemos convertido la collecci√≥n de documentos en una matriz de datos donde los documentos se representan como vectores de enteros.

![](../img/vectorized-docs.png)

In [15]:
vectors.shape

(2160, 27369)

In [16]:
vocab = np.array(vectorizer.get_feature_names())
vocab.shape

(27369,)

In [17]:
print(vocab[:50])

['00' '000' '0000' '00000' '000000' '00000000' '00000074' '00000093'
 '000000e5' '000005102000' '00000510200001' '00000ee5' '000010af'
 '000062david42' '0001' '0001mpc' '00041032' '0004136' '0004246' '0004422'
 '00044513' '0004847546' '0005' '0007259d' '00072741' '00072840'
 '00072a27' '000773b9' '00077bbe' '00090711' '000th' '0010' '0012' '0018'
 '002' '0020' '0022' '0028' '0029' '0033' '0034' '0040000d' '006' '0060'
 '0065' '0066' '0068' '007' '0075' '0088']


In [18]:
print(vocab[20000:20050])

['reimplementing' 'reincarnate' 'reincarnation' 'reinforced'
 'reinforcement' 'reinforcing' 'reinjure' 'reinserted' 'reinterpret'
 'reinventing' 'reinvoke' 'reiss' 'reissued' 'reiterated' 'reitereate'
 'reject' 'rejected' 'rejecting' 'rejection' 'rejects' 'rejuvenated'
 'rekening' 'rekhabite' 'rekimoto' 'rel' 'rel4' 'relate' 'related'
 'relates' 'relating' 'relation' 'relations' 'relationship'
 'relationships' 'relative' 'relatively' 'relatives' 'relativism'
 'relativistic' 'relativists' 'relativity' 'relax' 'relaxed' 'relaxes'
 'relay' 'relayed' 'relaying' 'relays' 'relearning' 'release']


In [19]:
print(vocab[-50:])

['zeta' 'zeus' 'zeven' 'zhao' 'zhou' 'zia' 'zien' 'zijn' 'zillion'
 'zimbelman' 'zion' 'zip' 'zipping' 'zmacs' 'zmore' 'zo' 'zogeheten' 'zok'
 'zombie' 'zombies' 'zond' 'zone' 'zonker' 'zoo' 'zoology' 'zoom'
 'zooming' 'zooms' 'zorastrian' 'zoro' 'zoroaster' 'zoroastrian'
 'zoroastrianism' 'zoroastrians' 'zpixmap' 'ztivax' 'zubin' 'zuck'
 'zullen' 'zulu' 'zuma' 'zupcic' 'zurbrin' 'zurvanism' 'zwaartepunten'
 'zwak' 'zwakke' 'zware' 'zwarte' 'zzzzzzt']


## Palabras como Vectores Densos

La verdad es que hoy en d√≠a nunca se representamos las palabras como elementos discretos principalmente por un motivo: muchas veces no necesitaremos comprobar no si dos palabras son iguales, como mencion√°bamos antes, pero s√≠ si dos palabras son *similares*. Calcular la **similitud** entre dos pares de palabras/oraciones/documentos es crucial para muchas tareas de NLP.

### ¬øQu√© significa **similitud**?

La idea de similitud implica que dos palabras tienen alg√∫n tipo de relaci√≥n desde el punto de vista del significado, no necesariamente de sinonimia. Que dos palabras sean similares no implica que sean intercambiables en cualquier situaci√≥n, pero s√≠ que suelen aparecer en los mismos contextos.

- Dos adjetivos aparentemente contrarios (p. ej. *blanco* y *negro*) son similares porque se pueden aplicar a los mismos objetos. 
- Un t√©rmino general y otro m√°s espec√≠fico (p. ej. *perro* y *caniche*) son similares tambi√©n. 
- Una parte constitutiva y el todo (p. ej. *dedo* y *mano*) son similares.

Hist√≥ricamente, ha habido distintos intentos de codificar de manera expl√≠cita estas relaciones de similitud a mano. Desde el punto de vista Sem√°ntica, el ejemplo m√°s famoso es [Wordnet](https://wordnet.princeton.edu/), una base de datos l√©xica que almacena palabras, sus significados y las relaciones sem√°nticas que se establecen entre ellas de manera jer√°rquica. En otras partes de la ling√º√≠sitica, como en la Sintaxis, se estudia la estructura del lenguaje y agrupa las palabras similares bajo clases de palabras o categor√≠as como *nombre*, *verbo*, *adjetivo*, etc. 

A partir de cualquiera de estas dos vertientes, o m√°s bien, combinando ambas, podemos llegar a la idea de representar una palabra como un vector. Y podemos elegir la dimensionalidad que mejor se ajuste a nuestros intereses:


- Como hemos visto antes, podemos crear representaciones *one hot*: a cada palabra se le asigna a una dimensi√≥n, de manera que el vector resultante contendr√° un $1$ en esa dimensi√≥n concreta y el resto de palabras tendra un $0$.

- Si tenemos una colecci√≥n de palabras que pertenezcan a una misma categor√≠a (p. ej., verbos, o meses del a√±o), podemos codificar esa pertenencia a la clase asignando un valor binario. 

- Para formas de palabras (variaciones morfol√≥gicas) que pertenecen a la misma palabra podemos reservar una dimensi√≥n concreta y asign√°rsela como clase. De este modo, *canto*, *cantaba*, *cantado*, *cantar√≠a* y el resto de formas del verbo *cantar* tendr√≠an un $1$, mientras que el resto de palabras tendr√≠an un $0$.

- Podemos condificar como dimensiones otras caracter√≠sticas formales como el hecho de contener d√≠gitos, letras may√∫sculas, etc.

- Podemos codificar las propiedades de los objetos a los que hacen referencia las palabras como dimensiones. Pensemos por ejemplo en el peso o la longitud. Para la palabra *elefante* podr√≠amos codificar su peso como $6000$ y el de *hormiga* como $0.002$.

![](../img/manual-features.jpg)

![](../img/simplistic-term-vector-mode.gif)

El t√©rmino t√©cnico para referirse a estas dimensiones es *features*. Estas *features* pueden designarse a mano o pueden derivarse del uso de algoritmos autom√°ticos.  

M√°s rencientemente, se ha desarrollado una tendencia (hasta convertirse en dominante) consistente en extraer este tipo de relaciones de manera autom√°tica, a trav√©s del procesamiento de ingentes colecciones de textos y el an√°lisis de cada palabra en su contexto de aparici√≥n.




## Palabras como vectores distribucionales

> ‚ÄúYou shall know a word by the company it keeps.‚Äù
> ‚Äî John R. Firth (1957)
>
>‚ÄúThe meaning of a word is its use in the language (‚Ä¶) One cannot guess how a word functions. One has to look at its use, and learn from that.‚Äù
>‚Äî Ludwig Wittgenstein (1953)


La idea de que podemos analizar el uso de las palabras para deducir sus significado es una idea fundamental en sem√°ntica distribucional: la hip√≥tesis distribucional. 

## word2vec: Computing continuous distributed representations of words

En 2013, Mikolov propuso [word2vec](https://code.google.com/archive/p/word2vec/), un algoritmo para aprender embeddings de palabras de manera autom√°tica. El proceso consist√≠a en tomar una colecci√≥n de documentos lo suficientemente grande y representativa de una lengua y aplicar una red neuronal con dos posibles objetivos:

1. tratar de predecir el contexto de aparici√≥n a partir de una palabra (**skip-gram**)
2. utilizar el contexto para predecir la palabra en cuesti√≥n (**CBOW**: *continuous bag-of-words*)

El resultado final es que el algoritmo aprende a generar *embeddings* de manera no supervisada (o autosupervisada), mapeos entre palabras y vectores densos de n√∫meros reales que parecen capturar interesantes propiedades ling√º√≠sticas, desde el punto de vista sem√°ntico y tambi√©n morfo-sint√°ctico.

    Par√≠s - France + Espa√±a ‚âà Madrid

    comimos - comer + andar ‚âà anduvimos


## GloVe: Global Vectors for Word Representation

En 2014, Pennington del grupo de NLP de la Universidad de Stanford present√≥ [GloVe](https://nlp.stanford.edu/projects/glove/), otro algoritmo no supervisado para generar representaciones vectoriales de palabras. 

En este caso, el procedimiento consiste en procesar grandes cantidades de muestras de lengua real y extraer relaciones entre palabras atendiendo a la frecuencia con la que cada par de t√©rminos co-ocurren en un corpus. 

## fastText: Enriching Word Vectors with Subword Information

word2vec y GloVe tienen un problema: solo aprenden *embeddings* para las palabras que aparecen de manera expl√≠cita en el corpus utilizado para el entrenamiento y, en consecuencia, no generar representaciones para palabras raras o desconocidas. ¬øQu√© hacemos entonces con las *out-of-vocabulary (OOV) words*?

- se ignoran
- se representan como un vector de ceros
- se representan como el vector promedio del resto de embeddings

fastText (Bojanowski et al., 2016) describe un m√©todo para aprender vectores, no de palabras, sino de n-gramas o secuencias de caracteres sucesivos. El embedding de cada palabra se calcula como la suma de los vectores de todos sus constituyentes.

La principal ventaja es que ahora s√≠ vamos a poder representar erratas y palabras raras. Adem√°s, [est√° disponible en 157 lenguas del mundo](https://fasttext.cc/docs/en/crawl-vectors.html).

## Referencias:


- [An intuitive explanation of word2vec](https://towardsdatascience.com/an-intuitive-explanation-of-word2vec-208bed0a0599)
- [Arithmetic Properties of Word Embeddings](https://medium.com/data-from-the-trenches/arithmetic-properties-of-word-embeddings-e918e3fda2ac)
- [Contextual Word Representations: A Contextual Introduction](https://arxiv.org/abs/1902.06006)
- [Intuition & Use-Cases of Embeddings in NLP & beyond](https://www.youtube.com/watch?v=4-QoMdSqG_I)
- [Using Word2vec for Music Recommendations](https://towardsdatascience.com/using-word2vec-for-music-recommendations-bb9649ac2484)
- [Why do we use word embeddings in NLP?](https://towardsdatascience.com/why-do-we-use-embeddings-in-nlp-2f20e1b632d2)
