# Word Embeddings

## ¬øC√≥mo representamos palabras, oraciones y significados en NLP?

## ¬øQu√© es una palabra?


![](img/words.png)

Cuando hablamos de palabras, podemos distinguir dos conceptos diferentes:

- **ocurrencia** (*token*) se refiere a una observaci√≥n de una palabra en una cadena de texto. 

    Como hemos visto, en algunas lenguas es m√°s o menos complejo identificar los l√≠mites de las palabras, pero en la mayor√≠a de las lenguas occidentales y de nuestro entorno se utilizan espacios y otros signos de puntuaci√≥n para delimitar las palabras.

- **tipo** (*type*) es la representaci√≥n abstracta de una palabra. Cad **ocurrencia** pertenece a un **tipo** de palabra. Cuando contamos la frecuencia de las palabras de un *corpus* o colecci√≥n de textos, lo que hacemos es contar el n√∫mero de ocurrencias que tiene cada tipo.

In [7]:
from nltk import word_tokenize

texts = [
    """No hubo sorpresa en Bruselas. 621 votos a favor, 49 en contra (los 'remainers' brit√°nicos entre ellos) y 13 abstenciones.""",
    """MEPs ratified the Brexit Withdrawal Agreement by 621 votes to 49 following an emotional debate in Brussels.""",
    """Áí∞Â§™Âπ≥Ê¥ãÈÄ†Â±±Â∏Ø„Å´Â±û„Åô„ÇãÂ∞è„Çπ„É≥„ÉÄÂàóÂ≥∂„ÅÆË•øÁ´Ø„Å´‰ΩçÁΩÆ„Åó„Å¶„ÅÑ„Çã„ÄÇ"""
]

for text in texts:
    print(word_tokenize(text))

['No', 'hubo', 'sorpresa', 'en', 'Bruselas', '.', '621', 'votos', 'a', 'favor', ',', '49', 'en', 'contra', '(', 'los', "'remainers", "'", 'brit√°nicos', 'entre', 'ellos', ')', 'y', '13', 'abstenciones', '.']
['MEPs', 'ratified', 'the', 'Brexit', 'Withdrawal', 'Agreement', 'by', '621', 'votes', 'to', '49', 'following', 'an', 'emotional', 'debate', 'in', 'Brussels', '.']
['Áí∞Â§™Âπ≥Ê¥ãÈÄ†Â±±Â∏Ø„Å´Â±û„Åô„ÇãÂ∞è„Çπ„É≥„ÉÄÂàóÂ≥∂„ÅÆË•øÁ´Ø„Å´‰ΩçÁΩÆ„Åó„Å¶„ÅÑ„Çã„ÄÇ']


In [8]:
tweets = [
    """üéâ¬°#SORTEO! Gana una tostadora YummyToast Double. üéÅ 
‚ñ™Ô∏èS√≠guenos. 
‚ñ™Ô∏èComenta mencionando a 2 amigos junto a #Cecotec.
Tienes hasta el 9 de febrero para participar. El regalo se sortear√° aleatoriamente entre los participantes. ¬°Mucha suerte!.""",
    """we play for y‚Äôall üèÄ‚ÄºÔ∏èüñ§ https://t.co/sd12vW93 #MambaMentality"""
]

for tweet in tweets:
    print(word_tokenize(tweet))

['üéâ¬°', '#', 'SORTEO', '!', 'Gana', 'una', 'tostadora', 'YummyToast', 'Double', '.', 'üéÅ', '‚ñ™Ô∏èS√≠guenos', '.', '‚ñ™Ô∏èComenta', 'mencionando', 'a', '2', 'amigos', 'junto', 'a', '#', 'Cecotec', '.', 'Tienes', 'hasta', 'el', '9', 'de', 'febrero', 'para', 'participar', '.', 'El', 'regalo', 'se', 'sortear√°', 'aleatoriamente', 'entre', 'los', 'participantes', '.', '¬°Mucha', 'suerte', '!', '.']
['we', 'play', 'for', 'y', '‚Äô', 'all', 'üèÄ‚ÄºÔ∏èüñ§', 'https', ':', '//t.co/sd12vW93', '#', 'MambaMentality']


In [10]:
from nltk.tokenize import TweetTokenizer

tokenizer = TweetTokenizer()

for text in texts:
    print(tokenizer.tokenize(text))
    
for tweet in tweets:
    print(tokenizer.tokenize(tweet))

['No', 'hubo', 'sorpresa', 'en', 'Bruselas', '.', '621', 'votos', 'a', 'favor', ',', '49', 'en', 'contra', '(', 'los', "'", 'remainers', "'", 'brit√°nicos', 'entre', 'ellos', ')', 'y', '13', 'abstenciones', '.']
['MEPs', 'ratified', 'the', 'Brexit', 'Withdrawal', 'Agreement', 'by', '621', 'votes', 'to', '49', 'following', 'an', 'emotional', 'debate', 'in', 'Brussels', '.']
['Áí∞Â§™Âπ≥Ê¥ãÈÄ†Â±±Â∏Ø„Å´Â±û„Åô„ÇãÂ∞è„Çπ„É≥„ÉÄÂàóÂ≥∂„ÅÆË•øÁ´Ø„Å´‰ΩçÁΩÆ„Åó„Å¶„ÅÑ„Çã', '„ÄÇ']
['üéâ', '¬°', '#SORTEO', '!', 'Gana', 'una', 'tostadora', 'YummyToast', 'Double', '.', 'üéÅ', '‚ñ™', 'Ô∏è', 'S√≠guenos', '.', '‚ñ™', 'Ô∏è', 'Comenta', 'mencionando', 'a', '2', 'amigos', 'junto', 'a', '#Cecotec', '.', 'Tienes', 'hasta', 'el', '9', 'de', 'febrero', 'para', 'participar', '.', 'El', 'regalo', 'se', 'sortear√°', 'aleatoriamente', 'entre', 'los', 'participantes', '.', '¬°', 'Mucha', 'suerte', '!', '.']
['we', 'play', 'for', 'y', '‚Äô', 'all', 'üèÄ', '‚Äº', 'Ô∏è', 'üñ§', 'https://t.co/sd12vW93', '#MambaMentality

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")

for text in texts + tweets:
    doc = nlp(text)
    tokens = [token.text for token in doc]
    print(tokens)

## Palabras como elementos discretos

La manera m√°s sencilla de representar palabras es como una secuencia ordenada de caracteres.

Comprobar si dos palabras son id√©nticas es lento :-(
Las palabras tambi√©n se pueden tener una representaci√≥n discreta si usamos n√∫meros enteros arbitrarios como identificadores √∫nicos.
Todas las palabras ocupan lo mismo :-)
Comprobar si dos palabras son iguales es rapid√≠simo :-)
Estos identificadores no significan nada :-(
No hay manera de relacionar palabras similares atendiendo a su identificador :-(


> ‚ÄúYou shall know a word by the company it keeps.‚Äù
> ‚Äî John R. Firth (1957)
>
>‚ÄúThe meaning of a word is its use in the language (‚Ä¶) One cannot guess how a word functions. One has to look at its use, and learn from that.‚Äù
>‚Äî Ludwig Wittgenstein (1953)


The fact that we can analyze the use of words in language to deduce their meaning is a fundamental idea of distributional semantics called the ‚Äúdistributional hypothesis‚Äù. This is the inspiration behind many algorithms for learning numerical representations of words (also called word embeddings).

Dos posibles definiciones de palabra:
caso (token): cada una de las observaciones de una palabra en un texto.
tipo (type): la palabra en abstracto. 