# Word Embedding

## Motivación

¿Cómo representar las dimensiones semánticas de cada palabra?

Ejemplo:

1. Quiero una naranja.
2. Quiero una manzana.

Los métodos que toman en cuenta solo la forma de las palabras no tienen la capacidad de calcular que las frases 1 y 2 tienen un sentido "similar". 

Necesitamos una manera de representar que las palabras 'naranja' y 'manzana' comparten caracterícas semánticas comunes.

**Nota bene**

En tratamiento automático del lenguaje, consideramos que el lenguaje tiene distintos componentes.
- __morfológico__ o __fonológico__: es el componente más básico. Se empieza a reconocer las palabras y asociarlas a un significado. Ejemplo: "manzana"
- __semántico__: Se empieza a conceptualizar y crear relaciones entre las palabras. Ejemplo: "una manzana es una fruta", "las frutas se comen".
- __pragmático-discurso__: Es el componente más avanzado. En ese nivel, se conceptualiza que el lenguaje se utiliza en procesos de comunicación complejos. Según el contexto, los interlocutores, la cultura del entorno, las palabras pueden activar significados implicitos. Por ejemplo: "Blancanieve come la manzana", "es un siete", etc.



- Lectura sugerida: Libro "metaforas de la vida cotidiana" https://en.wikipedia.org/wiki/Metaphors_We_Live_By


## Definición de "Word Embedding"

El concepto de **word embedding** se refiere a un conjunto de técnicas utilizadas para aprender representaciones matemáticas de la "semántica" de cada palabra. El objeto matemático que permite representar la semántica de una palabra es el **vector**.

Una de las técnicas más populares es __Word2Vec__ propuesto por un equipo de investigación de Google en 2013 (Efficient Estimation of Word Representations in Vector Space [Mikolov et al., 2013]). Alternativas populares se basan sobre __GloVe__ (propuesta por la Universidad de Stanford en 2014) y __FastText__ (propuesta por Facebook en 2016), que extende Word2Vec para considerar de mejor manera las palabras con errores ortográficas.

- ¿Qué es un vector?  https://es.wikipedia.org/wiki/Vector

Se puede definir un vector por sus coordenadas en un espacio de N dimensiones. Por ejemplo, el vector V1 = (x1, x2, x3, ... xN)

Se puede realizar operaciones sobre vectores: sumar, restar, similitud coseno, etc.
https://es.wikipedia.org/wiki/Similitud_coseno

<img src="./img/word2vec4.png"/>

Habitualmente, en tratamiento automático del lenguaje, se representan las palabras con vectores de 25, 50, 100 o 300 dimensiones.

## Un ejemplo práctico para acercarse al concepto de Word Embedding

La clase <code>word2vec</code> de Gensim permite manejar word embeddings de palabras (ver documentación: https://radimrehurek.com/gensim/models/word2vec.html).

In [2]:
from gensim.models import word2vec

Word2Vec utiliza las arquitecturas de redes neuronales Skip-Gram o CBOW para aprender representaciones vectoriales de palabras en función de su contexto en un corpus de texto.

In [3]:
sentences = word2vec.Text8Corpus('datasets/text8.txt')
model = word2vec.Word2Vec(sentences,vector_size=200,hs=1)

In [4]:
model.save("text8_model") ##genera un archivo

In [5]:
model=word2vec.Word2Vec.load("text8_model")

In [6]:
print(model)

Word2Vec<vocab=71290, vector_size=200, alpha=0.025>


- Ver el vector de palabras específicas. Por ejemplo "computer", "life", etc.

In [7]:
model.wv['life']

array([ 6.07653260e-01, -1.56438529e+00, -1.08088863e+00,  2.17161834e-01,
        6.81927621e-01, -2.60122299e-01, -5.19749045e-01, -5.99244058e-01,
        1.65224302e+00, -6.84705198e-01,  6.58059835e-01, -1.06706846e+00,
       -2.27046028e-01, -4.03746426e-01,  3.32659572e-01,  7.65332103e-01,
       -1.05580330e+00, -8.17251682e-01,  9.43966448e-01,  5.03166199e-01,
       -6.34891748e-01,  8.20288539e-01, -8.83785069e-01, -7.46399105e-01,
       -1.21809280e+00,  2.45828822e-01, -1.82850033e-01,  6.61237657e-01,
        1.71221125e+00,  4.15206552e-01,  6.51890218e-01,  1.84696603e+00,
       -5.18211544e-01,  1.82173550e-01, -8.34528863e-01, -1.92109942e-01,
        5.53222537e-01, -3.08107167e-01,  1.23217396e-01, -1.85594130e+00,
        7.59350240e-01,  3.00168549e-03, -1.10188544e-01,  5.74903011e-01,
        7.16544509e-01,  1.20882833e+00, -6.25590384e-01, -5.17841935e-01,
        5.78932464e-01,  7.68354833e-01,  9.06512499e-01, -7.10546911e-01,
       -3.87420297e-01, -

**Nota bene**: Los parámetros de cada vector fueron aprendidos a través de un proceso de aprendizaje supervisado de una red neuronal, utilizando una dataset de entrenamiento. Las técnicas más comunes para aprender vectores de palabras se llaman CBOW (continuous bag of words) y Skip gram.

- Similitud coseno con otras palabras. Por ejemplo: "computer", "life", "country", "conflict", "violence", etc.

In [8]:
model.wv.most_similar(positive=['country'],topn=5)

[('nation', 0.6186625957489014),
 ('region', 0.5408339500427246),
 ('economy', 0.5097231268882751),
 ('kazakhstan', 0.46346724033355713),
 ('europe', 0.45298612117767334)]

- Similitud coseno combinado con suma y resta

In [9]:
model.wv.most_similar(positive=["conflict","weapon"])

[('confrontation', 0.5699299573898315),
 ('fighting', 0.5406368374824524),
 ('struggle', 0.5287227034568787),
 ('weapons', 0.5232676267623901),
 ('warfare', 0.4980403780937195),
 ('rifle', 0.49614542722702026),
 ('pistol', 0.4941072165966034),
 ('warheads', 0.49138104915618896),
 ('combat', 0.4905371069908142),
 ('firearm', 0.48504623770713806)]

In [10]:
model.wv.most_similar(positive=["conflict"],negative=["weapon"])

[('disagreements', 0.5136250853538513),
 ('clashes', 0.5113856196403503),
 ('disputes', 0.501711368560791),
 ('conflicts', 0.46025100350379944),
 ('dispute', 0.4554281234741211),
 ('tensions', 0.44997236132621765),
 ('hostilities', 0.4339393973350525),
 ('antagonism', 0.43237364292144775),
 ('negotiations', 0.4308357834815979),
 ('strife', 0.4264780580997467)]

In [11]:
model.wv.most_similar(positive=["life"],negative=["money"])

[('childhood', 0.3727564811706543),
 ('adolescence', 0.35735276341438293),
 ('experiences', 0.3402749300003052),
 ('lives', 0.32403653860092163),
 ('incarnations', 0.3185120224952698),
 ('kundalini', 0.3143002986907959),
 ('embryonic', 0.31366878747940063),
 ('ueshiba', 0.3116791546344757),
 ('visions', 0.30381709337234497),
 ('career', 0.3037593364715576)]

In [12]:
model.wv.most_similar(positive=["life","money"])

[('profits', 0.5188786387443542),
 ('happiness', 0.5023502111434937),
 ('fortune', 0.49740085005760193),
 ('debts', 0.4414561092853546),
 ('humanity', 0.42979487776756287),
 ('wealth', 0.4277540445327759),
 ('estate', 0.42399176955223083),
 ('earnings', 0.4203926622867584),
 ('work', 0.4187853932380676),
 ('gift', 0.4156307876110077)]

In [13]:
model.wv.most_similar(positive=["life","empathy","love","joy"])

[('affection', 0.5499897599220276),
 ('happiness', 0.5474748015403748),
 ('compassion', 0.5344129204750061),
 ('humanity', 0.5309140682220459),
 ('emotions', 0.5158870220184326),
 ('sadness', 0.5086187720298767),
 ('mankind', 0.5084312558174133),
 ('greed', 0.496202677488327),
 ('soul', 0.4955383539199829),
 ('lust', 0.4919815957546234)]

In [14]:
model.wv.most_similar(positive=["chile"])

[('bolivia', 0.6594616770744324),
 ('colombia', 0.658710241317749),
 ('argentina', 0.6212489008903503),
 ('brazil', 0.6132237315177917),
 ('ecuador', 0.6095288991928101),
 ('cuba', 0.6018980741500854),
 ('peru', 0.5867090225219727),
 ('uruguay', 0.5637916922569275),
 ('paraguay', 0.5214423537254333),
 ('chilean', 0.5120405554771423)]

In [15]:
model.wv.most_similar(positive=["chile","conflict"])

[('bolivia', 0.5770161151885986),
 ('hostilities', 0.5575370788574219),
 ('clashes', 0.5568962693214417),
 ('argentina', 0.5563543438911438),
 ('confrontation', 0.5515499114990234),
 ('cuba', 0.5406152606010437),
 ('colombia', 0.5265712141990662),
 ('ecuador', 0.5111971497535706),
 ('nicaragua', 0.5001786351203918),
 ('unrest', 0.4965032935142517)]

- Palabras que se alejan de otras palabras

In [16]:
model.wv.doesnt_match("breakfast cereal dinner lunch".split())

'cereal'

In [17]:
model.wv.doesnt_match("brazil chile france peru argentina".split())

'france'

In [18]:
model.wv.doesnt_match("apple pear banana hammer".split())

'apple'

- Similaridad entre dos vectores

In [19]:
model.wv.similarity('chile','france')

0.30342865

In [20]:
model.wv.similarity('chile','argentina')

0.6212489

In [21]:
model.wv.similarity('belgium','france')

0.60744953

In [22]:
model.wv.similarity('belgium','chile')

0.18376122

In [23]:
model.wv.similarity('man','engineer')

0.10001469

In [24]:
model.wv.similarity('woman','engineer')

0.0524887

In [25]:
model.wv.similarity('man','power')

0.06323543

In [26]:
model.wv.similarity('woman','power')

-0.032200478

## Cargar un modelo Word2Vec pre-entrenado para el español

ver: https://github.com/dccuchile/spanish-word-embeddings

In [27]:
from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format('./SBW-vectors-300-min5.bin.gz', binary=True)

In [28]:
dog = model['perro']
print(dog.shape)
print(dog[:10])

(300,)
[ 0.1051706  -0.27460352 -0.21322592  0.261666    0.09946854 -0.02449877
  0.12955804 -0.34066245  0.3385692  -0.09923615]


In [34]:
model.similarity('mujer','poder')

0.32905576

In [35]:
model.similarity('hombre','poder')

0.33151585

## ¿Cómo aprender vectores de palabras para el español?

In [36]:
import pandas as pd
from gensim.models import word2vec
from tqdm import tqdm, trange

In [60]:
import spacy

nlp = spacy.load('es_core_news_sm')
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS

In [72]:
archivo = "./dataset_latercera_2019.csv"
corpus = pd.read_csv(archivo)
corpus

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,0,6232073.0,chile,latercera,https://www.latercera.com/tendencias/noticia/c...,"César Fredes: ""No como con el entusiasmo de an...",César Fredes (73) ejerció el periodismo políti...,2019-02-15,
1,1,6232276.0,chile,latercera,https://www.latercera.com/tendencias/noticia/p...,Cómo un piercing en la nariz acabó dejando par...,"Con apenas 20 años, iba a atravesar lo que ell...",2019-02-13,
2,2,6232311.0,chile,latercera,https://www.latercera.com/tendencias/noticia/c...,China espera enviar más de 50 naves al espacio...,China enviará al cosmos más de 50 naves espaci...,2019-01-30,
3,3,6236624.0,chile,latercera,https://www.latercera.com/tendencias/noticia/s...,Sonda china logra el primer alunizaje de la hi...,La sonda china Chang'e 4 alunizó hoy con éxito...,2019-01-03,
4,4,6236728.0,chile,latercera,https://www.latercera.com/tendencias/noticia/l...,Las razones científicas que explican por qué a...,Nos gusta pensar que haríamos lo correcto en u...,2019-01-02,
...,...,...,...,...,...,...,...,...,...
9995,9995,7272103.0,chile,latercera,https://www.latercera.com/mouse/pizza-kilo-que...,"Un kilo de queso en la nueva pizza ""tipo Nueva...",Bajo la promesa de replicar la experiencia est...,2019-06-12,
9996,9996,7273138.0,chile,latercera,https://www.latercera.com/mouse/google-maps-al...,Google Maps quiere avisarte si tu taxi se desv...,Google estaría probando una nueva función para...,2019-06-10,
9997,9997,7273173.0,chile,latercera,https://www.latercera.com/mouse/mozilla-firefo...,Mozilla lanzaría una versión pagada de Firefox,Pronto un nuevo producto premium se podría aña...,2019-06-10,
9998,9998,7273175.0,chile,latercera,https://www.latercera.com/mouse/deepfake-herra...,Con esta herramienta deepfake solo debes escri...,La tecnología de los deepfakes nos sigue sorpr...,2019-06-10,


In [73]:
noticias = corpus.text.values.tolist()

In [74]:
noticias[48]

'"Lo femenino hoy es el feminismo. Como dice la superventas nigeriana Chimamanda Ngozi Adiche, todos debiéramos ser feministas. Entender y defender que las mujeres tenemos un rol relevante en el mundo privado y en el público. Que podemos estar en las ciencias, en las matemáticas o desarrollar trabajos que requieren de destrezas físicas o intelectuales. Que no hay campos vedados. -¿Qué elementos constituyen lo femenino? -No hay espacios naturalmente femeninos o masculinos. Es la cultura la que nos machaca desde que nacemos que hay un quehacer para los hombres y otro para las mujeres. Que una mujer "femenina" es dulce, suave, trata de agradar y de verse linda para los hombres. Lo femenino es reconocerte en lo que eres y mostrar eso sin tapujos ni vergüenza. -¿Qué es lo fundamental de lo femenino que la lucha feminista nunca debe olvidar en sus demandas? -Que somos el 52 por ciento de los habitantes humanos de la Tierra, que mientras más arriba llegas en las instituciones y corporaciones 

In [75]:
from tqdm import tqdm

sentences = []

for noticia in tqdm(noticias, desc="Procesando noticias"):
    try:
        doc = nlp(noticia)
        
        sentence = []
        for token in doc:
            if (str(token.pos_) != "SPACE" and str(token.pos_) != "PUNCT"):
                sentence.append(token.text.lower())
        sentences.append(sentence)
    except Exception:
        pass  # Ignorar la excepción y continuar con la siguiente iteración


Procesando noticias: 100%|████████████████| 10000/10000 [05:39<00:00, 29.45it/s]


In [77]:
print(sentences[0])

['césar', 'fredes', '73', 'ejerció', 'el', 'periodismo', 'político', '-además', 'de', 'algunos', 'coqueteos', 'con', 'el', 'deportivo-', 'hasta', 'que', 'tras', 'el', 'golpe', 'de', '1973', 'partió', 'al', 'exilio', 'a', 'venezuela', 'allá', 'se', 'reunió', 'con', 'sus', 'dos', 'hijos', 'que', 'habían', 'nacido', 'del', 'matrimonio', 'con', 'su', 'mujer', 'de', 'entonces', 'maría', 'angélica', 'álvarez', 'la', 'jupi', 'exasesora', 'cercana', 'de', 'bachelet', 'en', 'caracas', 'derivó', 'en', 'el', 'periodismo', 'gastronómico', 'aprovechando', 'las', 'bondades', 'de', 'esa', 'ciudad', 'que', 'por', 'aquellos', 'años', 'albergaba', 'finísimos', 'restaurantes', 'de', 'cocinas', 'de', 'todas', 'partes', 'del', 'mundo', 'de', 'vuelta', 'en', 'chile', 'en', '1991', 'comenzó', 'un', 'largo', 'periplo', '-siempre', 'como', 'crítico', 'gastronómico-', 'por', 'medios', 'de', 'prensa', 'en', 'paralelo', 'fundó', 'la', 'vinoteca', 'exitoso', 'negocio', 'que', 'luego', 'pasó', 'a', 'manos', 'de', '

In [78]:
len(sentences)

10000

In [79]:
sentences_short = sentences[:100000]

In [80]:
model = word2vec.Word2Vec(sentences_short,vector_size=100,hs=1)

In [81]:
model.save("wordembedding_model_latercera_2019")

In [84]:
model.wv.similarity('mujer','poder')

-0.057466738

In [85]:
model.wv.similarity('hombre','poder')

0.14800084