# Word Embedding

## Motivación

¿Cómo representar las dimensiones semánticas de cada palabra?

Ejemplo:

1. Quiero una naranja.
2. Quiero una manzana.

Los métodos que toman en cuenta solo la forma de las palabras no tienen la capacidad de calcular que las frases 1 y 2 tienen un sentido "similar". 

Necesitamos una manera de representar que las palabras 'naranja' y 'manzana' comparten caracterícas semánticas comunes.

**Nota bene**

En tratamiento automático del lenguaje, consideramos que el lenguaje tiene distintos componentes.
- __morfológico__ o __fonológico__: es el componente más básico. Se empieza a reconocer las palabras y asociarlas a un significado. Ejemplo: "manzana"
- __semántico__: Se empieza a conceptualizar y crear relaciones entre las palabras. Ejemplo: "una manzana es una fruta", "las frutas se comen".
- __pragmático-discurso__: Es el componente más avanzado. En ese nivel, se conceptualiza que el lenguaje se utiliza en procesos de comunicación complejos. Según el contexto, los interlocutores, la cultura del entorno, las palabras pueden activar significados implicitos. Por ejemplo: "Blancanieve come la manzana", "es un siete", etc.



- Lectura sugerida: Libro "metaforas de la vida cotidiana" https://en.wikipedia.org/wiki/Metaphors_We_Live_By


## Definición de "Word Embedding"

El concepto de **word embedding** se refiere a un conjunto de técnicas utilizadas para aprender representaciones matemáticas de la "semántica" de cada palabra. El objeto matemático que permite representar la semántica de una palabra es el **vector**.

Una de las técnicas más populares es __Word2Vec__ propuesto por un equipo de investigación de Google en 2013 (Efficient Estimation of Word Representations in Vector Space [Mikolov et al., 2013]). Alternativas populares se basan sobre __GloVe__ (propuesta por la Universidad de Stanford en 2014) y __FastText__ (propuesta por Facebook en 2016), que extende Word2Vec para considerar de mejor manera las palabras con errores ortográficas.

- ¿Qué es un vector?  https://es.wikipedia.org/wiki/Vector

Se puede definir un vector por sus coordenadas en un espacio de N dimensiones. Por ejemplo, el vector V1 = (x1, x2, x3, ... xN)

Se puede realizar operaciones sobre vectores: sumar, restar, similitud coseno, etc.
https://es.wikipedia.org/wiki/Similitud_coseno

<img src="img/word2vec4.png"/>

Habitualmente, en tratamiento automático del lenguaje, se representan las palabras con vectores de 25, 50, 100 o 300 dimensiones.

## Un ejemplo práctico para acercarse al concepto de Word Embedding

La clase <code>word2vec</code> de Gensim permite manejar word embeddings de palabras (ver documentación: https://radimrehurek.com/gensim/models/word2vec.html).

In [None]:
from gensim.models import word2vec

In [None]:
sentences = word2vec.Text8Corpus('data/text8.txt')
model = word2vec.Word2Vec(sentences,vector_size=200,hs=1)



In [None]:
model.save("data/text8_model") ##genera un archivo

In [None]:
model=word2vec.Word2Vec.load("data/text8_model")

In [None]:
print(model)

- Ver el vector de palabras específicas. Por ejemplo "computer", "life", etc.

In [None]:
model.wv['life']

**Nota bene**: Los parámetros de cada vector fueron aprendidos a través de un proceso de aprendizaje supervisado de una red neuronal, utilizando una dataset de entrenamiento. Las técnicas más comunes para aprender vectores de palabras se llaman CBOW (continuous bag of words) y Skip gram.

- Similitud coseno con otras palabras. Por ejemplo: "computer", "life", "country", "conflict", "violence", etc.

In [None]:
model.wv.most_similar(positive=['country'],topn=5)

- Similitud coseno combinado con suma y resta

In [None]:
model.wv.most_similar(positive=["conflict","weapon"])

In [None]:
model.wv.most_similar(positive=["conflict"],negative=["weapon"])

In [None]:
model.wv.most_similar(positive=["life"],negative=["money"])

In [None]:
model.wv.most_similar(positive=["life","money"])

In [None]:
model.wv.most_similar(positive=["life","empathy","love","joy"])

In [None]:
model.wv.most_similar(positive=["chile"])

In [None]:
model.wv.most_similar(positive=["chile","conflict"])

- Palabras que se alejan de otras palabras

In [None]:
model.wv.doesnt_match("breakfast cereal dinner lunch".split())

In [None]:
model.wv.doesnt_match("brazil chile france peru argentina".split())

In [None]:
model.wv.doesnt_match("apple pear banana hammer".split())

- Similaridad entre dos vectores

In [None]:
model.wv.similarity('chile','france')

In [None]:
model.wv.similarity('chile','argentina')

In [None]:
model.wv.similarity('belgium','france')

In [None]:
model.wv.similarity('belgium','chile')

In [None]:
model.wv.similarity('man','engineer')

In [None]:
model.wv.similarity('woman','engineer')

In [None]:
model.wv.similarity('man','power')

In [None]:
model.wv.similarity('woman','power')

## Cargar un modelo Word2Vec pre-entrenado para el español

ver: https://github.com/dccuchile/spanish-word-embeddings

In [None]:
from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format('./data/SBW-vectors-300-min5.bin.gz', binary=True)

In [None]:
dog = model['perro']
print(dog.shape)
print(dog[:10])

## ¿Cómo aprender vectores de palabras para el español?

In [1]:
import pandas as pd
from gensim.models import word2vec
from tqdm import tqdm, trange

In [2]:
import spacy

nlp = spacy.load('es_core_news_sm')
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS



In [3]:
archivo = "./data/catrillanca.csv"
corpus = pd.read_csv(archivo)
corpus

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date
0,0,243393.0,chile,horas24,https://www.24horas.cl/nacional/instituto-naci...,Instituto Nacional de Derechos Humanos amplía ...,El Instituto Nacional de Derechos Humanos (IND...,2019-06-22
1,1,5163425.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/268476-pa...,Padre de Catrillanca solicita presencia de Bac...,Hasta el Palacio de la Moneda llegó Marcelo Ca...,2019-07-17
2,2,13829736.0,chile,emol,https://www.emol.com/noticias/Nacional/2019/03...,"Adolescente que acompañaba a Catrillanca: ""Hab...",SANTIAGO.- A casi cuatro meses de la muerte de...,2019-03-10
3,3,5439896.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/245535-ca...,Cartas enviadas a familia de Camilo Catrillanc...,"Hace unos días Marcelo Catrillanca, padre de C...",2018-12-30
4,4,5442943.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/245302-ca...,Caso Catrillanca: Comuneros mapuche se toman l...,"Durante la mañana de este jueves, un grupo de ...",2018-12-27
...,...,...,...,...,...,...,...,...
2926,2926,5798626.0,chile,elciudadano,https://www.elciudadano.com/especiales/chilede...,La situación actual de los presos políticos de...,"Acusados por incendios, porte y lanzamiento de...",2021-01-05
2927,2927,5797077.0,chile,elciudadano,https://www.elciudadano.com/chile/mauricio-her...,"Mauricio Hernández Norambuena, con más de 18 a...",Mauricio Hernández Norambuena (62) pasó 17 año...,2020-12-22
2928,2928,5797960.0,chile,elciudadano,https://www.elciudadano.com/chile/mauricio-her...,"Mauricio Hernández Norambuena, con más de 18 a...",Mauricio Hernández Norambuena (62) pasó 17 año...,2020-12-22
2929,2929,6818961.0,chile,latercera,https://www.latercera.com/masdeco/talentos-201...,Talentos 2019 parte II,ARTE Delight lab: Artistas y activistas lumíni...,2019-11-14


In [5]:
noticias = corpus.text.values.tolist()

In [None]:
sentences=[]

for index, noticia in enumerate(noticias):
    print(index)
    doc=nlp(noticia)
    
        
    sentence=[]
    for token in doc:
        if (str(token.pos_)!="SPACE" and str(token.pos_)!="PUNCT"):
            sentence.append(token.text.lower())
            sentences.append(sentence)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27

In [None]:
print(sentences)

In [None]:
model = word2vec.Word2Vec(sentences,vector_size=100,hs=1)