# Tutorial 3 - Práctica

- Modelos de lenguaje
- Word embedding
- Clasificación de textos (Bag-of-words/TFIDF vs. Word2Vec)

# 1. Datasets brutos

Tenemos a nuestra disposición datasets de dos medios:

- **CNN Chile** (https://www.cnnchile.com/): Es un medio de prensa ubicado en Chile. El dueño es *WarnerMedia News & Sports* (un conglomerado de multinacionales de Estados Unidos). 

- **Cadena SER (España)** (https://cadenaser.com/): Es un medio de prensa ubicado en España. Es dueño es el *Grupo Prisa* (un grupo de empresas de comunicación de España)


En su forma bruta, ambos datasets toman la forma de archivo CSV con la estructura siguiente:
- ID, country, media_outlet, url, title, body, date

El dataset **CNN Chile** contiene 16.472 noticias.

El dataset **Cadena SER** contiene 14.378 noticias.

# 2. Preparación del dataset CNN Chile

A partir del dataset CNN Chile bruto queremos extraer la categoría de la noticia a partir de la columna URL.

In [2]:
import pandas as pd

DATASET_CSV="datasets/CNNCHILE_RAW.csv"

df = pd.read_csv(DATASET_CSV,sep=',',error_bad_lines=False)
df = df.drop(['Unnamed: 0'], axis = 1) # Para suprimir la columna ID
df['date'] = pd.to_datetime(df['date']) # Para convertir la columna date en formato datetime

df

Unnamed: 0,country,media_outlet,url,title,body,date
0,chile,cnnchile,https://www.cnnchile.com/pais/caso-ambar-confi...,Caso Ámbar: Fiscalía confirma que cadáver fue ...,La Fiscalía confirmó este jueves el hallazgo d...,2020-08-06
1,chile,cnnchile,https://www.cnnchile.com/pais/parlamentarios-b...,Parlamentarios latinoamericanos piden a Bachel...,Un grupo de parlamentarios de distintas nacion...,2020-08-06
2,chile,cnnchile,https://www.cnnchile.com/pais/caso-ambar-detie...,Caso Ámbar: Detienen a la madre y su pareja po...,La Policía de Investigaciones (PDI) de Villa A...,2020-08-06
3,chile,cnnchile,https://www.cnnchile.com/pais/diputados-rn-pro...,Diputados RN presentan proyecto para regular r...,(Agencia Uno) – Luego de jurar y hacer oficial...,2020-08-06
4,chile,cnnchile,https://www.cnnchile.com/pais/diputado-mellado...,Mellado (RN) por crisis en La Araucanía: “¿Qui...,(Agencia Uno) – Cómo “insólito” calificó el di...,2020-08-06
...,...,...,...,...,...,...
16467,chile,cnnchile,https://www.cnnchile.com/deportes/croacia-derr...,Croacia derrotó a Dinamarca y pasó a cuartos d...,"Croacia y Dinamarca, al igual que el partido e...",2018-07-01
16468,chile,cnnchile,https://www.cnnchile.com/deportes/espana-cayo-...,España cayó ante Rusia y queda eliminada del M...,¿Qué pasó? En un nuevo encuentro por el Mundia...,2018-07-01
16469,chile,cnnchile,https://www.cnnchile.com/deportes/los-argentin...,Los argentinos que darán “un paso al costado” ...,¿Qué pasó? Este sábado 30 de junio la selecció...,2018-06-30
16470,chile,cnnchile,https://www.cnnchile.com/deportes/uruguay-avan...,Uruguay avanza a cuartos de final y deja atrás...,Uruguay avanzó a los cuartos de final de Rusia...,2018-06-30


In [3]:
df['url'][0]

'https://www.cnnchile.com/pais/caso-ambar-confirman-cadaver-hallado-casa-madre_20200806/'

In [4]:
import re

url = df['url'][0]

obj = re.findall('(\w+)://([\w\-\.]+)/([\w\-]+).([\w\-]+)', url) 
obj

[('https',
  'www.cnnchile.com',
  'pais',
  'caso-ambar-confirman-cadaver-hallado-casa-madre_20200806')]

In [5]:
df['category'] = ''

In [6]:
for index, row in df.iterrows():
    url=row['url']
    obj = re.findall('(\w+)://([\w\-\.]+)/([\w\-]+).([\w\-]+)', url) 
    
    category=obj[0][2]
    
    df.loc[index,'category'] = category

- ¿Cuáles son las categorias del medio?

In [8]:
from pandasql import sqldf

q="""SELECT DISTINCT category FROM df;"""
result=sqldf(q)
result

Unnamed: 0,category
0,pais
1,coronavirus
2,lodijeronencnn
3,tendencias
4,economia
5,mundo
6,futuro360
7,cop25
8,cultura
9,deportes


- ¿Cuántas noticias hay por cada categoría?

In [9]:
q="""SELECT category, count(*) FROM df GROUP BY category ORDER BY count(*) DESC;"""
result=sqldf(q)
result

Unnamed: 0,category,count(*)
0,pais,3048
1,deportes,2202
2,tendencias,2200
3,tecnologias,2196
4,cultura,2142
5,economia,2133
6,mundo,2128
7,coronavirus,298
8,lodijeronencnn,66
9,futuro360,27


- Guardamos solamente las categorias que tienen más de 2000 noticias

In [10]:
q="""SELECT * FROM df WHERE category IN ('pais','deportes','tendencias','tecnologias','cultura','economia','mundo');"""
df_CNN=sqldf(q)
df_CNN

Unnamed: 0,country,media_outlet,url,title,body,date,category
0,chile,cnnchile,https://www.cnnchile.com/pais/caso-ambar-confi...,Caso Ámbar: Fiscalía confirma que cadáver fue ...,La Fiscalía confirmó este jueves el hallazgo d...,2020-08-06 00:00:00.000000,pais
1,chile,cnnchile,https://www.cnnchile.com/pais/parlamentarios-b...,Parlamentarios latinoamericanos piden a Bachel...,Un grupo de parlamentarios de distintas nacion...,2020-08-06 00:00:00.000000,pais
2,chile,cnnchile,https://www.cnnchile.com/pais/caso-ambar-detie...,Caso Ámbar: Detienen a la madre y su pareja po...,La Policía de Investigaciones (PDI) de Villa A...,2020-08-06 00:00:00.000000,pais
3,chile,cnnchile,https://www.cnnchile.com/pais/diputados-rn-pro...,Diputados RN presentan proyecto para regular r...,(Agencia Uno) – Luego de jurar y hacer oficial...,2020-08-06 00:00:00.000000,pais
4,chile,cnnchile,https://www.cnnchile.com/pais/diputado-mellado...,Mellado (RN) por crisis en La Araucanía: “¿Qui...,(Agencia Uno) – Cómo “insólito” calificó el di...,2020-08-06 00:00:00.000000,pais
...,...,...,...,...,...,...,...
16044,chile,cnnchile,https://www.cnnchile.com/deportes/croacia-derr...,Croacia derrotó a Dinamarca y pasó a cuartos d...,"Croacia y Dinamarca, al igual que el partido e...",2018-07-01 00:00:00.000000,deportes
16045,chile,cnnchile,https://www.cnnchile.com/deportes/espana-cayo-...,España cayó ante Rusia y queda eliminada del M...,¿Qué pasó? En un nuevo encuentro por el Mundia...,2018-07-01 00:00:00.000000,deportes
16046,chile,cnnchile,https://www.cnnchile.com/deportes/los-argentin...,Los argentinos que darán “un paso al costado” ...,¿Qué pasó? Este sábado 30 de junio la selecció...,2018-06-30 00:00:00.000000,deportes
16047,chile,cnnchile,https://www.cnnchile.com/deportes/uruguay-avan...,Uruguay avanza a cuartos de final y deja atrás...,Uruguay avanzó a los cuartos de final de Rusia...,2018-06-30 00:00:00.000000,deportes


In [11]:
q="""SELECT * FROM df_CNN WHERE length(body)>5"""
df_CNN=sqldf(q)
df_CNN

Unnamed: 0,country,media_outlet,url,title,body,date,category
0,chile,cnnchile,https://www.cnnchile.com/pais/caso-ambar-confi...,Caso Ámbar: Fiscalía confirma que cadáver fue ...,La Fiscalía confirmó este jueves el hallazgo d...,2020-08-06 00:00:00.000000,pais
1,chile,cnnchile,https://www.cnnchile.com/pais/parlamentarios-b...,Parlamentarios latinoamericanos piden a Bachel...,Un grupo de parlamentarios de distintas nacion...,2020-08-06 00:00:00.000000,pais
2,chile,cnnchile,https://www.cnnchile.com/pais/caso-ambar-detie...,Caso Ámbar: Detienen a la madre y su pareja po...,La Policía de Investigaciones (PDI) de Villa A...,2020-08-06 00:00:00.000000,pais
3,chile,cnnchile,https://www.cnnchile.com/pais/diputados-rn-pro...,Diputados RN presentan proyecto para regular r...,(Agencia Uno) – Luego de jurar y hacer oficial...,2020-08-06 00:00:00.000000,pais
4,chile,cnnchile,https://www.cnnchile.com/pais/diputado-mellado...,Mellado (RN) por crisis en La Araucanía: “¿Qui...,(Agencia Uno) – Cómo “insólito” calificó el di...,2020-08-06 00:00:00.000000,pais
...,...,...,...,...,...,...,...
15804,chile,cnnchile,https://www.cnnchile.com/deportes/croacia-derr...,Croacia derrotó a Dinamarca y pasó a cuartos d...,"Croacia y Dinamarca, al igual que el partido e...",2018-07-01 00:00:00.000000,deportes
15805,chile,cnnchile,https://www.cnnchile.com/deportes/espana-cayo-...,España cayó ante Rusia y queda eliminada del M...,¿Qué pasó? En un nuevo encuentro por el Mundia...,2018-07-01 00:00:00.000000,deportes
15806,chile,cnnchile,https://www.cnnchile.com/deportes/los-argentin...,Los argentinos que darán “un paso al costado” ...,¿Qué pasó? Este sábado 30 de junio la selecció...,2018-06-30 00:00:00.000000,deportes
15807,chile,cnnchile,https://www.cnnchile.com/deportes/uruguay-avan...,Uruguay avanza a cuartos de final y deja atrás...,Uruguay avanzó a los cuartos de final de Rusia...,2018-06-30 00:00:00.000000,deportes


# 3. Modelos de lenguaje: CNN Chile

In [13]:
import spacy

nlp = spacy.load("es_core_news_sm")

OSError: [E050] Can't find model 'es_core_news_sm'. It doesn't seem to be a shortcut link, a Python package or a valid path to a data directory.

In [12]:
df_CNN_deportes = df_CNN[df_CNN['category']=='deportes']

sentences=[]

for index, row in df_CNN_deportes.iterrows():
    print(index)
    text=row['body']
    if (text is not None):
        doc=nlp(text)
        
        sentence=[]
        for token in doc:
            sentence.append(token.text)
        sentences.append(sentence)

3280
3331
4461
5423
7829
8088
9085
11529
11887
12652
13595
13596
13597
13598
13599
13600
13601
13602
13603
13604
13605
13606
13607
13608
13609
13610
13611
13612
13613
13614
13615
13616
13617
13618
13619
13620
13621
13622
13623
13624
13625
13626
13627
13628
13629
13630
13631
13632
13633
13634
13635
13636
13637
13638
13639
13640
13641
13642
13643
13644
13645
13646
13647
13648
13649
13650
13651
13652
13653
13654
13655
13656
13657
13658
13659
13660
13661
13662
13663
13664
13665
13666
13667
13668
13669
13670
13671
13672
13673
13674
13675
13676
13677
13678
13679
13680
13681
13682
13683
13684
13685
13686
13687
13688
13689
13690
13691
13692
13693
13694
13695
13696
13697
13698
13699
13700
13701
13702
13703
13704
13705
13706
13707
13708
13709
13710
13711
13712
13713
13714
13715
13716
13717
13718
13719
13720
13721
13722
13723
13724
13725
13726
13727
13728
13729
13730
13731
13732
13733
13734
13735
13736
13737
13738
13739
13740
13741
13742
13743
13744
13745
13746
13747
13748
13749
13750
13751
13752

14970
14971
14972
14973
14974
14975
14976
14977
14978
14979
14980
14981
14982
14983
14984
14985
14986
14987
14988
14989
14990
14991
14992
14993
14994
14995
14996
14997
14998
14999
15000
15001
15002
15003
15004
15005
15006
15007
15008
15009
15010
15011
15012
15013
15014
15015
15016
15017
15018
15019
15020
15021
15022
15023
15024
15025
15026
15027
15028
15029
15030
15031
15032
15033
15034
15035
15036
15037
15038
15039
15040
15041
15042
15043
15044
15045
15046
15047
15048
15049
15050
15051
15052
15053
15054
15055
15056
15057
15058
15059
15060
15061
15062
15063
15064
15065
15066
15067
15068
15069
15070
15071
15072
15073
15074
15075
15076
15077
15078
15079
15080
15081
15082
15083
15084
15085
15086
15087
15088
15089
15090
15091
15092
15093
15094
15095
15096
15097
15098
15099
15100
15101
15102
15103
15104
15105
15106
15107
15108
15109
15110
15111
15112
15113
15114
15115
15116
15117
15118
15119
15120
15121
15122
15123
15124
15125
15126
15127
15128
15129
15130
15131
15132
15133
15134
15135
1513

In [13]:
len(sentences)

2201

In [14]:
sentences[0]

['Durante',
 'más',
 'de',
 'una',
 'década',
 ',',
 'el',
 'jugador',
 'de',
 'básquetbol',
 'Dennis',
 'Rodman',
 'fue',
 'una',
 'de',
 'las',
 'personas',
 'más',
 'reconocidas',
 'del',
 'planeta',
 ',',
 'una',
 'máquina',
 'de',
 'hacer',
 'titulares',
 'conocido',
 'tanto',
 'por',
 'su',
 'estilo',
 'extravagante',
 'como',
 'por',
 'sus',
 'payasadas',
 'de',
 'chico',
 'malo',
 'en',
 'la',
 'cancha',
 '(',
 'ah',
 ',',
 'y',
 'también',
 'ganó',
 'cinco',
 'campeonatos',
 'de',
 'la',
 'NBA',
 ')',
 '.',
 'Ahora',
 ',',
 'gracias',
 'a',
 'The',
 'Last',
 'Dance',
 ',',
 'la',
 'exitosa',
 'serie',
 'de',
 'ESPN',
 'sobre',
 'la',
 'dinastía',
 'de',
 'los',
 'Chicago',
 'Bulls',
 'en',
 'la',
 'década',
 'de',
 '1990',
 ',',
 'es',
 'de',
 'nuevo',
 'el',
 'centro',
 'de',
 'atención',
 '.',
 'Hay',
 'tantas',
 'historias',
 'extravagantes',
 'sobre',
 'Rodman',
 'que',
 'es',
 'difícil',
 'saber',
 'por',
 'dónde',
 'empezar',
 '.',
 'Un',
 'buen',
 'lugar',
 'podría',
 '

In [15]:
from nltk import bigrams, trigrams
from collections import Counter, defaultdict

# Create a placeholder for model
model = defaultdict(lambda: defaultdict(lambda: 0))

for sentence in sentences:
    for w1, w2, w3 in trigrams(sentence, pad_right=True, pad_left=True):
        model[(w1, w2)][w3] += 1
        
# Let's transform the counts to probabilities
for w1_w2 in model:
    total_count = float(sum(model[w1_w2].values()))
    for w3 in model[w1_w2]:
        model[w1_w2][w3] /= total_count

In [16]:
print(dict(model["la","persona"]))
print("\n")
print(dict(model["persona","más"]))
print("\n")
print(dict(model["más","importante"]))

{'que': 0.3333333333333333, 'más': 0.2, 'puede': 0.06666666666666667, 'autor': 0.06666666666666667, 'indicada': 0.13333333333333333, ',': 0.06666666666666667, 'responsable': 0.06666666666666667, 'no': 0.06666666666666667}


{'importante': 0.6666666666666666, 'inaccesible': 0.3333333333333333}


{'de': 0.2753623188405797, 'que': 0.10144927536231885, 'del': 0.2463768115942029, 'se': 0.014492753623188406, 'en': 0.11594202898550725, 'es': 0.057971014492753624, 'para': 0.043478260869565216, 'ahora': 0.014492753623188406, '”': 0.014492753623188406, 'dentro': 0.014492753623188406, 'a': 0.028985507246376812, 'fue': 0.043478260869565216, 'desde': 0.014492753623188406, '.': 0.014492753623188406}


In [17]:
import random

# starting words
text = ["durante","el"]
sentence_finished = False
 
while not sentence_finished:
  # select a random probability threshold  
  r = random.random()
  accumulator = .0

  for word in model[tuple(text[-2:])].keys():
      accumulator += model[tuple(text[-2:])][word]
      # select words that are above the probability threshold
      if accumulator >= r:
          text.append(word)
          break

  if text[-2:] == [None, None]:
      sentence_finished = True
 
print (' '.join([t for t in text if t]))

durante el partido de despedida ” . Un partido con la Selección   publicó   un surfista chileno de 23 años es el terreno ante las   tailandesas   en la cabeza ante los “ Diablos Rojos . Pero el capitán de La Roja en las calles . Seguimos con la final de la UEFA ( @UEFA ) March 7 , 2020


# 4. Word Embedding: CNN Chile

In [18]:
from gensim.models import word2vec

In [19]:
#training word2vec

model2 = word2vec.Word2Vec(sentences,size=200,hs=1)

In [20]:
model2.wv.similarity('hombre','mujer')

0.36144948

In [21]:
model2.wv.similarity('hombre','deporte')

0.6157167

In [22]:
model2.wv.similarity('mujer','deporte')

0.38443753

In [23]:
model2.wv.most_similar(positive=['mujer'],topn=10)

[('imagen', 0.8368817567825317),
 ('experiencia', 0.8328959941864014),
 ('plantilla', 0.8207683563232422),
 ('prueba', 0.790549635887146),
 ('campaña', 0.7834469079971313),
 ('escuela', 0.7764535546302795),
 ('especie', 0.7757437229156494),
 ('persona', 0.7752912044525146),
 ('hazaña', 0.7635775804519653),
 ('conclusión', 0.7559604644775391)]

In [24]:
model2.wv.most_similar(positive=['hombre'],topn=10)

[('problema', 0.7500137686729431),
 ('jugador', 0.7290300130844116),
 ('desafío', 0.7245365977287292),
 ('esquema', 0.7165331244468689),
 ('reto', 0.7092283964157104),
 ('niño', 0.708250105381012),
 ('salto', 0.6960269212722778),
 ('llamado', 0.6956123113632202),
 ('Barça', 0.6927492022514343),
 ('estilo', 0.6893577575683594)]

In [25]:
model2.wv.most_similar(positive=['mujer','deporte'],topn=10)

[('experiencia', 0.8097478151321411),
 ('persona', 0.7748619318008423),
 ('plantilla', 0.7557216882705688),
 ('particular', 0.7505444288253784),
 ('triste', 0.7377573251724243),
 ('comportamiento', 0.7347539067268372),
 ('plantel', 0.7337685227394104),
 ('tema', 0.7311781644821167),
 ('imagen', 0.7269200086593628),
 ('campaña', 0.7198085784912109)]

In [26]:
model2.wv.most_similar(positive=['hombre','deporte'],topn=10)

[('problema', 0.8272441625595093),
 ('momento', 0.7852065563201904),
 ('proyecto', 0.7813626527786255),
 ('tema', 0.7807817459106445),
 ('plantel', 0.7689068913459778),
 ('jugador', 0.7627372741699219),
 ('estilo', 0.7437149882316589),
 ('Gobierno', 0.7361879348754883),
 ('comportamiento', 0.7331312894821167),
 ('reto', 0.7295731902122498)]

In [27]:
model2.wv.most_similar(positive=['hombre','deporte'], negative=['mujer'],topn=10)

[('accidente', 0.6405321955680847),
 ('acto', 0.6289526224136353),
 ('reto', 0.6260414123535156),
 ('escenario', 0.6257253885269165),
 ('camarín', 0.624467670917511),
 ('problema', 0.6230564117431641),
 ('proyecto', 0.6203545331954956),
 ('jugador', 0.6088471412658691),
 ('castigo', 0.6078240275382996),
 ('momento', 0.6054518222808838)]

In [28]:
model2.wv.most_similar(positive=['mujer','deporte'], negative=['hombre'],topn=10)

[('plantilla', 0.720037043094635),
 ('realización', 0.6918410062789917),
 ('versión', 0.6793234348297119),
 ('nueva', 0.667748749256134),
 ('imagen', 0.6641842126846313),
 ('especie', 0.6522365212440491),
 ('experiencia', 0.6495355367660522),
 ('campaña', 0.6382291316986084),
 ('particular', 0.634085476398468),
 ('carta', 0.6313501596450806)]

In [29]:
df_CNN_pais = df_CNN[df_CNN['category']=='pais']

sentences_pais=[]

for index, row in df_CNN_pais.iterrows():
    print(index)
    text=row['body']
    if (text is not None):
        doc=nlp(text)
        
        sentence=[]
        for token in doc:
            sentence.append(token.text)
        sentences_pais.append(sentence)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27

1868
1869
1870
1871
1872
1873
1874
1875
1876
1877
1878
1879
1880
1881
1882
1883
1884
1885
1886
1887
1888
1889
1890
1891
1892
1893
1894
1895
1896
1897
1898
1899
1900
1901
1902
1903
1904
1905
1906
1907
1908
1909
1910
1911
1912
1913
1914
1915
1916
1917
1918
1919
1920
1921
1922
1923
1924
1925
1926
1927
1928
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
2025
2026
2027
2028
2029
2030
2031
2032
2033
2034
2035
2036
2037
2038
2039
2040
2041
2042
2043
2044
2045
2046
2047
2048
2049
2050
2051
2052
2053
2054
2055
2056
2057
2058
2059
2060
2061
2062
2063
2064
2065
2066
2067


In [30]:
#training word2vec

model3 = word2vec.Word2Vec(sentences_pais,size=200,hs=1)

In [31]:
model3.wv.similarity('hombre','mujer')

0.5598842

In [32]:
model3.wv.similarity('hombre','deporte')

0.2572802

In [33]:
model3.wv.similarity('mujer','deporte')

0.24108653

In [34]:
model3.wv.most_similar(positive=['mujer'],topn=10)

[('persona', 0.7431806325912476),
 ('familia', 0.6604404449462891),
 ('agresión', 0.646546483039856),
 ('niña', 0.6451317667961121),
 ('víctima', 0.6404767632484436),
 ('noticia', 0.6330488324165344),
 ('especie', 0.6315200328826904),
 ('pena', 0.6287882924079895),
 ('reacción', 0.6251264810562134),
 ('adolescente', 0.6183331608772278)]

In [35]:
model3.wv.most_similar(positive=['hombre'],topn=10)

[('joven', 0.8455920219421387),
 ('manifestante', 0.7811133861541748),
 ('disparo', 0.7341473698616028),
 ('individuo', 0.694805383682251),
 ('vehículo', 0.6947169899940491),
 ('médico', 0.6857296228408813),
 ('camión', 0.6777156591415405),
 ('supermercado', 0.6773390173912048),
 ('sujeto', 0.6626360416412354),
 ('saqueo', 0.659795880317688)]

In [36]:
model3.wv.most_similar(positive=['violencia'],topn=10)

[('discriminación', 0.6759176254272461),
 ('abuso', 0.6116082072257996),
 ('acoso', 0.6093766689300537),
 ('graves', 0.5789929032325745),
 ('violación', 0.561359167098999),
 ('represión', 0.5419977307319641),
 ('saqueos', 0.5397398471832275),
 ('lucha', 0.5367804169654846),
 ('ética', 0.5222722887992859),
 ('tortura', 0.5173075795173645)]

In [37]:
model3.wv.similarity('violencia','policía')

0.40713465

In [38]:
model3.wv.similarity('violencia','mujer')

0.35471284

In [39]:
model3.wv.similarity('violencia','hombre')

0.15650272

In [40]:
model3.wv.similarity('violencia','policial')

0.27812693

In [41]:
model3.wv.most_similar(positive=['violencia','policía'],topn=10)

[('discriminación', 0.6824044585227966),
 ('agresión', 0.6402902603149414),
 ('abuso', 0.6058611869812012),
 ('violación', 0.6032987833023071),
 ('ética', 0.5857212543487549),
 ('acoso', 0.5839976072311401),
 ('naturaleza', 0.580471932888031),
 ('represión', 0.570639431476593),
 ('guerra', 0.5675724148750305),
 ('lucha', 0.5674225687980652)]

In [42]:
model3.wv.most_similar(positive=['violencia','manifestante'],topn=20)

[('abuso', 0.7353617548942566),
 ('agresión', 0.691987156867981),
 ('violación', 0.6750500202178955),
 ('acoso', 0.6738718152046204),
 ('tortura', 0.6559377312660217),
 ('ataque', 0.6520931720733643),
 ('disparo', 0.6354455351829529),
 ('atropellado', 0.6131818294525146),
 ('hombre', 0.6084957718849182),
 ('atentado', 0.6014352440834045),
 ('discriminación', 0.599855899810791),
 ('sexual', 0.5961371660232544),
 ('impactado', 0.5947999954223633),
 ('funcionario', 0.588136613368988),
 ('joven', 0.5828472375869751),
 ('probidad', 0.5782485604286194),
 ('víctima', 0.5770266056060791),
 ('delito', 0.5630667209625244),
 ('racismo', 0.5613433122634888),
 ('represión', 0.5601456761360168)]

In [43]:
model3.wv.most_similar(positive=['violencia','manifestación'],topn=30)

[('agresión', 0.6568515300750732),
 ('discriminación', 0.6530957221984863),
 ('lucha', 0.6444313526153564),
 ('detención', 0.6308844089508057),
 ('guerra', 0.6276021003723145),
 ('naturaleza', 0.6268353462219238),
 ('protesta', 0.6136260032653809),
 ('enfermedad', 0.5992913842201233),
 ('baja', 0.5908814668655396),
 ('ética', 0.5898061990737915),
 ('demanda', 0.5871752500534058),
 ('connotación', 0.5832887291908264),
 ('lógica', 0.5823050737380981),
 ('especie', 0.5756999254226685),
 ('comisaría', 0.5745948553085327),
 ('pieza', 0.5712685585021973),
 ('mujer', 0.5658861398696899),
 ('amenaza', 0.5647863745689392),
 ('calamidad', 0.5609346032142639),
 ('precarización', 0.559206485748291),
 ('estructura', 0.5578869581222534),
 ('convivencia', 0.5571433901786804),
 ('diversidad', 0.5566307306289673),
 ('veintena', 0.5557125806808472),
 ('artística', 0.5554220676422119),
 ('subcomisaría', 0.5534792542457581),
 ('pequeña', 0.553443968296051),
 ('orientación', 0.5524378418922424),
 ('camione

In [44]:
model3.n_similarity(['violencia','manifestación'],['manifestantes'])

  model3.n_similarity(['violencia','manifestación'],['manifestantes'])


0.40319243

In [45]:
model3.n_similarity(['violencia','manifestación'],['policía'])

  model3.n_similarity(['violencia','manifestación'],['policía'])


0.51119274

- Para comparar con un modelo Word2Vec genérico: https://github.com/dccuchile/spanish-word-embeddings

In [48]:
from gensim.models.keyedvectors import KeyedVectors

wordvectors_file_vec = 'fasttext-sbwc.3.6.e20.vec'
cantidad = 20000
wordvectors = KeyedVectors.load_word2vec_format(wordvectors_file_vec, limit=cantidad)

In [49]:
wordvectors.wv.similarity('hombre','mujer')

  wordvectors.wv.similarity('hombre','mujer')


0.5953878

In [50]:
wordvectors.wv.similarity('violencia','policía')

  wordvectors.wv.similarity('violencia','policía')


0.33162734

In [51]:
print("GENERAL:")
print(wordvectors.wv.similarity('mujer','poder'))
print(wordvectors.wv.similarity('hombre','poder'))

GENERAL:
0.17503023
0.26756066


  print(wordvectors.wv.similarity('mujer','poder'))
  print(wordvectors.wv.similarity('hombre','poder'))


# 5. Clasificación de textos (bag-of-words vs. Doc2Vec)

## 5.1 Bag-of-word: Count y TF-IDF

In [52]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.base import TransformerMixin
from sklearn.pipeline import Pipeline

In [53]:
import spacy
import string
from spacy.lang.es.stop_words import STOP_WORDS
from spacy.lang.es import Spanish

# Create our list of punctuation marks
punctuations = string.punctuation

# Create our list of stopwords
stop_words=""

# Load Spanish tokenizer, tagger, parser, NER and word vectors
parser = Spanish()

# Creating our tokenizer function
def spacy_tokenizer(sentence):
    # Creating our token object, which is used to create documents with linguistic annotations.
    mytokens = parser(sentence)

    # Lemmatizing each token and converting each token into lowercase
    mytokens = [ word.lemma_.lower().strip() if word.lemma_ != "-PRON-" else word.lower_ for word in mytokens ]

    # Removing stop words
    mytokens = [ word for word in mytokens if word not in stop_words and word not in punctuations ]

    # return preprocessed list of tokens
    return mytokens

In [54]:
bow_vector = CountVectorizer(tokenizer = spacy_tokenizer, ngram_range=(1,1))
bow_vector

CountVectorizer(tokenizer=<function spacy_tokenizer at 0x7f4b48eef4c0>)

In [55]:
tfidf_vector = TfidfVectorizer(tokenizer = spacy_tokenizer)

In [56]:
from sklearn.model_selection import train_test_split

X = df_CNN['body'] # the features we want to analyze
ylabels = df_CNN['category'] # the labels, or answers, we want to test against

X_train, X_test, y_train, y_test = train_test_split(X, ylabels, test_size=0.3)


In [57]:
# Logistic Regression Classifier
from sklearn.linear_model import LogisticRegression

modelLR1 = LogisticRegression()
modelLR2 = LogisticRegression()

# Create pipeline using Bag of Words
pipe1 = Pipeline([('preprocessing', bow_vector),
                 ('regression-ML', modelLR1)])

# Create pipeline using Bag of Words + TFIDF
pipe2 = Pipeline([('preprocessing', tfidf_vector),
                 ('regression-ML', modelLR2)])

# model generation
pipe1.fit(X_train,y_train)
print("modelo #1")
pipe2.fit(X_train,y_train)
print("modelo #2")

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


modelo #1
modelo #2


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [58]:
from sklearn import metrics
# Predicting with a test dataset
predicted1 = pipe1.predict(X_test)
predicted2 = pipe2.predict(X_test)

In [59]:
#Evaluación del rendimiento del clasificador
from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, predicted1)
print(confusion_matrix)
#Print de la matriz de confusión
from sklearn.metrics import classification_report
print(classification_report(y_test, predicted1))

[[512   7   3  20  14  12  71]
 [  4 603   4  10  11   2  20]
 [  0   0 535  13  42  20  22]
 [ 13   3   9 516  25   9  45]
 [ 15   6  56  12 822  10  23]
 [  6   9  19   6  11 460  70]
 [ 73   9  24  33  23  68 443]]
              precision    recall  f1-score   support

     cultura       0.82      0.80      0.81       639
    deportes       0.95      0.92      0.93       654
    economia       0.82      0.85      0.83       632
       mundo       0.85      0.83      0.84       620
        pais       0.87      0.87      0.87       944
 tecnologias       0.79      0.79      0.79       581
  tendencias       0.64      0.66      0.65       673

    accuracy                           0.82      4743
   macro avg       0.82      0.82      0.82      4743
weighted avg       0.82      0.82      0.82      4743



In [60]:
#Evaluación del rendimiento del clasificador
from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, predicted2)
print(confusion_matrix)
#Print de la matriz de confusión
from sklearn.metrics import classification_report
print(classification_report(y_test, predicted2))

[[545   4   2  25  23   5  35]
 [  4 612   2  12  14   0  10]
 [  0   0 532  11  50  18  21]
 [  7   3   6 531  26   4  43]
 [ 12   5  45  12 845  12  13]
 [  6  11  20   9  12 455  68]
 [ 87  11  25  37  35  65 413]]
              precision    recall  f1-score   support

     cultura       0.82      0.85      0.84       639
    deportes       0.95      0.94      0.94       654
    economia       0.84      0.84      0.84       632
       mundo       0.83      0.86      0.84       620
        pais       0.84      0.90      0.87       944
 tecnologias       0.81      0.78      0.80       581
  tendencias       0.68      0.61      0.65       673

    accuracy                           0.83      4743
   macro avg       0.83      0.83      0.83      4743
weighted avg       0.83      0.83      0.83      4743



## 5.2 Doc2Vec (extensión de Word2Vec para representar documentos)

Artículo de Doc2Vec (2014): https://cs.stanford.edu/~quocle/paragraph_vector.pdf

In [68]:
from gensim.test.utils import common_texts
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import utils
import csv
from tqdm import tqdm
import multiprocessing

import nltk
nltk.download('punkt')
from nltk.corpus import stopwords

[nltk_data] Downloading package punkt to /home/jelbo/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [69]:
def tokenize_text(text):
    tokens = []
    for sent in nltk.sent_tokenize(text):
        for word in nltk.word_tokenize(sent):
            if len(word) < 2:
                continue
            tokens.append(word.lower())
    return tokens

In [70]:
from sklearn.model_selection import train_test_split

X = df_CNN['body'] # the features we want to analyze
ylabels = df_CNN['category'] # the labels, or answers, we want to test against

X_train, X_test, y_train, y_test = train_test_split(X, ylabels, test_size=0.3)

In [71]:
X_test.shape
#y_train[9]

(4743,)

In [72]:
tags_index = {'cultura': 1 , 'deportes': 2, 'economia': 3, 'mundo': 4, 'pais': 5, 'tecnologias': 6, 'tendencias':7}

In [73]:
train_documents=[]
test_documents=[]

tags_index = {'cultura': 1 , 'deportes': 2, 'economia': 3, 'mundo': 4, 'pais': 5, 'tecnologias': 6, 'tendencias':7}

for i in range(0,11065):
    index=X_train.index[i]
    text = X_train[index]
    tag = y_train[index]
    
    train_documents.append(TaggedDocument(words=tokenize_text(text), tags=[tags_index.get(tag)] ))
    
for i in range(0,4742):
    index=X_test.index[i]
    text = X_test[index]
    tag = y_test[index]
    
    test_documents.append(TaggedDocument(words=tokenize_text(text), tags=[tags_index.get(tag)] ))

In [None]:
cores = multiprocessing.cpu_count()

model_dbow = Doc2Vec(dm=1, vector_size=200, negative=5, hs=0, min_count=2, sample = 0, workers=cores, alpha=0.025, min_alpha=0.001)

model_dbow.build_vocab([x for x in tqdm(train_documents)])

train_documents  = utils.shuffle(train_documents)

model_dbow.train(train_documents,total_examples=len(train_documents), epochs=30)

def vector_for_learning(model, input_docs):
    sents = input_docs
    targets, feature_vectors = zip(*[(doc.tags[0], model.infer_vector(doc.words, steps=20)) for doc in sents])
    return targets, feature_vectors

model_dbow.save('./Doc2Vec_model.d2v')

In [None]:
y_train, X_train = vector_for_learning(model_dbow, train_documents)
y_test, X_test = vector_for_learning(model_dbow, test_documents)

logreg = LogisticRegression(n_jobs=1, C=1e5)
logreg.fit(X_train, y_train)

In [None]:
predicted3 = logreg.predict(X_test)

In [None]:
#Evaluación del rendimiento del clasificador
from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, predicted3)
print(confusion_matrix)
#Print de la matriz de confusión
from sklearn.metrics import classification_report
print(classification_report(y_test, predicted3))

# 6. Ideas para prácticar

- #1: Preparar el dataset Cadena SER
- #2: Comparar los embeddings: CNN Chile vs. Cadena SER vs. General (--> ¿Cómo se podría sistematizar?)
- #3: Visualizar la evolución de los embeddings en el tiempo
- #4: Optimizar el modelo de clasificación por temática (otros algoritmos, mejores preprocesamientos, etc.)
- ...