In [27]:
import spacy
from spacy import displacy
from collections import Counter
import jsonlines

In [3]:
nlp = spacy.load('es')

Cuando instalamos `spacy`, no se instalan automáticamente modelos de lenguaje. Necesitamos instalarnos nosotros.

In [4]:
text = """
    En retrospectiva, pocos dudan ahora que la burbuja inmobiliaria
"""
doc = nlp(text)

In [5]:
doc


    En retrospectiva, pocos dudan ahora que la burbuja inmobiliaria

`spacy` nos permite tokenizar textos.

In [6]:
for token in doc:
    print('"' + token.text + '"')

"
    "
"En"
"retrospectiva"
","
"pocos"
"dudan"
"ahora"
"que"
"la"
"burbuja"
"inmobiliaria"
"
"


Además, `spacy` mantiene índices que nos permiten localizar a un token dentro del texto sin procesar. Para recuperar estos índices, por ejemplo, escribimos

In [7]:
for token in doc:
    print('"' + token.text + '"', token.idx)

"
    " 0
"En" 5
"retrospectiva" 8
"," 21
"pocos" 23
"dudan" 29
"ahora" 35
"que" 41
"la" 45
"burbuja" 48
"inmobiliaria" 56
"
" 68


`spacy` pone a nuestra disposición, un conjunto amplio de atributos para la clase `token`:

In [8]:
for token in doc:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}".format(
        token.text,
        token.idx,
        token.lemma_,
        token.is_punct,
        token.is_space,
        token.shape_,
        token.pos_,
        token.tag_
    ))


    	0	
    	False	True	
    	SPACE	_SP
En	5	En	False	False	Xx	ADP	ADP__AdpType=Prep
retrospectiva	8	retrospectivo	False	False	xxxx	NOUN	NOUN__Gender=Fem|Number=Sing
,	21	,	True	False	,	PUNCT	PUNCT__PunctType=Comm
pocos	23	poco	False	False	xxxx	PRON	PRON__Gender=Masc|Number=Plur|PronType=Ind
dudan	29	dudar	False	False	xxxx	VERB	VERB__Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
ahora	35	ahora	False	False	xxxx	ADV	ADV___
que	41	que	False	False	xxx	SCONJ	SCONJ___
la	45	lo	False	False	xx	DET	DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art
burbuja	48	burbuja	False	False	xxxx	NOUN	NOUN__Gender=Fem|Number=Sing
inmobiliaria	56	inmobiliario	False	False	xxxx	ADJ	ADJ__Gender=Fem|Number=Sing

	68	
	False	True	
	SPACE	_SP


In [9]:
larger_text = """
    En retrospectiva, pocos dudan ahora que la burbuja inmobiliaria que provocó
    la mayor parte del crecimiento reciente de la economía norteamericana fuera
    a estallar o que la crisis financiera general y la ralentización de la
    economía mundial fueran consecuencias inevitables de ello. Durante años, las
    señales de aviso resultaban evidentes para todos aquellos que no se habían
    dejado engatusar con la nueva química financiera de la gestión de la deuda
    de alto riesgo y que estaban cegados, como la mayoría del mundo empresarial,
    por los enormes beneficios especulativos.
"""
larger_doc = nlp(larger_text)

In [10]:
for idx, sent in enumerate(larger_doc.sents):
    print('Oración {}: {} '.format(idx + 1, sent))

Oración 1: 
    En retrospectiva, pocos dudan ahora que la burbuja inmobiliaria que provocó
    la mayor parte del crecimiento reciente de la economía norteamericana fuera
    a estallar o que la crisis financiera general y la ralentización de la
    economía mundial fueran consecuencias inevitables de ello. 
Oración 2: Durante años, las
    señales de aviso resultaban evidentes para todos aquellos que no se habían
    dejado engatusar con la nueva química financiera de la gestión de la deuda
    de alto riesgo y que estaban cegados, como la mayoría del mundo empresarial,
    por los enormes beneficios especulativos.
 


In [11]:
print([(token.text, token.tag_) for token in doc])

[('\n    ', '_SP'), ('En', 'ADP__AdpType=Prep'), ('retrospectiva', 'NOUN__Gender=Fem|Number=Sing'), (',', 'PUNCT__PunctType=Comm'), ('pocos', 'PRON__Gender=Masc|Number=Plur|PronType=Ind'), ('dudan', 'VERB__Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin'), ('ahora', 'ADV___'), ('que', 'SCONJ___'), ('la', 'DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art'), ('burbuja', 'NOUN__Gender=Fem|Number=Sing'), ('inmobiliaria', 'ADJ__Gender=Fem|Number=Sing'), ('\n', '_SP')]


In [12]:
text_entities = "El curso de NLP inicia a las 4:30 PM. El curso inició el lunes en Agexport."
doc_entities = nlp(text_entities)

In [13]:
for ent in doc_entities.ents:
    print(ent.text, ent.label_)

NLP LOC
4:30 PM MISC
El curso inició el lunes MISC
Agexport LOC


In [14]:
displacy.render(doc_entities, style='ent', jupyter=True)

In [15]:
for token in doc_entities:
    print("{0}/{1} <--{2}-- {3}/{4}".format(
        token.text, token.tag_, token.dep_, token.head.text, token.head.tag_))

El/DET__Definite=Def|Gender=Masc|Number=Sing|PronType=Art <--det-- curso/NOUN__Gender=Masc|Number=Sing
curso/NOUN__Gender=Masc|Number=Sing <--nsubj-- inicia/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
de/ADP__AdpType=Prep <--case-- NLP/PROPN___
NLP/PROPN___ <--nmod-- curso/NOUN__Gender=Masc|Number=Sing
inicia/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin <--ROOT-- inicia/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
a/ADP__AdpType=Prep <--case-- 4:30/NUM__NumForm=Digit
las/DET__Definite=Def|Gender=Fem|Number=Plur|PronType=Art <--det-- 4:30/NUM__NumForm=Digit
4:30/NUM__NumForm=Digit <--obj-- inicia/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
PM/PROPN___ <--appos-- 4:30/NUM__NumForm=Digit
./PUNCT__PunctType=Peri <--punct-- inicia/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
El/DET__Definite=Def|Gender=Masc|Number=Sing|PronType=Art <--det-- curso/NOUN__Gender=Masc|Number=Sing
curso/NOUN__Gender=Masc|Number=Sing <--

In [16]:
displacy.render(doc_entities, style='dep', jupyter=True, options={'distance': 90})

In [17]:
nlp_ext = spacy.load('es_core_news_md')

In [18]:
print(nlp_ext.vocab['curso'].vector)

[ 8.100400e-02 -5.251210e-01  1.089990e+00 -1.051320e-01  2.592700e-01
 -3.259680e-01  2.227220e-01  7.271700e-02  2.172000e-03  2.712761e+00
 -3.285130e-01  5.928910e-01 -8.835600e-02 -7.602560e-01  4.379040e-01
  3.975390e-01  5.665630e-01  4.113700e-01  7.719420e-01  5.179310e-01
  1.323176e+00  1.340035e+00 -2.227220e-01 -4.068760e-01  7.449730e-01
 -4.973730e-01 -1.167305e+00  5.878820e-01  3.739340e-01 -2.348630e-01
  2.070588e+00 -1.194960e-01 -1.527140e+00 -5.800300e-02 -7.687620e-01
 -7.471960e-01  1.205082e+00 -5.270130e-01  6.346600e-01  1.204500e-01
 -6.663400e-01 -2.460930e-01  2.837790e-01  1.206170e-01  1.065563e+00
 -3.668670e-01  6.986800e-02 -1.886280e+00  9.259120e-01 -2.880230e-01]


In [23]:
perro = nlp_ext.vocab['perro']
manzana = nlp_ext.vocab['manzana']
fruta = nlp_ext.vocab['fruta']
animal = nlp_ext.vocab['animal']
banano = nlp_ext.vocab['platano']
mono = nlp_ext.vocab['mono']
gato = nlp_ext.vocab['gato']
 
print(perro.similarity(animal), perro.similarity(fruta)) # 0.6618534 0.23552845
print(manzana.similarity(fruta), manzana.similarity(animal)) # 0.67148364 0.2427285

0.79893434 0.5199257
0.74901104 0.3627539


In [24]:
print(perro.similarity(gato))

0.89080924


In [105]:
Counter([token.text for token in larger_doc if not token.is_punct])

Counter({'\n    ': 8,
         'En': 1,
         'retrospectiva': 1,
         'pocos': 1,
         'dudan': 1,
         'ahora': 1,
         'que': 5,
         'la': 10,
         'burbuja': 1,
         'inmobiliaria': 1,
         'provocó': 1,
         'mayor': 1,
         'parte': 1,
         'del': 2,
         'crecimiento': 1,
         'reciente': 1,
         'de': 7,
         'economía': 2,
         'norteamericana': 1,
         'fuera': 1,
         'a': 1,
         'estallar': 1,
         'o': 1,
         'crisis': 1,
         'financiera': 2,
         'general': 1,
         'y': 2,
         'ralentización': 1,
         'mundial': 1,
         'fueran': 1,
         'consecuencias': 1,
         'inevitables': 1,
         'ello': 1,
         'Durante': 1,
         'años': 1,
         'las': 1,
         'señales': 1,
         'aviso': 1,
         'resultaban': 1,
         'evidentes': 1,
         'para': 1,
         'todos': 1,
         'aquellos': 1,
         'no': 1,
         'se': 

In [25]:
Counter([token.lemma_ for token in larger_doc if (not token.is_punct and not token.is_stop)])

Counter({'\n    ': 8,
         'retrospectivo': 1,
         'dudar': 1,
         'burbuja': 1,
         'inmobiliario': 1,
         'provocar': 1,
         'crecimiento': 1,
         'recentar': 1,
         'economía': 2,
         'norteamericano': 1,
         'a': 1,
         'estallar': 1,
         'o': 1,
         'crisis': 1,
         'financiero': 2,
         'y': 2,
         'ralentización': 1,
         'mundial': 1,
         'ser': 1,
         'consecuencia': 1,
         'inevitable': 1,
         'año': 1,
         'señalar': 1,
         'avisar': 1,
         'resultar': 1,
         'evidente': 1,
         'dejar': 1,
         'engatusar': 1,
         'químico': 1,
         'gestión': 1,
         'deuda': 1,
         'alto': 1,
         'riesgo': 1,
         'cegar': 1,
         'mayoría': 1,
         'mundo': 1,
         'empresarial': 1,
         'enorme': 1,
         'beneficio': 1,
         'especulativo': 1,
         '\n': 1})

In [69]:
positive_text = ''
negative_text = ''

In [70]:
with jsonlines.open('booking_reviews_antigua.jl') as reader:
    for obj in reader:
        if 'positive_content' in obj:
            positive_text = positive_text + obj['positive_content']
        if 'negative_content' in obj:
            negative_text = negative_text + obj['negative_content']

In [71]:
positive_text = positive_text.strip()[99999]

In [52]:
negative_text = negative_text.strip()

In [53]:
nlp_en = spacy.load('en')

In [72]:
positive_doc = nlp_en(positive_text)

In [56]:
negative_doc = nlp_en(negative_text)

In [65]:
Counter([token.lemma_ for token in negative_doc 
         if (not token.is_punct and not token.is_stop and not token.is_space)]).most_common(100)

[('room', 2460),
 ('night', 659),
 ('hotel', 658),
 ('bathroom', 531),
 ('bed', 516),
 ('bit', 515),
 ('little', 501),
 ('shower', 473),
 ('stay', 472),
 ('breakfast', 461),
 ('staff', 449),
 ('like', 427),
 ('not', 411),
 ('small', 404),
 ('place', 400),
 ('water', 399),
 ('time', 332),
 ('need', 311),
 ('window', 309),
 ('price', 308),
 ('noisy', 307),
 ('door', 301),
 ('good', 292),
 ('noise', 289),
 ('hot', 285),
 ('day', 273),
 ('sleep', 272),
 ('hear', 271),
 ('people', 264),
 ('pay', 260),
 ('work', 258),
 ('walk', 256),
 ('loud', 250),
 ('nice', 245),
 ('area', 238),
 ('bar', 238),
 ('ask', 232),
 ('hostel', 230),
 ('clean', 226),
 ('morning', 225),
 ('come', 213),
 ('get', 212),
 ('charge', 211),
 ('guest', 209),
 ('leave', 200),
 ('outside', 198),
 ('check', 197),
 ('open', 192),
 ('great', 190),
 ('think', 188),
 ('floor', 187),
 ('light', 185),
 ('tell', 184),
 ('Antigua', 182),
 ('2', 181),
 ('wall', 180),
 ('thing', 179),
 ('go', 176),
 ('book', 170),
 ('lot', 169),
 ('to