In [7]:
import spacy

In [29]:
nlp = spacy.load('pt')

In [3]:
doc = nlp(u'Caio é um rapaz muito bonito e pobre')

In [4]:
for token in doc:
    print(token.text)

Caio
é
um
rapaz
muito
bonito
e
pobre


In [5]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
          token.shape_, token.is_alpha, token.is_stop)

Caio caio PROPN PROP|M|S|@SUBJ> nsubj Xxxx True False
é ser VERB <mv>|V|PR|3S|IND|@FS-STA cop x True True
um um DET <arti>|ART|M|S|@>N det xx True True
rapaz rapaz NOUN <np-idf>|N|M|S|@<SC ROOT xxxx True False
muito muito ADV <quant>|ADV|@>A advmod xxxx True True
bonito bonito ADJ <first-cjt>|ADJ|M|S|@N< amod xxxx True False
e e CCONJ <co-postnom>|KC|@CO cc x True False
pobre pobre ADJ <cjt>|ADJ|M|S|@N< conj xxxx True False


In [55]:
doc = nlp(u'Caio é um rapaz muito bonito e pobre que trabalha no Aeroporto Petronio Portela')

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Caio 0 4 PER
Aeroporto Petronio Portela 53 79 LOC


In [17]:
doc = nlp(u'Quero ir de Teresina para Paris')

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Quero ir de 0 11 MISC
Teresina 12 20 LOC
Paris 26 31 LOC


In [18]:
tokens = nlp(u'gato macaco pavão')

for token1 in tokens:
    for token2 in tokens:
        print(token1.similarity(token2))

1.0
0.484317
0.124764
0.484317
1.0
0.37698
0.124764
0.37698
1.0


In [29]:
doc = nlp(u'Na tentativa de não passar fome, nosso herói tenta insistir continuar brincando com computador. Até um dia a pobreza o cosumirá por completo')
sentences = list(doc.sents)
print(len(sentences))
print(sentences[0].text)
print(sentences[1].text)

2
Na tentativa de não passar fome, nosso herói tenta insistir continuar brincando com computador.
Até um dia a pobreza o cosumirá por completo


In [33]:
doc = nlp(u'Teresina é uma cidade muito peba')
ents = [(ent.text, ent.start_char, ent.end_char, ent.label_) for ent in doc.ents]
print(ents)

[('Teresina', 0, 8, 'LOC')]


In [None]:
from spacy import displacy

# doc_dep  = nlp(u'Isto é uma sentença')
# displacy.serve(doc_dep, style='dep', port=8181)

doc_ent = nlp(u'Quando comecei a programar não sabia que iria passar fome')
displacy.serve(doc_ent, style='ent', port=8181)

In [8]:
lang = 'pt'
cls = spacy.util.get_lang_class(lang)   #Language instance

In [13]:
# Rule-based morphology

doc = nlp(u'Como uma pedra pode voar tão alto?')

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
          token.shape_, token.is_alpha, token.is_stop)

Como como SCONJ KS|@SUB advmod Xxxx True False
uma umar DET <arti>|ART|F|S|@>N det xxx True True
pedra pedrar NOUN <np-idf>|N|F|S|@SUBJ> nsubj xxxx True False
pode poder VERB <mv>|V|PR|3S|IND|@FS-STA aux xxxx True True
voar voar ADJ ADJ|F|S|@N< ROOT xxxx True False
tão tão ADV <dem>|<quant>|ADV|@>A advmod xxx True True
alto alto ADJ ADJ|M|S|@N< xcomp xxxx True False
? ? PUNCT PU|@PU punct ? False False


In [26]:
doc = nlp(u'Carros em alta velocidade podem causar acidentes e destruir familias inteiras. Um dia os fabricantes de carros devem achar alternativas para minimizar esse tipo de caso')
for token in doc:
    print(token.text, token.dep_, token.head.text, token.head.pos_,
          [child for child in token.children])

Carros nsubj causar VERB [velocidade]
em case velocidade NOUN []
alta amod velocidade NOUN []
velocidade nmod Carros NOUN [em, alta]
podem aux causar VERB []
causar ROOT causar VERB [Carros, podem, acidentes, .]
acidentes obj causar VERB [destruir]
e cc destruir VERB []
destruir conj acidentes NOUN [e, familias]
familias obj destruir VERB [inteiras]
inteiras amod familias NOUN []
. punct causar VERB []
Um nummod dia NOUN []
dia obl achar VERB [Um]
os det fabricantes SYM []
fabricantes nsubj achar VERB [os, carros]
de case carros NOUN []
carros nmod fabricantes SYM [de]
devem aux achar VERB []
achar ROOT achar VERB [dia, fabricantes, devem, alternativas, minimizar]
alternativas obj achar VERB []
para mark minimizar VERB []
minimizar advcl achar VERB [para, tipo]
esse det tipo NOUN []
tipo obj minimizar VERB [esse, caso]
de case caso NOUN []
caso nmod tipo NOUN [de]


In [31]:
doc = nlp(u'São Paulo é considerado um estado desenvolvido')
ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
ents

[('São Paulo', 0, 9, 'LOC')]

In [32]:
import spacy
from spacy.matcher import PhraseMatcher

In [33]:
nlp = spacy.load('pt')
matcher = PhraseMatcher(nlp.vocab)
terminology_list = ['Lula', 'Bolsonaro']
patterns = [nlp(text) for text in terminology_list]
matcher.add('TerminologyList', None, *patterns)

doc = nlp(u"Lula é o candidato do PT."
          u"Bolsonaro é o candidato do PP.")
matches = matcher(doc)


In [42]:
# Similarity

nlp = spacy.load('pt')

doc1 = nlp(u'Quero fazer um pedido')
doc2 = nlp(u'Quero um sanduiche')
doc3 = nlp(u'Quero o cardapio')
doc4 = nlp(u'Gostaria de pedir um carro')
# doc4 = nlp(u'Gostaria de pedir o cardapio')

exp = nlp(u'Gostaria de fazer um pedido')

for i in [doc1, doc2, doc3, doc4]:
    print(exp.similarity(i))

# for doc in [doc1, doc2, doc3]:
#     for other_doc in [doc1, doc2, doc3]:
#         print(doc.similarity(other_doc))

0.775812107132
0.550468104595
0.48554967355
0.934221638748
