In [1]:
import spacy
nlp = spacy.load('pt_core_news_lg')
from spacy import displacy

In [2]:
raw_text = "Sete anos ap√≥s a morte de sua esposa, Mill foi convidado a disputar Westminster. Seu sentimento sobre a condu√ß√£o das elei√ß√µes fez com que ele se recusasse a tomar qualquer medida pessoal sobre o assunto, e ele deu a mais franca express√£o √†s suas opini√µes pol√≠ticas, mas no entanto, foi eleito por uma grande maioria. N√£o foi um sucesso convencional na C√¢mara; como orador, ele carecia de magnetismo. Mas sua influ√™ncia foi amplamente sentida. "

### Tokenization

No spaCy voc√™ utiliza models, que s√£o tipo os ‚Äòc√©rebros treinados‚Äô de cada l√≠ngua. Ao passar o texto para o model ele j√° o separa em tokens e computa v√°rias outras propriedades.

In [3]:
parsedData = nlp(raw_text)

In [4]:
type(parsedData)

spacy.tokens.doc.Doc

In [5]:
word = parsedData[0] # a primeira palavra do texto
print(word.text, word.lower_)

Sete sete


### üó£ Part-of-speech tagging

√â a boa e velha an√°lise gramatical. O model j√° fez essa an√°lise, que pode ser acessada pela propriedade `.pos_`de cada token.

In [18]:
# enumerate to get index value + only first 5 items

for i, word in enumerate(parsedData):
    print(word.text, word.pos_, word.tag_)
    if i > 6:
        break

Sete NUM NUM
anos NOUN NOUN
ap√≥s ADP ADP
a DET DET
morte NOUN NOUN
de ADP ADP
sua DET DET
esposa NOUN NOUN


Existe tamb√©m uma tag mais elaborada, que pode ser acessada pela propriedade `.tag_` Essa tag cont√©m informa√ß√µes sobre a estrutura morfol√≥gica da palavra.

In [26]:
word = parsedData[10] # a palavra 'foi'

print("palavra:", word.text)
print("POS tag: (errado, devia ser verb)", word.pos_)
print("fine grainned POS tag: (errado, devia ser VBD: VerbForm=fin Tense=past)", word.tag_)

print('')

word = parsedData[13] # a palavra 'disputar'

print("palavra:", word.text)
print("POS tag: (certo)", word.pos_)
print("fine grainned POS tag: (certo)", word.tag_)

palavra: foi
POS tag: (errado, devia ser verb) AUX
fine grainned POS tag: (errado, devia ser VBD: VerbForm=fin Tense=past) AUX

palavra: disputar
POS tag: (certo) VERB
fine grainned POS tag: (certo) VERB


### Named Entity Recognition (NER)

Esse processo busca identificar categorias como nomes de pessoas, organiza√ß√µes, locais, porcentagens, valores monet√°rios, etc. Essas categorias podem ser pr√©-definidas por n√≥s, ent√£o dependendo do texto podemos criar nossas pr√≥prias entidades.
O model tamb√©m j√° computou isso pra a gente na propriedade `.ent_type_`.

In [28]:
for word in parsedData:
    if word.ent_type_:
        print(word.text, word.ent_type_, word.pos_, word.tag_)

Mill PER PROPN PROPN
Westminster LOC PROPN PROPN
C√¢mara LOC PROPN PROPN


##### Visualizing Entity Recognition

O visualizador de entidade destaca entidades nomeadas e seus r√≥tulos em um texto.

In [5]:
displacy.render(parsedData, style="ent")

###  Syntactic Parsing

Syntactic parsing √© o processo de representar as depend√™ncias do texto atrav√©s das rela√ß√µes entre os tokens. Por exemplo: um artigo est√° ligado a um substantivo, um adv√©rbio modifica um verbo, e etc.

O Explosion AI (respons√°vel pelo spaCy) criou uma ferramenta para visualizar essas depend√™ncias, o [Dependency Visualizer](https://demos.explosion.ai/displacy/)

O atributo para ter acesso √† depend√™ncia sint√°tica de cada token √© o `.dep_`

In [32]:
for i, word in enumerate(parsedData):
    print(word.text, word.dep_)    
    if i > 15:
        break

Sete nummod
anos obl
ap√≥s case
a det
morte nmod
de case
sua det
esposa nmod
, punct
Mill nsubj:pass
foi aux:pass
convidado ROOT
a mark
disputar xcomp
Westminster obj
. punct
Seu det


#### Visualizando a an√°lise de depend√™ncia

O visualizador de depend√™ncia, `dep`, mostra tags de classes gramaticais e depend√™ncias sint√°ticas.

In [20]:
options = {"compact": True, "color": "blue"}
displacy.render(parsedData[:8], style="dep", options=options)

### Word vectors

Para computar as similaridades entre palavras uma t√©cnica comum √© represent√°-las atrav√©s de vetores. A forma mais famosa de treinar esses vetores √© com a fam√≠lia de algoritmos do `word2vec`.

Com o spaCy √© f√°cil trabalhar com vetores porque as classes Lexeme, Token, Span e Doc t√™m uma propriedade `.vector` . Vamos testar isso vendo as similaridades entre um cachorro, um gato e um cavalo.

In [33]:
my, dog, and_, cat, and__, horse = nlp(u'meu cachorro e gato e cavalo')
print(cat.similarity(dog))
print(cat.similarity(horse))
print(dog.similarity(horse))

0.83681965
0.51903355
0.5587185
