In [1]:
import spacy
nlp = spacy.load('pt_core_news_lg')
from spacy import displacy

In [2]:
raw_text = "Sete anos após a morte de sua esposa, Mill foi convidado a disputar Westminster. Seu sentimento sobre a condução das eleições fez com que ele se recusasse a tomar qualquer medida pessoal sobre o assunto, e ele deu a mais franca expressão às suas opiniões políticas, mas no entanto, foi eleito por uma grande maioria. Não foi um sucesso convencional na Câmara; como orador, ele carecia de magnetismo. Mas sua influência foi amplamente sentida. "

### Tokenization

No spaCy você utiliza models, que são tipo os ‘cérebros treinados’ de cada língua. Ao passar o texto para o model ele já o separa em tokens e computa várias outras propriedades.

In [3]:
parsedData = nlp(raw_text)

In [4]:
type(parsedData)

spacy.tokens.doc.Doc

In [5]:
word = parsedData[0] # a primeira palavra do texto
print(word.text, word.lower_)

Sete sete


### 🗣 Part-of-speech tagging

É a boa e velha análise gramatical. O model já fez essa análise, que pode ser acessada pela propriedade `.pos_`de cada token.

In [18]:
# enumerate to get index value + only first 5 items

for i, word in enumerate(parsedData):
    print(word.text, word.pos_, word.tag_)
    if i > 6:
        break

Sete NUM NUM
anos NOUN NOUN
após ADP ADP
a DET DET
morte NOUN NOUN
de ADP ADP
sua DET DET
esposa NOUN NOUN


Existe também uma tag mais elaborada, que pode ser acessada pela propriedade `.tag_` Essa tag contém informações sobre a estrutura morfológica da palavra.

In [26]:
word = parsedData[10] # a palavra 'foi'

print("palavra:", word.text)
print("POS tag: (errado, devia ser verb)", word.pos_)
print("fine grainned POS tag: (errado, devia ser VBD: VerbForm=fin Tense=past)", word.tag_)

print('')

word = parsedData[13] # a palavra 'disputar'

print("palavra:", word.text)
print("POS tag: (certo)", word.pos_)
print("fine grainned POS tag: (certo)", word.tag_)

palavra: foi
POS tag: (errado, devia ser verb) AUX
fine grainned POS tag: (errado, devia ser VBD: VerbForm=fin Tense=past) AUX

palavra: disputar
POS tag: (certo) VERB
fine grainned POS tag: (certo) VERB


### Named Entity Recognition (NER)

Esse processo busca identificar categorias como nomes de pessoas, organizações, locais, porcentagens, valores monetários, etc. Essas categorias podem ser pré-definidas por nós, então dependendo do texto podemos criar nossas próprias entidades.
O model também já computou isso pra a gente na propriedade `.ent_type_`.

In [28]:
for word in parsedData:
    if word.ent_type_:
        print(word.text, word.ent_type_, word.pos_, word.tag_)

Mill PER PROPN PROPN
Westminster LOC PROPN PROPN
Câmara LOC PROPN PROPN


##### Visualizing Entity Recognition

O visualizador de entidade destaca entidades nomeadas e seus rótulos em um texto.

In [5]:
displacy.render(parsedData, style="ent")

###  Syntactic Parsing

Syntactic parsing é o processo de representar as dependências do texto através das relações entre os tokens. Por exemplo: um artigo está ligado a um substantivo, um advérbio modifica um verbo, e etc.

O Explosion AI (responsável pelo spaCy) criou uma ferramenta para visualizar essas dependências, o [Dependency Visualizer](https://demos.explosion.ai/displacy/)

O atributo para ter acesso à dependência sintática de cada token é o `.dep_`

In [32]:
for i, word in enumerate(parsedData):
    print(word.text, word.dep_)    
    if i > 15:
        break

Sete nummod
anos obl
após case
a det
morte nmod
de case
sua det
esposa nmod
, punct
Mill nsubj:pass
foi aux:pass
convidado ROOT
a mark
disputar xcomp
Westminster obj
. punct
Seu det


#### Visualizando a análise de dependência

O visualizador de dependência, `dep`, mostra tags de classes gramaticais e dependências sintáticas.

In [20]:
options = {"compact": True, "color": "blue"}
displacy.render(parsedData[:8], style="dep", options=options)

### Word vectors

Para computar as similaridades entre palavras uma técnica comum é representá-las através de vetores. A forma mais famosa de treinar esses vetores é com a família de algoritmos do `word2vec`.

Com o spaCy é fácil trabalhar com vetores porque as classes Lexeme, Token, Span e Doc têm uma propriedade `.vector` . Vamos testar isso vendo as similaridades entre um cachorro, um gato e um cavalo.

In [33]:
my, dog, and_, cat, and__, horse = nlp(u'meu cachorro e gato e cavalo')
print(cat.similarity(dog))
print(cat.similarity(horse))
print(dog.similarity(horse))

0.83681965
0.51903355
0.5587185
