# Imports

In [1]:
import spacy
import pt_core_news_sm

In [2]:
# nlp = spacy.load('en_core_web_sm-2.2.0')
nlp = pt_core_news_sm.load()

# Tokenization

In [3]:
string = 'Você pode encontrar as coisas que perdeu, mas nunca as que abandonou. -- Gandalf'
string

'Você pode encontrar as coisas que perdeu, mas nunca as que abandonou. -- Gandalf'

In [4]:
doc = nlp(string)

for token in doc:
    print(token.text, end=' | ')

Você | pode | encontrar | as | coisas | que | perdeu | , | mas | nunca | as | que | abandonou | . | -- | Gandalf | 

    Os tokens são os blocos básicos de construção de um objeto Doc.

#### Prefixes, Suffixes and Infixes
    spaCy irá isolar a pontuação que não faz parte integrante de uma palavra. As aspas, vírgulas e pontuação no final de uma frase terão seu próprio token. No entanto, a pontuação que existe como parte de um endereço de e-mail, site ou valor numérico será mantida como parte do token.

In [5]:
doc = nlp(u"Muitos que vivem merecem a morte. E alguns que morrem merecem viver. Você pode dar-lhes vida? Então não seja tão ávido para julgar e condenar alguém à morte! -- Gandalf")

for token in doc:
    print(token)

Muitos
que
vivem
merecem
a
morte
.
E
alguns
que
morrem
merecem
viver
.
Você
pode
dar-lhes
vida
?
Então
não
seja
tão
ávido
para
julgar
e
condenar
alguém
à
morte
!
--
Gandalf


# Vocabulário

In [6]:
len(doc.vocab)

272

<font color=green>NOTA: Este número muda com base na biblioteca de idiomas carregada no início</font>

    Os tokens podem ser recuperados por posição de índice e fatia
    Os objetos Doc podem ser considerados listas de objetos token. 
    Os tokens individuais podem ser recuperados por posição de índice, e extensões de tokens podem ser recuperadas por meio de fatiamento:

In [7]:
doc = nlp(u'Muitos que vivem merecem a morte. E alguns que morrem merecem viver. Você pode dar-lhes vida? Então não seja tão ávido para julgar e condenar alguém à morte! -- Gandalf')

doc[2]

vivem

    Recupere três tokens do meio:

In [8]:
doc[2:5]

vivem merecem a

    Recupere os últimos quatro tokens:

In [9]:
doc[-4:]

morte! -- Gandalf

# Entidades Nomeadas
    Entidades Nomeadas adicionam outra camada de contexto, o modelo de linguagem reconhece que certas palavras são nomes organizacionais enquanto outras são localizações, e ainda outras combinações se relacionam a dinheiro, datas, etc. 
    Entidades nomeadas são acessíveis através da propriedade ents de um objeto Doc.

In [10]:
doc = nlp(u'LG vai construir uma fabrica no Brasil por 10 mil reais')

for token in doc:
    print(token.text, end=' | ')

print('\n______')
print('\n')

for ent in doc.ents:
    print(ent.text+' - '+ent.label_+' - '+str(spacy.explain(ent.label_)))

LG | vai | construir | uma | fabrica | no | Brasil | por | 10 | mil | reais | 
______


LG - ORG - Companies, agencies, institutions, etc.
Brasil - LOC - Non-GPE locations, mountain ranges, bodies of water


In [11]:
len(doc.ents)

2

# Visualizadores 

    SpaCy inclui uma ferramenta de visualização integrada chamada displaCy .
    O displaCy é capaz de detectar se você está trabalhando em um bloco de notas Jupyter e retorna uma marcação que pode ser renderizada em uma célula imediatamente.
https://spacy.io/usage/visualizers

In [12]:
from spacy import displacy

In [13]:
doc = nlp(u'LG vai construir uma fabrica no Brasil por 10 mil reais.') #Apple is going to build a U.K. factory for $6 million.

displacy.render(doc, style='dep', jupyter=True, options={'distance': 110})

    Visualizando o reconhecedor de entidade

In [14]:
doc = nlp(u'LG vai construir uma fabrica no Brasil por 10 mil reais.') #Apple is going to build a U.K. factory for $6 million.

displacy.render(doc, style='ent', jupyter=True)

#### Criando visualizações fora do Jupyter

Serving on http://0.0.0.0:5000 ...

In [15]:
doc = nlp(u'LG vai construir uma fabrica no Brasil por 10$ mil reais.')
displacy.serve(doc, style='dep')

  "__main__", mod_spec)



Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.
