O [spaCy]("https://spacy.io") é uma bilbioteca Python de código fonte [aberto]("https://github.com/explosion/spaCy") para Processamento de 
Linguagem Natural, constantemente a atualizada e mantida. Essa biblioteca é capaz de 
processar diversas línguas, inclusive o português brasileiro.

### Instalação

No linux, a instalação  da biblioteca spaCy pode ser feita com os comandos usuais de gerenciamento dos pacotes do Python, digitando no terminal os seguintes comandos 

In [0]:
# $ pip3 install spacy  
# ou
# $ pip install spacy

__Nota__:  omitir ‘#’ e ‘\\$’. O símbolo ‘#’ foi inserido para criar um comentário na cĺula que roda Python e o  símbolo ‘\\$’  é usado para indicar que se trata de um comando a ser digitado no terminal.

Em seguida devemos baixar as ferramentas específicas para o português e para o inglês  com os seguintes comandos:

In [0]:
# $ python3 -m spacy download en
# $ python3 -m spacy download pt

In [0]:
!python -m spacy download pt

Collecting pt_core_news_sm==2.1.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.1.0/pt_core_news_sm-2.1.0.tar.gz (12.8MB)
[K     |████████████████████████████████| 12.9MB 763kB/s 
[?25hBuilding wheels for collected packages: pt-core-news-sm
  Building wheel for pt-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for pt-core-news-sm: filename=pt_core_news_sm-2.1.0-cp36-none-any.whl size=12843677 sha256=9a1facc514f1098a386ec1a34b32e2a35c560cd46c4361b41b3791bef39dd721
  Stored in directory: /tmp/pip-ephem-wheel-cache-5ki4bqge/wheels/a3/8f/c1/f036e3a7f1aa44fb06a534c6c4b1c2b773f101fdb1f163c08c
Successfully built pt-core-news-sm
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-2.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.6/dist-packages/pt_core_news_sm -->
/usr/

Uma vez que temos o pacote instalado e os módulos para português e inglês baixados,  podemos começar a utilizar  os spaCy, importando o pacote e carregando o módulo para português.

In [0]:
import spacy
spacyPT = spacy.load('pt')

É importante notar que o spaCy assume que os caracteres estão codificado no formato utf-8.  O primeiro passo portanto é gerar uma entrada nesse formato e e submetê-lo ao módulo carregado.

In [0]:
entrada = spacyPT(u"Mais vale um asno que me carregue que um cavalo que me derrube.")
entrada

Mais vale um asno que me carregue que um cavalo que me derrube.

### Tokenização (itemização)

A entrada que acabamos de gerar é uma sequência iterável de tokens (itens,  
ou instâncias de palavras). Se quisermos verificar qual o texto contido nessa 
sequência iterável,  usamos:

In [0]:
entrada.text

'Mais vale um asno que me carregue que um cavalo que me derrube.'

Se quisermos dividir a entrada em token,  podemos utilizar o método __split__: 

In [0]:
entrada.text.split()

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube.']

Note que o ponto  final foi absorvido pela palavra;  o mesmo teria acontecido com 
outros sinais de pontuação a utilizar  o método __split__. Para separar a pontuação 
das palavras utilizamos a  eternização implícita realizada pelo comando __in__:

In [0]:
[token for token in entrada]

[Mais, vale, um, asno, que, me, carregue, que, um, cavalo, que, me, derrube, .]

Note que os streams não estão entre aspas,  pois na realidade esta lista contém uma sequência de objetos da classe __Token__. 

Se o objetivo é obter uma lista de Strings,  podemos proceder da seguinte maneira.


In [0]:
[token.text for token in entrada]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube',
 '.']

E para eliminar totalmente a pontuação da lista,  é só restringirr  a sua criação usando __is_punct__.

In [0]:
[token.text for token in entrada if not token.is_punct]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube']

O spaCy já vem treinando para realizar etiquetagem morfossintática (PoS tagging),  o que pode ser mostrado da seguinte maneira.

In [0]:
[(token.text, token.pos_) for token in entrada]

[('Mais', 'ADV'),
 ('vale', 'VERB'),
 ('um', 'DET'),
 ('asno', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('carregue', 'VERB'),
 ('que', 'SCONJ'),
 ('um', 'DET'),
 ('cavalo', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('derrube', 'VERB'),
 ('.', 'PUNCT')]

Note que ele foi capaz de identificar quais as ocorrências da palavra _que_  são pronomes relativos e qual ocorrência é uma conjunção complementizadora.  Infelizmente não foi capaz de identificar que a palavra _asno_ é um substantivo,  possivelmente porque essa palavra não pertence ao seu dicionário interno;  infelizmente também não temos como retreinar o etiquetador morfossintático do spaCy, em busca de maior precisão.  Neste casos só nos resta tentar implementar um outro etiquetador.

Mesmo assim,  assistência de Ticket a dor nos permite fazer buscas bastante sofisticadas. Por exemplo podemos buscar os lemas de todos os verbos encontrados  na sentença.

In [0]:
[token.lemma_ for token in entrada if token.pos_ == 'VERB']

['valer', 'carregar', 'derrubar']

Os lemas de verbos conjugados nos fornecem  a sua forma infinitiva.

### Reconhecimento de entidades nomeadas

A biblioteca já vem treinada com u  mecanismo que permite o reconhecimento de 
entidades mencionada (nomeadas). 

In [0]:
texto2 = spacyPT(u"O presidente Bolsonaro deu uma ordem ao Ministério do Meio Ambiente, que gerou calafrios no Congresso.")
print(texto2.ents)
[(entidade,entidade.label_) for entidade in texto2.ents]

(Bolsonaro, Ministério do Meio Ambiente, Congresso)


[(Bolsonaro, 'PER'), (Ministério do Meio Ambiente, 'LOC'), (Congresso, 'LOC')]

Note que ele acertou no reconhecimento das três entidades nomeadas, porém errou na 
classificação dos três;  a primeira identidade é uma pessoa e as duas últimas são 
organizações.  Há bastante margem para melhorias de precisão com algoritmos mais 
robustos e treinados com muito mais dados.