<h1 style="font-size:2.8rem;color:#2596be;">Introdução ao spaCy</h1>

O spaCy é uma biblioteca gratuita e _open source_ para **Processamento de Linguagem Natural** avançado em Python.

Foi especificamente projetada para uso em produção e para auxiliar na criação de aplicações que processam e "entendem" grandes volumes de texto.

Ela pode ser usada para realizar a extração de informações, construir sistemas de compreensão de linguagem natural ou para pré-processar texto para modelos de _deep learning_.

## Capacidades

### Features

Todos os recursos e capacidades da biblioteca se situam em conceitos linguísticos e funcionalidades gerais de _machine learning_. Podemos citar:

| Name |	Description |
| :- | :- |
| Tokenização |	Segmentação do texto em sentenças, palavras, pontuações, etc. |
| Classificação gramatical (_Part-of-Speech Tagging_ ou _POS Tagging_) | Atribuição de tipos de palavras aos tokens (substantivo, adjetivo, verbo, etc.). |
| Análise de dependência | Atribuição de _labels_ de dependência sintática, que descrevem a relação entre tokens individuais, como sujeito ou objeto. |
| Lematização | Atribuição das formas básicas das palavras (viveriam-viver, carros-carro, ...). |
| Detecção de limite de frase (_Sentence Boundary Detection_ ou SBD) | Identificação e segmentação de frases/sentenças individuais. |
| Reconhecimento de entidades nomeadas (_Named Entity Recognition_ ou NER) | Rotulação de objetos do "mundo real", como pessoas, empresas ou lugares. |
| Vinculação de entidades (_Entity Linking_ ou EL) | Remoção de ambiguidade em entidades textuais, criando identificadores únicos para cada uma em uma base de conhecimento. |
| Similaridade | Comparação de palavras, intervalos de textos (_spans_) e documentos, e aferição (quão similar esses elementos são com cada um). |
| Classificação textual | Atribuição de categorias ou _labels_  para todo um documento, ou partes dele. |
| Correspondência baseada em regras | Busca de sequência de tokens baseada em anotações textuais ou linguísticas (<strike>Regex com esteróides</strike>) |
| Treinamento | Atualização e aperfeiçoamento de modelos estatísticos de predição |
| Serialização | Guardando objetos e arquivos ou _byte strings_ |

Mais detalhes podem ser encontrados no tópico de [anotações linguísticas](https://spacy.io/usage/spacy-101#annotations) e em outros tópicos na documentação.

### Pipeline

Alguns recursos do spaCy podem funcionar de maneira independente, enquanto outros necessitam ser carregados de modelos de pipelines treinados. De toda forma, a estrutura e funcionamento da biblioteca se dá pela definição e utilização de um pipeline.

Um pipeline treinado consiste em vários componentes que usam um modelo estatístico (_machine learning_) treinado com dados rotulados. O spaCy atualmente oferece diversos pipelines treinados para uma variedade de linguagens (incluindo o português), que podem ser instaladas como módulos Python individuais.

![Pipeline](https://spacy.io/images/pipeline.svg)

Ao chamar o objeto `nlp` para um texto, o spaCy primeiro tokeniza o texto para produzir um objeto `Doc`. O `Doc` é então processado em várias etapas diferentes, com base nos componentes definidos do pipeline. Essas etapas são referidas como **pipeline de processamento**.

## Instalação

A instalação pode ser feita com uma série de configurações, com base no sistema operacional, plataforma, gerenciador de pacotes, hardware, etc. Nesta introdução, será abordada apenas uma forma através do `pip`, para Linux, com procesamento em CPU, plataforma x86.

Mais detalhes no tópico de [instalação](https://spacy.io/usage) da documentação.

In [None]:
# Criação e utilização de ambiente virtual, caso queira instalar localmente

python -m venv .env   #Criando
source .env/bin/activate    #Ativando
# deactivate    #Desativando

In [None]:
pip install -U pip setuptools wheel
pip install -U spacy pandas
python -m spacy download pt_core_news_sm    #Modelo de pipeline em pt para eficiência
# python -m spacy download pt_core_news_lg    #Modelo de pipeline em pt para precisão

## Exemplos

### Básico

É possível carregar um pipeline vazio, habilitar componentes nele ou então carregar um pipeline completo e desabilitar componentes. Porém, isso deve ser feito com cuidado pois alguns componentes podem depender de outro.

Geralmente, um pipeline vazio é utilizado quando não existe um pipeline pré-treinado para a linguagem, para treinar o próprio modelo ou então para uso somente da tokenização e de regras específicas da linguagem.

In [3]:
# Criando um objeto nlp vazio da lingua portuguesa
import spacy


nlp = spacy.blank ("pt")
nlp.pipe_names  #Retorna uma lista com os nomes dos componentes do pipeline (no caso, uma lista vazia)

[]

In [4]:
# Carregando um pipeline pré-treinado (através do módulo do spaCy ou pelo módulo do modelo)
import spacy
# import pt_core_news_sm as pt_model

nlp = spacy.load("pt_core_news_sm")
# nlp = pt_model.load()
nlp.pipe_names

# nlp.disable_pipe("tok2vec")   #Para desabilitar componente
# nlp.enable_pipe("tok2vec")    #Para habilitar componente

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']

Quando você processa um texto com um objeto `nlp`, o spaCy cria um objeto `Doc` (abreviação de "documento"). Nele, é possível acessar várias informações do texto de forma estruturada, sem perder nenhuma informação original.

O `Doc` se comporta como uma sequência do Python, permitindo iterações nos tokens e acesso pelo índice.

In [8]:
# Processando um texto como exemplo básico
doc = nlp("Apresento-lhes a frase-exemplo. Esta é uma sra. frase como exemplo para vocês.")
print('\n'.join([f'Texto: {w.text:<16}Lemma: {w.lemma_:<16}Pos: {w.pos_:<12}' for w in doc]))

Texto: Apresento-lhes  Lemma: apresento-lhe   Pos: VERB        
Texto: a               Lemma: a               Pos: ADP         
Texto: frase-exemplo   Lemma: frase-exemplo   Pos: NOUN        
Texto: .               Lemma: .               Pos: PUNCT       
Texto: Esta            Lemma: este            Pos: PRON        
Texto: é               Lemma: ser             Pos: AUX         
Texto: uma             Lemma: um              Pos: DET         
Texto: sra.            Lemma: sra.            Pos: NOUN        
Texto: frase           Lemma: frase           Pos: NOUN        
Texto: como            Lemma: como            Pos: ADP         
Texto: exemplo         Lemma: exemplo         Pos: NOUN        
Texto: para            Lemma: para            Pos: ADP         
Texto: vocês           Lemma: você            Pos: PRON        
Texto: .               Lemma: .               Pos: PUNCT       


### Com propostas do Brasil Participativo

No caso do nosso projeto, iremos processar propostas que foram submetidas na plataforma do Brasil Participativo. Idealmente e em um primeiro momento, necessitamos apenas processar os dados contidos nos campos de título e descrição das propostas.

In [10]:
# Processando um proposta como exemplo
import pandas as pd

propostas = pd.read_csv('./propostas.csv')
docTitle = nlp(propostas['Título'].iloc[0])
docDesc = nlp(propostas['Descrição'].iloc[0])

print(f'TÍTULO: {docTitle}\n')
print('\n'.join([f'Texto: {w.text:<15}Lemma: {w.lemma_:<15}Pos: {w.pos_:<10}' for w in docTitle]))
print('\n---------------------------------------------------------------------------------\n')
print(f'DESCRIÇÃO: {docDesc}\n')
print('\n'.join([f'Texto: {w.text:<15}Lemma: {w.lemma_:<15}Pos: {w.pos_:<10}' for w in docDesc]))


TÍTULO: Centro de tratamento para pneumologia 

Texto: Centro         Lemma: centro         Pos: NOUN      
Texto: de             Lemma: de             Pos: ADP       
Texto: tratamento     Lemma: tratamento     Pos: NOUN      
Texto: para           Lemma: para           Pos: ADP       
Texto: pneumologia    Lemma: pneumologia    Pos: NOUN      

---------------------------------------------------------------------------------

DESCRIÇÃO: A pneumologia está necessitando com urgência de um centro de tratamento para pacientes com HAP, Broctassia cística, HAS, fibrose cística, ect .
Nosso estado por ser um Polo de saúde está deixando a deseja.
Urgência pessoa estão morendo a volta do diagnóstico.

Texto: A              Lemma: o              Pos: DET       
Texto: pneumologia    Lemma: pneumologia    Pos: NOUN      
Texto: está           Lemma: estar          Pos: AUX       
Texto: necessitando   Lemma: necessitar     Pos: VERB      
Texto: com            Lemma: com            Pos: ADP    

---
Perceba que o modelo de pipeline pré-treinado não acerta 100% dos casos, pois se trata de modelos de _machine learning_. Pode ser necessário a modificação (um ajuste fino) das métricas de algum componente para melhorar sua precisão ou mesmo o treinamento de novos componentes para substituir os utilizados.

## Referências e Conteúdos Complementares

- [Spacy 101](https://spacy.io/usage/spacy-101)
- [PLN avançado com spaCy - Curso completo](https://course.spacy.io/pt)
- [Pipelines em PT](https://spacy.io/models/pt)
- Aba de **Guides** da [Documentação oficial](https://spacy.io/usage)

Obs.: Recomendo começar pelo capítulo 1 do curso de PLN avançado.