<h1 align=center>Capítulo 2 - Operações principais com spaCy</h1>
<p align=center><img src=https://www.edivaldobrito.com.br/wp-content/uploads/2021/02/spacy-uma-biblioteca-de-processamento-de-linguagem-natural.jpg width=500></p>

Neste capítulo, você aprenderá as principais operações com **spaCy**, como criar um pipeline de linguagem, tokenizar o texto e dividir o texto em frases.

Primeiro, você aprenderá o que é um pipeline de processamento de linguagem e os componentes do pipeline. Continuaremos com as convenções gerais de spaCy – aulas importantes e organização de classes – para ajudá-lo a entender melhor a organização da biblioteca spaCy e desenvolver uma compreensão sólida da própria biblioteca.

Você aprenderá então sobre o primeiro componente do pipeline – **Tokenizer**. Você também aprenderá sobre um importante conceito linguístico – **lematização** – juntamente com suas aplicações na **compreensão da linguagem natural (NLU)**.

Em seguida, abordaremos as **classes de contêiner** e as **estruturas de dados spaCy** em detalhes. Terminaremos o capítulo com recursos úteis que você usará no desenvolvimento diário de PNL.

## Visão geral das convenções spaCy
Cada aplicação de PNL consiste em várias etapas de processamento do texto. Como você pode ver no primeiro capítulo, sempre criamos instâncias chamadas **nlp** e **doc*. Mas o que fizemos exatamente?

Quando chamamos **nlp** em nosso texto, **spaCy** aplica algumas etapas de processamento. A primeira etapa é a tokenização para produzir um objeto **Doc**. O objeto **Doc** é então processado com um **tagger**, um **analisador (parser)** e um **reconhecedor de entidade (entity recognizer)**. Essa maneira de processar o texto é chamada de **pipeline de processamento de linguagem**. Cada componente da pipeline retorna o **Doc** processado e o passa para o próximo componente:

<img src='images/pipeline_tokenizer.PNG' width=900>

Um objeto de **pipeline spaCy** é criado quando carregamos um modelo de linguagem. Carregamos um modelo em inglês e inicializamos um pipeline no seguinte segmento de código:

In [2]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp('I went there')

O que aconteceu exatamente no código anterior é o seguinte:
1. Começamos importando **spaCy**.
2. Na segunda linha, **spacy.load()** retornou uma instância da classe **Language**, **nlp**. A classe **Language** é o *pipeline de processamento de texto*.
3. Depois disso, aplicamos **nlp** na frase de exemplo **"I went there"** e peguei uma instância da classe **Doc**, **doc**.

A classe **Language** aplica todas as etapas anteriores do pipeline à sua frase de entrada nos bastidores. Depois de aplicar **nlp** à sentença, o objeto **Doc** contém tokens que são marcados, lematizados e marcados como entidades se o token for uma entidade (então entraremos em detalhes sobre o que são e como isso é feito posteriormente). Cada componente do pipeline tem uma tarefa bem definida:

<img src="images/pipeline_components.PNG" width=900>

O pipeline de processamento de linguagem **spaCy** sempre depende do modelo estatístico e de seus recursos. É por isso que sempre carregamos um modelo de linguagem com **spacy.load()** como o primeiro passo em nosso código.

Cada componente corresponde a uma classe **spaCy**. As classes **spaCy** têm nomes autoexplicativos, como **Language**, **Doc** e **Vocab**. Já usamos as classes **Language** e **Doc** – vamos ver todas as classes do pipeline de processamento e suas funções:

<img src="images/processing_pipeline.png">

Não fique intimidade com o número de classes. Cada classe tem um característica única para nos ajudar a processar o texto melhor.

Existem mais estruturas de dados para representar os dados de texto e os dados da linguagem. A classe Conteiner como a Doc armazena as informações sobre as sentenças, palavras e o texto. Existem outras classes conteiner além da Doc:

<img src="images/conteiner_classes.PNG" width=900>

Finalmente, spaCy fornece classes auxiliares para vetores, vocabulário de linguagem e anotações. Veremos a classe **Vocab** frequentemente neste livro. **Vocab** representa o vocabulário de uma língua. Vocab contém todas as palavras do modelo de linguagem que carregamos:

<img src="images/outras_classes.PNG" width=900>

As estruturas de dados do backbone da biblioteca spaCy são **Doc** e **Vocab**. O objeto **Doc** abstrai o texto possuindo a sequência de tokens e todas as suas propriedades. O objeto **Vocab** fornece um conjunto centralizado de **strings** e atributos léxicos para todas as outras classes. Dessa forma, o **spaCy** evita o armazenamento de várias cópias de dados linguísticos:

<img src="images/diagrama_spacy.PNG">

Você pode dividir os objetos que compõem a arquitetura spaCy anterior em dois: **contêineres** e **componentes de pipeline de processamento**. Neste capítulo, primeiro aprenderemos sobre dois componentes básicos, **Tokenizer** e **Lemmatizer**, depois exploraremos mais os objetos **Container**.

**spaCy** faz todas essas operações para nós nos bastidores, permitindo que nos concentremos no desenvolvimento de nosso próprio aplicativo. Com esse nível de abstração, usar **spaCy** para desenvolvimento de aplicativos NLP não é coincidência. Vamos começar com a classe **Tokenizer** e ver o que ela oferece para nós; em seguida, exploraremos todas as classes de contêineres uma a uma ao longo do capítulo.

## Apresentando a tokenização
Vimos que a primeira etapa em um pipeline de processamento de texto é a tokenização. A tokenização é sempre a primeira operação porque todas as outras operações requerem os tokens.

Tokenização significa simplesmente dividir a sentença em seus tokens. Um token é uma unidade de semântica. Você pode pensar em um token como a menor parte significativa de um pedaço de texto. Os tokens podem ser palavras, números, pontuação, símbolos de moeda e quaisquer outros símbolos significativos que são os blocos de construção de uma frase. Seguem exemplos de tokens:
* USA
* N.Y
* 33
* 3rd
* !
* ...
* ?
* 's

A entrada para o tokenizer **spaCy** é um texto Unicode e o resultado é um objeto **Doc**. O código a seguir mostra o processo de tokenização:

In [3]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp("Im own Giger cat.")
print([token.text for token in doc])

['I', 'm', 'own', 'Giger', 'cat', '.']


O seguinte é o que acabamos de fazer:
1. Começamos importando **spaCy**.
2. Em seguida, carregamos o modelo de idioma inglês por meio do atalho **en** para criar uma instância da **classe nlp Language**.
3. Em seguida, aplicamos o objeto **nlp** à sentença de entrada para criar um objeto **Doc**, **doc**. Um objeto **Doc** é um contêiner para uma sequência de objetos **Token**. **spaCy** gera os objetos **Token** implicitamente quando criamos o objeto **Doc**.
4. Finalmente, imprimimos uma lista dos tokens da sentença anterior.

É isso, fizemos a tokenização com apenas três linhas de código. Você pode visualizar a tokenização com indexação da seguinte forma:

<img src="images/tokenização_im_own_giver_cat.PNG" width=500>

Como os exemplos sugerem, a tokenização pode realmente ser complicada. Há muitos aspectos aos quais devemos prestar atenção: pontuação, espaços em branco, números e assim por diante. Dividir os espaços em branco com **text.split(" ")** pode ser tentador e parece que está funcionando para a frase de exemplo que *I own a ginger cat*.

Que tal a frase **"It´s been a crazy week!!!"**? Se fizermos um **split(" ")** os tokens resultantes seriam **It's, been, a, crazy, week!!!**, que não é o que você deseja. Em primeiro lugar, **It's** não é um token, são dois tokens: **it** e **'s**. **week!!!** não é um token válido, pois a pontuação não está dividida corretamente. Além disso, **!!!** deve ser tokenizado por símbolo e deve gerar três **!**. Isso pode não parecer um detalhe importante, mas acredite, é importante para a análise de sentimentos. Vamos ver o que o tokenizer **spaCy** gerou:

In [5]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp("It's been a crazy week!!!")
print([token.text for token in doc])

['It', "'s", 'been', 'a', 'crazy', 'week', '!', '!', '!']


Como o spaCy sabe onde dividir a frase? Ao contrário de outras partes do pipeline, o tokenizer não precisa de um modelo estatístico. A tokenização é baseada em regras específicas do idioma.

As exceções do **tokenizer** definem regras para exceções, como **it's**, **don't**, **won't**, abreviaturas e assim por diante. você verá que as regras se parecem com {ORTH: "n't", LEMMA:"not"}, que descreve a regra de divisão de n't para o tokenizer.

Os prefixos, sufixos e infixos descrevem principalmente como lidar com pontuação – por exemplo, dividimos em um ponto se estiver no final da frase, caso contrário, provavelmente é parte de uma abreviação como N.Y. e não deveríamos toque isso. Aqui, **ORTH** significa o texto e **LEMMA** significa a forma da palavra base sem quaisquer inflexões. O exemplo a seguir mostra a execução do algoritmo de tokenização spaCy:

<img src="images/rules_tokenization.PNG" width=500>

As regras de tokenização dependem das regras gramaticais do idioma individual. As regras de pontuação, como pontos de divisão, vírgulas ou pontos de exclamação, são mais ou menos semelhantes para muitos idiomas; no entanto, algumas regras são específicas para o idioma individual, como palavras de abreviação e uso de apóstrofos. **spaCy** suporta cada idioma com suas próprias regras específicas, permitindo dados e regras codificados à mão, pois cada idioma tem sua própria subclasse.

> **Dica**

> **spaCy** fornece tokenização *não destrutiva*, o que significa que sempre poderemos recuperar o texto original dos tokens. As informações de espaço em branco e pontuação são preservadas durante a tokenização, portanto, o texto de entrada é preservado como está.
> Cada objeto **Language** contém um objeto **Tokenizer**. A classe **Tokenizer** é a classe que executa a tokenização. Você não costuma chamar essa classe diretamente quando cria uma instância de classe **Doc**, enquanto a classe **Tokenizer** atua nos bastidores. Quando queremos customizar a tokenização, precisamos interagir com essa classe. Vamos ver como é feito.

## Personalizando o tokenizer
Quando trabalhamos com um domínio específico, como medicina, seguros ou finanças, muitas vezes nos deparamos com palavras, abreviações e entidades que precisam de atenção especial. A maioria dos domínios que você processará tem palavras e frases características que precisam de regras de tokenização personalizadas. Veja como adicionar uma regra de caso especial a uma instância de classe **Tokenizer** existente:

In [10]:
import spacy
from spacy.symbols import ORTH

nlp = spacy.load('en_core_web_md')
doc = nlp('lemme that')
print([w.text for w in doc])

['lemme', 'that']


In [12]:
special_case = [{ORTH:'lem'},{ORTH:'me'}]
nlp.tokenizer.add_special_case('lemme',special_case)
print([w.text for w in nlp('lemme that')])

['lem', 'me', 'that']


Aqui está o que nós fizemos:
1. Começamos novamente importando o **spaCy**.
2. Em seguida, importamos o símbolo **ORTH**, que significa ortografia; isto é, texto.
3. Continuamos com a criação de um objeto de classe **Language**, **nlp**, e criamos um objeto *Doc*, **doc**.
4. Definimos um caso especial, onde a palavra **lemme** deve ser tokenizada como dois tokens, **lem** e **me**.
5. Adicionamos a regra ao tokenizer do objeto **nlp**.
6. A última linha mostra como a nova regra funciona.

Quando definimos regras personalizadas, as regras de divisão de pontuação ainda serão aplicadas. Nosso caso especial será reconhecido como resultado, mesmo que esteja cercado por pontuação. O tokenizer dividirá a pontuação passo a passo e aplicará o mesmo processo à substring restante:

In [13]:
print([w.text for w in nlp('lemme!')])

['lem', 'me', '!']


Se você definir uma regra de caso especial com pontuação, a regra de caso especial terá precedência sobre a divisão de pontuação:

In [14]:
nlp.tokenizer.add_special_case("...lemme...?", [{"ORTH": "...lemme...?"}])
print([w.text for w in nlp("...lemme...?")])

['...lemme...?']


> **Dica profissional**
Modifique o tokenizer adicionando novas regras *somente se você realmente precisar*. Confie em mim, você pode obter resultados bastante inesperados com regras personalizadas. Um dos casos em que você realmente precisa é ao trabalhar com o texto do *Twitter*, que geralmente está cheio de *hashtags* e símbolos especiais. Se você tiver texto de mídia social, primeiro insira algumas frases no *pipeline spaCy NLP* e veja como a tokenização funciona.

## Depurando o tokenizer
A biblioteca spaCy possui uma ferramenta para depuração:

**nlp.tokenizer.explain(sentence)**. Ele retorna tuplas **(tokenizer rule/pattern,token)** para nos ajudar a entender o que aconteceu exatamente durante a tokenização. Vejamos um exemplo:

In [16]:
import spacy
nlp = spacy.load("en_core_web_md")
text = "Let's go!"
doc = nlp(text)
tok_exp = nlp.tokenizer.explain(text)
for t in tok_exp:
    print(f"{t[1]}  --------------> {t[0]}")

Let  --------------> SPECIAL-1
's  --------------> SPECIAL-2
go  --------------> TOKEN
!  --------------> SUFFIX


No código anterior, importamos o **spaCy** e criamos uma instância da classe **Language**, **nlp**, como de costume. Em seguida, criamos uma instância da classe *Doc* com a frase **Let's go!**. Em seguida, solicitamos à instância da classe *Tokenizer*, **tokenizer**, do *nlp* uma explicação sobre a tokenização desta sentença. **nlp.tokenizer.explain()** explicou as regras que o tokenizer usou uma a uma.

Depois de dividir uma frase em seus tokens, é hora de dividir um texto em suas frases.

## Segmentação de frases
Vimos que quebrar uma sentença em seus tokens não é uma tarefa simples. Que tal quebrar um texto em frases? É realmente um pouco mais complicado marcar onde uma frase começa e termina devido aos mesmos motivos de pontuação, abreviações e assim por diante.

As sentenças de um objeto *Doc* estão disponíveis através da propriedade **doc.sents**:

In [17]:
import spacy
nlp = spacy.load("en_core_web_md")
text = "I flied to N.Y yesterday. It was around 5 pm."
doc = nlp(text)
for sent in doc.sents:
    print(sent.text)

I flied to N.Y yesterday.
It was around 5 pm.


Determinar os limites da frase é uma tarefa mais complicada do que a tokenização. Como resultado, spaCy usa o analisador de dependência para realizar a segmentação de sentenças. Esta é uma característica única do spaCy – nenhuma outra biblioteca põe em prática uma ideia tão sofisticada. Os resultados são muito precisos em geral, a menos que você processe texto de um gênero muito específico, como do domínio da conversa ou texto de mídia social.

Agora sabemos como segmentar um texto em frases e tokenizar as frases. Estamos prontos para processar os tokens um por um. Vamos começar com a *lematização*, uma operação comumente usada em semântica, incluindo análise de sentimentos.

**Entendendo a lematização**

Um **lemma** é a forma base de um token. Você pode pensar em um *lemma* como a forma na qual o token aparece em um dicionário. Por exemplo, o *lemma* de *eating* é *eat*; o *lemma* de *eats* é *eat*; *ate* da mesma forma mapeia para *eat*. *Lematização* é o processo de reduzir as formas das palavras aos seus *lemmas*. O código a seguir é um exemplo rápido de como fazer lematização com spaCy:

In [18]:
import spacy
nlp = spacy.load("en_core_web_md")
doc = nlp("I went there for working and worked for 3 years.")
for token in doc:
    print(f"TOKEN: {token.text} == LEMMA: {token.lemma_}")

TOKEN: I == LEMMA: I
TOKEN: went == LEMMA: go
TOKEN: there == LEMMA: there
TOKEN: for == LEMMA: for
TOKEN: working == LEMMA: work
TOKEN: and == LEMMA: and
TOKEN: worked == LEMMA: work
TOKEN: for == LEMMA: for
TOKEN: 3 == LEMMA: 3
TOKEN: years == LEMMA: year
TOKEN: . == LEMMA: .


Até agora, você deve estar familiarizado com o que as três primeiras linhas do código fazem. Lembre-se de que importamos a biblioteca **spacy**, carregamos um modelo em inglês usando **spacy.load**, criamos um pipeline e aplicamos o pipeline à frase anterior para obter um objeto **Doc**. Aqui nós iteramos sobre tokens para obter seu *texto* e *lemmas*.

Este é um lemma pronome, um símbolo especial para lemas de pronomes pessoais. Esta é uma exceção para fins semânticos: os pronomes pessoais *você*, *eu*, *tu*, *ele*, *dele* e assim por diante, parecem diferentes, mas em termos de significado, eles estão no mesmo grupo. *spaCy* oferece este truque para os lemas do pronome.

Não se preocupe se tudo isso soar muito abstrato – vamos ver a lematização em ação com um exemplo do mundo real.

### Lematização em NLU

A lematização é um passo importante na NLU. Veremos um exemplo nesta subseção. Suponha que você crie um pipeline de NLP para um sistema de reserva de passagens. Seu aplicativo processa a sentença de um cliente, extrai dela as informações necessárias e a passa para a API de reservas.

O pipeline de NLP deseja extrair a forma da viagem (*a flight*, *bus*, ou *train*), a *cidade de destino* e a *data*. A primeira coisa que o aplicativo precisa verificar é o meio de viagem:

* *fly* – *flight* – *airway* – *airplane* - *plane*

* *bus*

* *railway* – *train*

Temos essa lista de palavras-chave e queremos reconhecer os meios de viagem pesquisando os tokens na lista de palavras-chave. A maneira mais compacta de fazer essa pesquisa é pesquisar o lemma do token. Considere as seguintes frases de clientes:

* List me all flights to Atlanta.
* I need a flight to NY.
* I flew to Atlanta yesterday evening and forgot my baggage.

Aqui, não precisamos incluir todas as formas de palavras do verbo *fly* (*fly, flying, flies, flew, and flown*) na lista de palavras-chave e similares para a palavra **flight**; reduzimos todas as variantes possíveis para as formas básicas – *fly* e *flight*. Não pense apenas em inglês; línguas como espanhol, alemão e finlandês também têm muitas formas de palavras de um único lemma.

A *lematização* também é útil quando queremos reconhecer a cidade de destino. Existem muitos apelidos disponíveis para cidades globais e a API de reservas pode processar apenas os nomes oficiais. O tokenizer e o lematizer padrão não saberão a diferença entre o nome oficial e o apelido. Nesse caso, você pode adicionar regras especiais, como vimos na seção *Introdução à tokenização*. O código a seguir desempenha um pequeno truque:

In [18]:
import spacy
from spacy.symbols import ORTH, NORM, LEMMA
nlp = spacy.load('en_core_web_md')
special_case = [{ORTH: 'Angeltown', NORM: 'Los Angeles'}]
nlp.tokenizer.add_special_case('Angeltown', special_case)
doc = nlp(u'I am flying to Angeltown')
for token in doc:
    print(f"TOKEN: {token.text} == LEMMA: {token.norm_}")

TOKEN: I == LEMMA: i
TOKEN: am == LEMMA: am
TOKEN: flying == LEMMA: flying
TOKEN: to == LEMMA: to
TOKEN: Angeltown == LEMMA: Los Angeles


Definimos um caso especial para a palavra Angeltown substituindo seu lema pelo nome oficial Los Angeles. Em seguida, adicionamos esse caso especial à instância do Tokenizer. Quando imprimimos os lemas token, vemos que Angeltown mapeia para Los Angeles como desejávamos.

Um *lemma* é a forma base de uma palavra e é sempre um membro do vocabulário da língua. O radical não precisa ser uma palavra válida. Por exemplo, o lemma da *improvement* é *improvement*, mas o radical é *improv*. Você pode pensar no radical como a menor parte da palavra que carrega o significado. Compare os seguintes exemplos:
Word       |      Lemma
-----------|------------
university | university
universe|  universe
universal | universal
universities| university
universes| universe
improvement | improvement
improvements |improvements
improves | improve
Os exemplos de lemas de palavras anteriores mostram como o lema é calculado seguindo as regras gramaticais do idioma. Aqui, o lema de uma forma plural é a forma singular, e o lema de um verbo de terceira pessoa é a forma básica do verbo. Vamos compará-los com os seguintes exemplos de pares de radicais de palavras:
Raiz da palavra
universidades universitárias
universo universo
universos universais
universidades universi
universos universos
melhoria melhoria
melhorias melhorar
melhora a improvisação
O primeiro e mais importante ponto a ser observado nos exemplos anteriores é que o lema não precisa ser uma palavra válida na linguagem. O segundo ponto é que muitas palavras podem mapear para o mesmo radical. Além disso, palavras de diferentes categorias gramaticais podem ser mapeadas para o mesmo radical; aqui, por exemplo, o substantivo melhora e o verbo melhora ambos mapeiam para improvisar.
Embora os radicais não sejam palavras válidas, eles ainda carregam significado. É por isso que o stemming é comumente usado em aplicativos NLU. Algoritmos de derivação não sabem nada sobre a gramática do
Língua. Essa classe de algoritmos funciona cortando alguns sufixos e prefixos comuns do início ou do final da palavra. Os algoritmos de Stemming são grosseiros, eles cortam a palavra da cabeça e da cauda. Existem vários algoritmos de stemming disponíveis para inglês, incluindo Porter e Lancaster. Você pode jogar com diferentes algoritmos de stemming na página de demonstração do NLTK em https://text-processing.com/demo/stem/. A lematização, por outro lado, leva em consideração a análise morfológica das palavras. Para fazer isso, é importante obter os dicionários para o algoritmo consultar a fim de vincular o formulário de volta ao seu lema. spaCy fornece lematização por meio de pesquisa de dicionário e cada idioma tem seu próprio dicionário.
Dica
Tanto a lematização quanto a lematização têm suas próprias vantagens. A derivação fornece resultados muito bons se você aplicar apenas algoritmos estatísticos ao texto, sem processamento semântico adicional, como pesquisa de padrão, extração de entidade, resolução de correferência e assim por diante. Também o stemming pode cortar um corpus grande para um tamanho mais moderado e fornecer uma representação compacta. Se você também usa recursos linguísticos em seu pipeline ou faz uma pesquisa por palavra-chave, inclua a lematização. Os algoritmos de lematização são precisos, mas têm um custo em termos de computação.