<h1 align=center>Capítulo 2 - Operações principais com spaCy</h1>
<p align=center><img src=https://www.edivaldobrito.com.br/wp-content/uploads/2021/02/spacy-uma-biblioteca-de-processamento-de-linguagem-natural.jpg width=500></p>

Neste capítulo, você aprenderá as principais operações com **spaCy**, como criar um pipeline de linguagem, tokenizar o texto e dividir o texto em frases.

Primeiro, você aprenderá o que é um pipeline de processamento de linguagem e os componentes do pipeline. Continuaremos com as convenções gerais de spaCy – aulas importantes e organização de classes – para ajudá-lo a entender melhor a organização da biblioteca spaCy e desenvolver uma compreensão sólida da própria biblioteca.

Você aprenderá então sobre o primeiro componente do pipeline – **Tokenizer**. Você também aprenderá sobre um importante conceito linguístico – **lematização** – juntamente com suas aplicações na **compreensão da linguagem natural (NLU)**.

Em seguida, abordaremos as **classes de contêiner** e as **estruturas de dados spaCy** em detalhes. Terminaremos o capítulo com recursos úteis que você usará no desenvolvimento diário de PNL.

## Visão geral das convenções spaCy
Cada aplicação de PNL consiste em várias etapas de processamento do texto. Como você pode ver no primeiro capítulo, sempre criamos instâncias chamadas **nlp** e **doc*. Mas o que fizemos exatamente?

Quando chamamos **nlp** em nosso texto, **spaCy** aplica algumas etapas de processamento. A primeira etapa é a tokenização para produzir um objeto **Doc**. O objeto **Doc** é então processado com um **tagger**, um **analisador (parser)** e um **reconhecedor de entidade (entity recognizer)**. Essa maneira de processar o texto é chamada de **pipeline de processamento de linguagem**. Cada componente da pipeline retorna o **Doc** processado e o passa para o próximo componente:

<p><img src=https://blog.neurotech.africa/content/images/2022/03/spaCy-nlp.png width=900></p>

Um objeto de **pipeline spaCy** é criado quando carregamos um modelo de linguagem. Carregamos um modelo em inglês e inicializamos um pipeline no seguinte segmento de código:

In [2]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp('I went there')

O que aconteceu exatamente no código anterior é o seguinte:
1. Começamos importando **spaCy**.
2. Na segunda linha, **spacy.load()** retornou uma instância da classe **Language**, **nlp**. A classe **Language** é o *pipeline de processamento de texto*.
3. Depois disso, aplicamos **nlp** na frase de exemplo **"I went there"** e peguei uma instância da classe **Doc**, **doc**.

A classe **Language** aplica todas as etapas anteriores do pipeline à sua frase de entrada nos bastidores. Depois de aplicar **nlp** à sentença, o objeto **Doc** contém tokens que são marcados, lematizados e marcados como entidades se o token for uma entidade (então entraremos em detalhes sobre o que são e como isso é feito posteriormente). Cada componente do pipeline tem uma tarefa bem definida:

<img src="images/pipeline_components.PNG" width=900>

O pipeline de processamento de linguagem **spaCy** sempre depende do modelo estatístico e de seus recursos. É por isso que sempre carregamos um modelo de linguagem com **spacy.load()** como o primeiro passo em nosso código.

Cada componente corresponde a uma classe **spaCy**. As classes **spaCy** têm nomes autoexplicativos, como **Language**, **Doc** e **Vocab**. Já usamos as classes **Language** e **Doc** – vamos ver todas as classes do pipeline de processamento e suas funções:

<img src="images/processing_pipeline.png">

Não fique intimidade com o número de classes. Cada classe tem um característica única para nos ajudar a processar o texto melhor.

Existem mais estruturas de dados para representar os dados de texto e os dados da linguagem. A classe Conteiner como a Doc armazena as informações sobre as sentenças, palavras e o texto. Existem outras classes conteiner além da Doc:

<img src="images/conteiner_classes.PNG" width=900>

Finalmente, spaCy fornece classes auxiliares para vetores, vocabulário de linguagem e anotações. Veremos a classe **Vocab** frequentemente neste livro. **Vocab** representa o vocabulário de uma língua. Vocab contém todas as palavras do modelo de linguagem que carregamos:

<img src="images/outras_classes.PNG" width=900>

As estruturas de dados do backbone da biblioteca spaCy são **Doc** e **Vocab**. O objeto **Doc** abstrai o texto possuindo a sequência de tokens e todas as suas propriedades. O objeto **Vocab** fornece um conjunto centralizado de **strings** e atributos léxicos para todas as outras classes. Dessa forma, o **spaCy** evita o armazenamento de várias cópias de dados linguísticos:

<img src="images/diagrama_spacy.PNG">

Você pode dividir os objetos que compõem a arquitetura spaCy anterior em dois: **contêineres** e **componentes de pipeline de processamento**. Neste capítulo, primeiro aprenderemos sobre dois componentes básicos, **Tokenizer** e **Lemmatizer**, depois exploraremos mais os objetos **Container**.

**spaCy** faz todas essas operações para nós nos bastidores, permitindo que nos concentremos no desenvolvimento de nosso próprio aplicativo. Com esse nível de abstração, usar **spaCy** para desenvolvimento de aplicativos NLP não é coincidência. Vamos começar com a classe **Tokenizer** e ver o que ela oferece para nós; em seguida, exploraremos todas as classes de contêineres uma a uma ao longo do capítulo.

## Apresentando a tokenização
Vimos que a primeira etapa em um pipeline de processamento de texto é a tokenização. A tokenização é sempre a primeira operação porque todas as outras operações requerem os tokens.

Tokenização significa simplesmente dividir a sentença em seus tokens. Um token é uma unidade de semântica. Você pode pensar em um token como a menor parte significativa de um pedaço de texto. Os tokens podem ser palavras, números, pontuação, símbolos de moeda e quaisquer outros símbolos significativos que são os blocos de construção de uma frase. Seguem exemplos de tokens:
* USA
* N.Y
* 33
* 3rd
* !
* ...
* ?
* 's

A entrada para o tokenizer **spaCy** é um texto Unicode e o resultado é um objeto **Doc**. O código a seguir mostra o processo de tokenização:

In [3]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp("Im own Giger cat.")
print([token.text for token in doc])

['I', 'm', 'own', 'Giger', 'cat', '.']


O seguinte é o que acabamos de fazer:
1. Começamos importando **spaCy**.
2. Em seguida, carregamos o modelo de idioma inglês por meio do atalho **en** para criar uma instância da **classe nlp Language**.
3. Em seguida, aplicamos o objeto **nlp** à sentença de entrada para criar um objeto **Doc**, **doc**. Um objeto **Doc** é um contêiner para uma sequência de objetos **Token**. **spaCy** gera os objetos **Token** implicitamente quando criamos o objeto **Doc**.
4. Finalmente, imprimimos uma lista dos tokens da sentença anterior.

É isso, fizemos a tokenização com apenas três linhas de código. Você pode visualizar a tokenização com indexação da seguinte forma:

<img src="images/tokenização_im_own_giver_cat.PNG" width=500>

Como os exemplos sugerem, a tokenização pode realmente ser complicada. Há muitos aspectos aos quais devemos prestar atenção: pontuação, espaços em branco, números e assim por diante. Dividir os espaços em branco com **text.split(" ")** pode ser tentador e parece que está funcionando para a frase de exemplo que *I own a ginger cat*.

Que tal a frase **"It´s been a crazy week!!!"**? Se fizermos um **split(" ")** os tokens resultantes seriam **It's, been, a, crazy, week!!!**, que não é o que você deseja. Em primeiro lugar, **It's** não é um token, são dois tokens: **it** e **'s**. **week!!!** não é um token válido, pois a pontuação não está dividida corretamente. Além disso, **!!!** deve ser tokenizado por símbolo e deve gerar três **!**. Isso pode não parecer um detalhe importante, mas acredite, é importante para a análise de sentimentos. Vamos ver o que o tokenizer **spaCy** gerou:

In [4]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp("It's been a crazy week!!!")
print([token.text for token in doc])

['It', "'s", 'been', 'a', 'crazy', 'week', '!', '!', '!']


Como o spaCy sabe onde dividir a frase? Ao contrário de outras partes do pipeline, o tokenizer não precisa de um modelo estatístico. A tokenização é baseada em regras específicas do idioma.

As exceções do **tokenizer** definem regras para exceções, como **it's**, **don't**, **won't**, abreviaturas e assim por diante. você verá que as regras se parecem com {ORTH: "n't", LEMMA:"not"}, que descreve a regra de divisão de n't para o tokenizer.

Os prefixos, sufixos e infixos descrevem principalmente como lidar com pontuação – por exemplo, dividimos em um ponto se estiver no final da frase, caso contrário, provavelmente é parte de uma abreviação como N.Y. e não deveríamos toque isso. Aqui, **ORTH** significa o texto e **LEMMA** significa a forma da palavra base sem quaisquer inflexões. O exemplo a seguir mostra a execução do algoritmo de tokenização spaCy:

<img src=https://miro.medium.com/max/1400/1*Sibm12vBIZTjTDBp3I7yeQ.png width=500>

As regras de tokenização dependem das regras gramaticais do idioma individual. As regras de pontuação, como pontos de divisão, vírgulas ou pontos de exclamação, são mais ou menos semelhantes para muitos idiomas; no entanto, algumas regras são específicas para o idioma individual, como palavras de abreviação e uso de apóstrofos. **spaCy** suporta cada idioma com suas próprias regras específicas, permitindo dados e regras codificados à mão, pois cada idioma tem sua própria subclasse.

> **Dica**

> **spaCy** fornece tokenização *não destrutiva*, o que significa que sempre poderemos recuperar o texto original dos tokens. As informações de espaço em branco e pontuação são preservadas durante a tokenização, portanto, o texto de entrada é preservado como está.
> Cada objeto **Language** contém um objeto **Tokenizer**. A classe **Tokenizer** é a classe que executa a tokenização. Você não costuma chamar essa classe diretamente quando cria uma instância de classe **Doc**, enquanto a classe **Tokenizer** atua nos bastidores. Quando queremos customizar a tokenização, precisamos interagir com essa classe. Vamos ver como é feito.

## Personalizando o tokenizer
Quando trabalhamos com um domínio específico, como medicina, seguros ou finanças, muitas vezes nos deparamos com palavras, abreviações e entidades que precisam de atenção especial. A maioria dos domínios que você processará tem palavras e frases características que precisam de regras de tokenização personalizadas. Veja como adicionar uma regra de caso especial a uma instância de classe **Tokenizer** existente:

In [5]:
import spacy
from spacy.symbols import ORTH

nlp = spacy.load('en_core_web_md')
doc = nlp('lemme that')
print([w.text for w in doc])

['lemme', 'that']


In [6]:
special_case = [{ORTH:'lem'},{ORTH:'me'}]
nlp.tokenizer.add_special_case('lemme',special_case)
print([w.text for w in nlp('lemme that')])

['lem', 'me', 'that']


Aqui está o que nós fizemos:
1. Começamos novamente importando o **spaCy**.
2. Em seguida, importamos o símbolo **ORTH**, que significa ortografia; isto é, texto.
3. Continuamos com a criação de um objeto de classe **Language**, **nlp**, e criamos um objeto *Doc*, **doc**.
4. Definimos um caso especial, onde a palavra **lemme** deve ser tokenizada como dois tokens, **lem** e **me**.
5. Adicionamos a regra ao tokenizer do objeto **nlp**.
6. A última linha mostra como a nova regra funciona.

Quando definimos regras personalizadas, as regras de divisão de pontuação ainda serão aplicadas. Nosso caso especial será reconhecido como resultado, mesmo que esteja cercado por pontuação. O tokenizer dividirá a pontuação passo a passo e aplicará o mesmo processo à substring restante:

In [7]:
print([w.text for w in nlp('lemme!')])

['lem', 'me', '!']


Se você definir uma regra de caso especial com pontuação, a regra de caso especial terá precedência sobre a divisão de pontuação:

In [8]:
nlp.tokenizer.add_special_case("...lemme...?", [{"ORTH": "...lemme...?"}])
print([w.text for w in nlp("...lemme...?")])

['...lemme...?']


> **Dica profissional**
Modifique o tokenizer adicionando novas regras *somente se você realmente precisar*. Confie em mim, você pode obter resultados bastante inesperados com regras personalizadas. Um dos casos em que você realmente precisa é ao trabalhar com o texto do *Twitter*, que geralmente está cheio de *hashtags* e símbolos especiais. Se você tiver texto de mídia social, primeiro insira algumas frases no *pipeline spaCy NLP* e veja como a tokenização funciona.

## Depurando o tokenizer
A biblioteca spaCy possui uma ferramenta para depuração:

**nlp.tokenizer.explain(sentence)**. Ele retorna tuplas **(tokenizer rule/pattern,token)** para nos ajudar a entender o que aconteceu exatamente durante a tokenização. Vejamos um exemplo:

In [9]:
import spacy
nlp = spacy.load("en_core_web_md")
text = "Let's go!"
doc = nlp(text)
tok_exp = nlp.tokenizer.explain(text)
for t in tok_exp:
    print(f"{t[1]}  --------------> {t[0]}")

Let  --------------> SPECIAL-1
's  --------------> SPECIAL-2
go  --------------> TOKEN
!  --------------> SUFFIX


No código anterior, importamos o **spaCy** e criamos uma instância da classe **Language**, **nlp**, como de costume. Em seguida, criamos uma instância da classe *Doc* com a frase **Let's go!**. Em seguida, solicitamos à instância da classe *Tokenizer*, **tokenizer**, do *nlp* uma explicação sobre a tokenização desta sentença. **nlp.tokenizer.explain()** explicou as regras que o tokenizer usou uma a uma.

Depois de dividir uma frase em seus tokens, é hora de dividir um texto em suas frases.

## Segmentação de frases
Vimos que quebrar uma sentença em seus tokens não é uma tarefa simples. Que tal quebrar um texto em frases? É realmente um pouco mais complicado marcar onde uma frase começa e termina devido aos mesmos motivos de pontuação, abreviações e assim por diante.

As sentenças de um objeto *Doc* estão disponíveis através da propriedade **doc.sents**:

In [10]:
import spacy
nlp = spacy.load("en_core_web_md")
text = "I flied to N.Y yesterday. It was around 5 pm."
doc = nlp(text)
for sent in doc.sents:
    print(sent.text)

I flied to N.Y yesterday.
It was around 5 pm.


Determinar os limites da frase é uma tarefa mais complicada do que a tokenização. Como resultado, spaCy usa o analisador de dependência para realizar a segmentação de sentenças. Esta é uma característica única do spaCy – nenhuma outra biblioteca põe em prática uma ideia tão sofisticada. Os resultados são muito precisos em geral, a menos que você processe texto de um gênero muito específico, como do domínio da conversa ou texto de mídia social.

Agora sabemos como segmentar um texto em frases e tokenizar as frases. Estamos prontos para processar os tokens um por um. Vamos começar com a *lematização*, uma operação comumente usada em semântica, incluindo análise de sentimentos.

**Entendendo a lematização**

Um **lemma** é a forma base de um token. Você pode pensar em um *lemma* como a forma na qual o token aparece em um dicionário. Por exemplo, o *lemma* de *eating* é *eat*; o *lemma* de *eats* é *eat*; *ate* da mesma forma mapeia para *eat*. *Lematização* é o processo de reduzir as formas das palavras aos seus *lemmas*. O código a seguir é um exemplo rápido de como fazer lematização com spaCy:

In [11]:
import spacy
nlp = spacy.load("en_core_web_md")
doc = nlp("I went there for working and worked for 3 years.")
for token in doc:
    print(f"TOKEN: {token.text} == LEMMA: {token.lemma_}")

TOKEN: I == LEMMA: I
TOKEN: went == LEMMA: go
TOKEN: there == LEMMA: there
TOKEN: for == LEMMA: for
TOKEN: working == LEMMA: work
TOKEN: and == LEMMA: and
TOKEN: worked == LEMMA: work
TOKEN: for == LEMMA: for
TOKEN: 3 == LEMMA: 3
TOKEN: years == LEMMA: year
TOKEN: . == LEMMA: .


Até agora, você deve estar familiarizado com o que as três primeiras linhas do código fazem. Lembre-se de que importamos a biblioteca **spacy**, carregamos um modelo em inglês usando **spacy.load**, criamos um pipeline e aplicamos o pipeline à frase anterior para obter um objeto **Doc**. Aqui nós iteramos sobre tokens para obter seu *texto* e *lemmas*.

Este é um lemma pronome, um símbolo especial para lemas de pronomes pessoais. Esta é uma exceção para fins semânticos: os pronomes pessoais *você*, *eu*, *tu*, *ele*, *dele* e assim por diante, parecem diferentes, mas em termos de significado, eles estão no mesmo grupo. *spaCy* oferece este truque para os lemas do pronome.

Não se preocupe se tudo isso soar muito abstrato – vamos ver a lematização em ação com um exemplo do mundo real.

### Lematização em NLU

A lematização é um passo importante na NLU. Veremos um exemplo nesta subseção. Suponha que você crie um pipeline de NLP para um sistema de reserva de passagens. Seu aplicativo processa a sentença de um cliente, extrai dela as informações necessárias e a passa para a API de reservas.

O pipeline de NLP deseja extrair a forma da viagem (*a flight*, *bus*, ou *train*), a *cidade de destino* e a *data*. A primeira coisa que o aplicativo precisa verificar é o meio de viagem:

* *fly* – *flight* – *airway* – *airplane* - *plane*

* *bus*

* *railway* – *train*

Temos essa lista de palavras-chave e queremos reconhecer os meios de viagem pesquisando os tokens na lista de palavras-chave. A maneira mais compacta de fazer essa pesquisa é pesquisar o lemma do token. Considere as seguintes frases de clientes:

* List me all flights to Atlanta.
* I need a flight to NY.
* I flew to Atlanta yesterday evening and forgot my baggage.

Aqui, não precisamos incluir todas as formas de palavras do verbo *fly* (*fly, flying, flies, flew, and flown*) na lista de palavras-chave e similares para a palavra **flight**; reduzimos todas as variantes possíveis para as formas básicas – *fly* e *flight*. Não pense apenas em inglês; línguas como espanhol, alemão e finlandês também têm muitas formas de palavras de um único lemma.

A *lematização* também é útil quando queremos reconhecer a cidade de destino. Existem muitos apelidos disponíveis para cidades globais e a API de reservas pode processar apenas os nomes oficiais. O tokenizer e o lematizer padrão não saberão a diferença entre o nome oficial e o apelido. Nesse caso, você pode adicionar regras especiais, como vimos na seção *Introdução à tokenização*. O código a seguir desempenha um pequeno truque:

In [12]:
import spacy
from spacy.symbols import ORTH, NORM, LEMMA
nlp = spacy.load('en_core_web_md')
special_case = [{ORTH: 'Angeltown', NORM: 'Los Angeles'}]
nlp.tokenizer.add_special_case('Angeltown', special_case)
doc = nlp(u'I am flying to Angeltown')
for token in doc:
    print(f"TOKEN: {token.text} == LEMMA: {token.norm_}")

TOKEN: I == LEMMA: i
TOKEN: am == LEMMA: am
TOKEN: flying == LEMMA: flying
TOKEN: to == LEMMA: to
TOKEN: Angeltown == LEMMA: Los Angeles


Definimos um caso especial para a palavra Angeltown substituindo seu lema pelo nome oficial Los Angeles. Em seguida, adicionamos esse caso especial à instância do Tokenizer. Quando imprimimos os lemas token, vemos que Angeltown mapeia para Los Angeles como desejávamos.

Um *lemma* é a forma base de uma palavra e é sempre um membro do vocabulário da língua. O radical não precisa ser uma palavra válida. Por exemplo, o lemma da *improvement* é *improvement*, mas o radical é *improv*. Você pode pensar no radical como a menor parte da palavra que carrega o significado. Compare os seguintes exemplos:
<table border='1'>
<tr>
<td>Palavra</td>
<td>Lemma</td>
</tr>
<tr>
<td>university</td>
<td>university</td>
</tr>
<tr>
<td>universe</td>
<td>universal</td>
</tr>
<tr>
<td>universal</td>
<td>universal</td>
</tr>
<tr>
<td>universities</td>
<td>university</td>
</tr>
<tr>
<td>improvement</td>
<td>improvement</td>
</tr>
<tr>
<td>improvements</td>
<td>improvements</td>
</tr>
<tr>
<td>improves</td>
<td>improve</td>
</tr>
</table>

Os exemplos de *lemmas* de palavras anteriores mostram como o lemma é calculado seguindo as regras gramaticais do idioma. Aqui, o *lemma* de uma forma plural é a forma singular, e o lema de um verbo de terceira pessoa é a forma básica do verbo. Vamos compará-los com os seguintes exemplos de pares de radicais de palavras:
<table border='1'>
<tr>
<td>Palavra</td>
<td>Raíz</td>
</tr>
<tr>
<td>university</td>
<td>univers</td>
</tr>
<tr>
<td>universe</td>
<td>univer</td>
</tr>
<tr>
<td>universal</td>
<td>univers</td>
</tr>
<tr>
<td>universities</td>
<td>universi</td>
<tr>
<td>universes</td>
<td>univers</td>
</tr>
<tr>
<td>improvement</td>
<td>improv</td>
</tr>
<tr>
<td>improvements</td>
<td>improv</td>
</tr>
<tr>
<td>improves</td>
<td>improv</td>
</tr>
</table>

O primeiro e mais importante ponto a ser observado nos exemplos anteriores é que o *lemma* não precisa ser uma palavra válida na linguagem. O segundo ponto é que muitas palavras podem mapear para o mesmo radical. Além disso, palavras de diferentes categorias gramaticais podem ser mapeadas para o mesmo radical; aqui, por exemplo, o substantivo *improvement* e o verbo *improves* ambos mapeiam para *improv*.

Embora os radicais não sejam palavras válidas, eles ainda carregam significado. É por isso que o *stemming* é comumente usado em aplicativos NLU.

Algoritmos de *Stemming* não sabem nada sobre a gramática da língua. Essa classe de algoritmos funciona cortando alguns sufixos e prefixos comuns do início ou do final da palavra.

Os algoritmos de *Stemming* são grosseiros, eles cortam a palavra da cabeça e da cauda. Existem vários algoritmos de stemming disponíveis para inglês, incluindo *Porter* e *Lancaster*. Você pode jogar com diferentes algoritmos de *stemming* na página de demonstração do *NLTK em https://text-processing.com/demo/stem/*.

A lematização, por outro lado, leva em consideração a análise morfológica das palavras. Para fazer isso, é importante obter os dicionários para o algoritmo consultar a fim de vincular o formulário de volta ao seu lema. **spaCy** fornece lematização por meio de pesquisa de dicionário e cada idioma tem seu próprio dicionário.

> **Dica**
> Tanto o *Stemming* quanto a *lematização* têm suas próprias vantagens. O *Stemming* fornece resultados muito bons se você aplicar apenas algoritmos estatísticos ao texto, sem processamento semântico adicional, como pesquisa de padrão, extração de entidade, resolução de correferência e assim por diante. Também o *stemming* pode cortar um *corpus* grande para um tamanho mais moderado e fornecer uma representação compacta. Se você também usa recursos linguísticos em seu pipeline ou faz uma pesquisa por palavra-chave, inclua a *lematização*. Os algoritmos de lematização são precisos, mas têm um custo em termos de computação.

## Objetos de contêiner spaCy

No início deste capítulo, vimos uma lista de objetos contêiner, incluindo **Doc**, **Token**, **Span** e **Lexeme**. Já usamos *Token* e *Doc* em nosso código. Nesta subseção, veremos em detalhes as propriedades dos objetos *container*.

Usando objetos *container*, podemos acessar as propriedades linguísticas que *spaCy* atribui ao texto. Um objeto *contêiner* é uma representação lógica das unidades de texto, como um documento, um token ou uma fatia do documento. Objetos de *contêiner* em *spaCy* seguem a estrutura natural do texto: um documento é composto de sentenças e sentenças são compostas de tokens. Usamos mais amplamente os objetos *Doc*, *Token* e *Span* em desenvolvimento, que representam um documento, um único *token* e uma *frase*, respectivamente. Um contêiner pode conter outros contêineres, por exemplo, um documento contém *tokens* e *spans*.

Vamos explorar cada classe e suas propriedades úteis uma por uma.

### Doc

Criamos objetos *Doc* em nosso código para representar o texto, então você já deve ter percebido que Doc representa um texto. Já sabemos como criar um objeto Doc:

In [13]:
doc = nlp('I like cats')

**doc.text** retorna uma representação *Unicode* do texto do documento:

In [14]:
doc.text

'I like cats'

O bloco de construção de um objeto *Doc* é o *Token*, portanto, quando você itera um *Doc*, obtém objetos *Token* como itens:

In [15]:
for token in doc:
	print(token.text)

I
like
cats


In [16]:
# Mesma lógica para idexação

doc[1]

like

In [17]:
# O tamanho do <Doc> em número de tokens inclusos
len(doc)

3

Já vimos como obter as frases do texto. **doc.sents** retorna um iterador para a lista de sentenças. Cada sentença é um objeto *Span*:

In [18]:
doc = nlp("This is a sentence. This is the second sentence")
doc.sents

<generator at 0x1b9699af7e0>

In [19]:
sentences = list(doc.sents)
sentences

[This is a sentence., This is the second sentence]

**doc.ents** fornece entidades nomeadas do texto. O resultado é uma lista de objetos *Span*. Veremos entidades nomeadas em detalhes mais tarde – por enquanto, pense nelas como nomes próprios:

In [20]:
doc = nlp("I flied to New York with Ashley.")
doc.ents

(New York, Ashley)

Outra propriedade sintática é **doc.noun_chunks**. Ele produz os sintagmas nominais encontrados no texto:

In [21]:
doc = nlp("Sweet brown fox jumped over the fence.")
list(doc.noun_chunks)

[Sweet brown fox, the fence]

**doc.lang_** retorna o idioma que o *doc* criou:

In [22]:
doc.lang_

'en'

Um método útil para serialização é **doc.to_json**. Veja como converter um objeto *Doc* em **JSON**:

In [23]:
doc = nlp('Hi')
doc.to_json()

{'text': 'Hi',
 'ents': [],
 'sents': [{'start': 0, 'end': 2}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 2,
   'tag': 'UH',
   'pos': 'INTJ',
   'morph': '',
   'lemma': 'hi',
   'dep': 'ROOT',
   'head': 0}]}

> **Dica profissional**
> Você deve ter notado que chamamos **doc.lang_**, não **doc.lang**. **doc.lang** retorna o ID do idioma, enquanto **doc.lang_** retorna a string *Unicode* do idioma, ou seja, o nome do idioma. Você pode ver a mesma convenção com recursos de token a seguir, por exemplo, **token.lemma_**, **token.tag_** e **token.pos_**.
>
> O objeto *Doc* tem propriedades muito úteis com as quais você pode entender as propriedades sintáticas de uma frase e usá-las em seus próprios aplicativos. Vamos passar para o objeto Token e ver o que ele oferece.

### Token
Um objeto *Token* representa uma palavra. Objetos *token* são os blocos de construção dos objetos *Doc* e *Span*. Nesta seção, abordaremos as seguintes propriedades da classe *Token*:
* token.text
* token.text_with_ws
* token.i
* token.idx
* token.doc
* token.enviado
* token.is_sent_start
* token.ent_type

Normalmente, não construímos um objeto *Token* diretamente, em vez disso, construímos um objeto *Doc* e acessamos seus tokens:

In [24]:
doc = nlp('Hello Madam!')
doc[0]

Hello

**token.text** é semelhante a **doc.text** e fornece a string Unicode subjacente:

In [25]:
doc[0].text

'Hello'

**token.text_with_ws** é uma propriedade semelhante. Ele fornece ao texto um espaço em branco à direita, se estiver presente no documento:

In [26]:
doc[0].text_with_ws

'Hello '

In [27]:
doc[2].text_with_ws

'!'

Encontrar o comprimento de um *token* é semelhante a encontrar o comprimento de uma string Python:

In [28]:
len(doc[0])

5

**token.i** fornece o índice do *token* em *doc*:

In [29]:
token = doc[2]
token.i

2

**token.idx** fornece o deslocamento de caractere do token (a posição do caractere) em **doc**:

In [30]:
doc[0].idx

0

In [31]:
doc[1].idx

6

Também podemos acessar o documento que criou o token da seguinte forma:

In [32]:
token = doc[0]
token.doc

Hello Madam!

A obtenção da sentença à qual o **token** pertence é feita de maneira semelhante ao acesso ao **doc** que criou o **token**:

In [33]:
token = doc[0]
token.sent

Hello Madam!

**token.is_sent_start** é outra propriedade útil; ele retorna um booleano indicando se o *token* inicia uma sentença:

In [34]:
doc = nlp("He entered the room. Then he nodded.")
doc[0].is_sent_start

True

In [35]:
doc[5].is_sent_start

True

In [36]:
doc[6].is_sent_start

False

Essas são as propriedades básicas do objeto Token que você usará todos os dias. Há outro conjunto de propriedades que estão mais relacionadas à sintaxe e semântica. Já vimos como calcular o lemma do token na seção anterior:

In [37]:
doc = nlp("I went there.")
doc[1].lemma_

'go'

Você já aprendeu que **doc.ents** fornece as entidades nomeadas do documento. Se você quiser saber que tipo de entidade é o **token**, use **token.ent_type_**:

In [38]:
doc = nlp("President Trump visited Mexico City.")
doc.ents

(Mexico City,)

In [39]:
doc[3].ent_type_

'GPE'

In [40]:
doc[4].ent_type_

'GPE'

Dois recursos sintáticos relacionados à marcação POS são **token.pos_** e **token.tag**. Aprenderemos o que são e como usá-los no próximo capítulo.

Outro conjunto de recursos sintáticos vem do analisador de dependência. Esses recursos são **dep_**, **head_**, **conj_**, **lefts_**, **right_**, **left_edge_** e **right_edge_**. Nós vamos cobri-los no próximo capítulo também.

> **Dica**
> É totalmente normal se você não se lembrar de todos os recursos depois. Se você não se lembra do nome de um recurso, você sempre pode fazer **dir(token)** ou **dir(doc)**. Chamar **dir()** imprimirá todos os recursos e métodos disponíveis no objeto.
> O objeto Token tem um rico conjunto de recursos, permitindo-nos processar o texto da cabeça aos pés. Vamos passar para o objeto **Span** e ver o que ele oferece para nós.

### Span
Os objetos Span representam frases ou segmentos do texto. Tecnicamente, um Span deve ser uma sequência contígua de tokens. Normalmente não inicializamos objetos *Span*, mas fatiamos um objeto **Doc**:

In [42]:
doc = nlp('I know that you have been to USA.')
doc[2:4]

that you

Tentar fatiar um índice inválido gerará um **IndexError**. A maioria das regras de indexação e fatiamento de *strings* Python também são aplicáveis ao fatiamento de documentos:

In [43]:
doc = nlp("President Trump visited Mexico City.")
doc[4:]

City.

In [44]:
doc[3:-1] # Sinal negativo é suportado

Mexico City

In [46]:
doc[6:] # volta vazio. Pq está fora do <range>



In [47]:
doc[1:1] # Vazio



Há mais uma maneira de criar um Span - podemos fazer uma fatia de nível de caractere de um objeto Doc com **char_span**:

In [48]:
doc = nlp("You love Atlanta since you're 20.")
doc.char_span(4,16)

love Atlanta

Os blocos de construção de um objeto **Span** são objetos *Token*. Se você iterar sobre um objeto Span, obterá objetos Token:

In [49]:
doc = nlp("You went there after you saw me.")
span = doc[2:4]

for token in span:
	print(token)

there
after


Você pode pensar no objeto Span como um objeto *Doc júnior*, na verdade, é uma visão do objeto Doc a partir do qual foi criado. Portanto, a maioria dos recursos do Doc também são aplicáveis ao Span. Por exemplo, **len** é idêntico:

In [50]:
doc = nlp("Hello Madam!")
span = doc[1:2]
len(span)

1

O objeto Span também oferece suporte à indexação. O resultado de fatiar um objeto Span é outro objeto Span:

In [51]:
doc = nlp("You went there after you saw me")
span = doc[2:6]
span

there after you saw

In [53]:
subspan = span[1:3]
subspan

after you

Assim como um Token conhece o objeto Doc do qual foi criado; O Span também conhece o objeto Doc a partir do qual foi criado:

In [60]:
doc = nlp("You went there after you saw me")
span = doc[2:6]
span.doc

You went there after you saw me

Também podemos localizar o **Span** no **Doc** original:

In [61]:
doc = nlp("You went there after you saw me")
span = doc[2:6]
span.start

2

In [62]:
span.end

6

In [63]:
span.start_char

9

In [64]:
span.end_char

28

**span.start** é o índice do primeiro token do Span e **span.start_char** é o deslocamento inicial do Span no nível do caractere.

Se você deseja um objeto Doc totalmente novo, pode chamar **span.as_doc()**. Ele copia os dados em um novo objeto Doc:

In [66]:
doc = nlp("You went there after you saw me")
span = doc[2:6]
type(span)

spacy.tokens.span.Span

In [68]:
small_doc = span.as_doc()
type(small_doc)

spacy.tokens.doc.Doc

**span.ents**, **span.sent**, **span.text** e **span.text_wth_ws** são semelhantes aos seus métodos Doc e Token correspondentes.


### Mais recursos spacy

A maior parte do desenvolvimento de NLP é orientada por token e span; ou seja, ele processa tags, relações de dependência, tokens em si e frases. Na maioria das vezes eliminamos pequenas palavras e palavras sem muito significado; processamos URLs de maneira diferente e assim por diante. O que fazemos às vezes depende da **forma do token** (token é uma palavra curta ou token se parece com uma string de URL) ou mais recursos semânticos (como o token é um artigo ou o token é uma conjunção). Nesta seção, veremos esses recursos de tokens com exemplos. Começaremos com recursos relacionados à forma do token:

In [69]:
doc = nlp("Hello, hi!")
doc[0].lower_

'hello'

**token.lower_** retorna o token em letras minúsculas. O valor de retorno é uma string Unicode e esse recurso é equivalente a **token.text.lower()**. **is_lower** e **is_upper** são semelhantes aos métodos de string do Python, **islower()** e **isupper()**. **is_lower** retorna **True** se todos os caracteres são minúsculos, enquanto **is_upper** faz o mesmo com letras maiúsculas:

In [70]:
doc = nlp("HELLO, Hello, hello, hEllO")
doc[0].is_upper

True

In [71]:
doc[0].is_lower

False

In [72]:
doc[1].is_upper

False

In [73]:
doc[1].is_lower

False

**is_alpha** retornará **True** se todos os caracteres do token forem letras alfabéticas. Exemplos de caracteres não alfabéticos são números, pontuação e espaços em branco:

In [74]:
doc = nlp("Cat and Cat123")
doc[0].is_alpha

True

In [76]:
doc[2].is_alpha

False

**is_ascii** retorna **True** se todos os caracteres do token forem caracteres ASCII.

In [77]:
doc = nlp("Hamburg and Göttingen")
doc[0].is_ascii

True

In [78]:
doc[2].is_ascii

False

**is_digit** retorna **True** se todos os caracteres do token forem números:

In [79]:
doc = nlp("Cat Cat123 123")
doc[0].is_digit

False

In [80]:
doc[1].is_digit

False

In [81]:
doc[2].is_digit

True

**is_punct** retornará **True** se o token for um sinal de pontuação:

In [82]:
doc = nlp("You, him and Sally")
doc[1]

,

In [83]:
doc[1].is_punct

True

**is_left_punct** e **is_right_punct** retornam **True** se o token for um sinal de pontuação esquerdo ou direito, respectivamente. Um sinal de pontuação à direita pode ser qualquer marca que feche um sinal de pontuação à esquerda, como colchetes à direita, `>` ou `»`. Os sinais de pontuação à esquerda são semelhantes, com os colchetes esquerdos `<` e `«` como alguns exemplos:

In [84]:
doc = nlp("( [ He said yes. ] )")
doc[0]

(

In [85]:
doc[0].is_left_punct

True

In [86]:
doc[-1]

)

In [87]:
doc[-1].is_right_punct

True

In [88]:
doc[-2]

]

In [89]:
doc[-2].is_right_punct

True

**is_space** retorna **True** se o token for apenas caracteres de espaço em branco:

In [91]:
doc = nlp(" ")
doc[0]

 

In [92]:
len(doc[0])

1

In [93]:
doc[0].is_space

True

In [96]:
doc = nlp("  ")
doc[0]

  

In [97]:
len(doc[0])

2

In [98]:
doc[0].is_space

True

**is_bracket** retorna **True** para caracteres de colchetes:

In [99]:
doc = nlp("( You said [1] and {2} is not applicable.)")
doc[0].is_bracket, doc[-1].is_bracket

(True, True)

In [100]:
doc[3].is_bracket, doc[5].is_bracket

(True, True)

In [101]:
doc[7].is_bracket, doc[9].is_bracket

(True, True)

**is_quote** retorna **True** para aspas:

In [102]:
doc = nlp("( You said '1\" is not applicable.)")
doc[3]

'

In [103]:
doc[3].is_quote

True

In [104]:
doc[5]

"

In [105]:
doc[5].is_quote

True

**is_currency** retorna **True** para símbolos de moeda como **$** e **€**:

In [106]:
doc = nlp("I paid 12$ for the tshirt.")
doc[3]

$

In [107]:
doc[3].is_currency

True

**like_url**, **like_num** e **like_email** são métodos sobre a forma do token e retornam **True** se o token se parecer com uma **URL**, um **número** ou um **email**, respectivamente. Esses métodos são muito úteis quando queremos processar texto de mídia social e páginas da web raspadas:

In [108]:
doc = nlp("I emailed you at least 100 times")
doc[-2]

100

In [109]:
doc[-2].like_num

True

In [110]:
doc = nlp("I emailed you at least hundred times")
doc[-2]

hundred

In [111]:
doc[-2].like_num

True

In [114]:
doc = nlp("Meu email é email@hotmail.com e você pode me visitar em https://site.com.br quando quiser.")
doc[3]

email@hotmail.com

In [115]:
doc[3].like_email

True

In [116]:
doc[10]

https://site.com.br

In [117]:
doc[10].like_url

True

**token.shape_** é um recurso incomum – não há nada semelhante em outras bibliotecas de NLP. Ele retorna uma string que mostra os recursos ortográficos de um token. Os números são substituídos por **d**, as letras maiúsculas são substituídas por X e as letras minúsculas são substituídas por x. Você pode usar a string de resultado como um recurso em seus algoritmos de aprendizado de máquina e as formas de token podem ser correlacionadas ao sentimento do texto:

In [119]:
doc = nlp("Girl called Kathy has a nickname Cat123.")
for token in doc:
    print(f"TOKEN TEXT: {token.text} =============> TOKEN SHAPE: {token.shape_}")



**is_oov** e **is_stop** são recursos semânticos, em oposição aos recursos de forma anteriores. **is_oov** retornará **True** se o token for **Out Of Vocabulary (OOV)**, ou seja, não estiver no vocabulário do objeto **Doc**. As palavras **OOV** são palavras desconhecidas para o modelo de linguagem e, portanto, também para os componentes do pipeline de processamento:

In [120]:
doc = nlp("I visited Jenny at Mynks Resort")
for token in doc:
	print(f"{token} ======== {token.is_oov}")



**is_stop** é um recurso frequentemente usado por algoritmos de aprendizado de máquina. Muitas vezes, filtramos palavras que não carregam muito significado, como *the*, *a*, *an*, *and*, *just*, *with*, e assim por diante. Essas palavras são chamadas de palavras de parada. Cada idioma tem sua própria lista de palavras de parada, e você pode acessar as palavras de parada em inglês aqui https://github.com/explosion/spaCy/blob/master/spacy/lang/en/stop_words.py:

In [122]:
doc = nlp("I just want to inform you that I was with the principle.")
for token in doc:
    print(f"{token} ======== {token.is_stop}")



Esgotamos a lista de recursos sintáticos, semânticos e ortográficos do spaCy. Sem surpresa, muitos métodos focados no objeto Token como um token são a unidade sintática de um texto.