<h1 align=center>Capítulo 6: Juntando tudo: Análise semântica com spaCy</h1>
<p align=center><img src=https://miro.medium.com/max/1050/1*6WATd2e85VuqFhkg5RQonQ.jpeg width=500></p>

Esta é uma seção puramente prática. Neste capítulo, aplicaremos o que aprendemos até agora ao **Airline Travel Information System (ATIS)**, um conhecido conjunto de dados do sistema de reserva de passagens aéreas. Em primeiro lugar, conheceremos nosso conjunto de dados e faremos as estatísticas básicas. Como a primeira tarefa de **compreensão de linguagem natural (NLU)**, vamos extrair as entidades nomeadas com dois métodos diferentes, com *spaCy Matcher*, e andando na árvore de dependências.

A próxima tarefa é determinar a intenção do enunciado do usuário. Também exploraremos o reconhecimento de intenção de diferentes maneiras: extraindo os verbos e seus objetos diretos, usando listas de palavras e andando na árvore de dependência para reconhecer várias intenções. Em seguida, você combinará suas palavras-chave com sinônimos de uma lista de sinônimos para detectar semelhança semântica.

Além disso, você fará a correspondência de palavras-chave com métodos de semelhança semântica baseados em vetor de palavras. Por fim, combinaremos todas essas informações para gerar uma representação semântica para os enunciados do conjunto de dados.

No final deste capítulo, você aprenderá a processar completamente um conjunto de dados do mundo real semanticamente. Você aprenderá a extrair entidades, reconhecer *intents* e realizar cálculos de similaridade semântica. As ferramentas deste capítulo são realmente o que você construirá para um pipeline de **processamento de linguagem natural (NLP)** do mundo real, incluindo um chatbot NLU e um aplicativo de suporte ao cliente NLU.

Neste capítulo, abordaremos os seguintes tópicos principais:
1. Extraindo entidades nomeadas
2. Usando relações de dependência para reconhecimento de intenção
3. Métodos de similaridade semântica para análise semântica
4. Juntando tudo

## Extraindo entidades nomeadas
Em muitos aplicativos de NLP, incluindo análise semântica, começamos a procurar significado em um texto examinando os tipos de entidade e colocando um componente de extração de entidade em nossos pipelines de NLP. **As entidades nomeadas** desempenham um papel fundamental na compreensão do significado do texto do usuário.

Também iniciaremos um pipeline de análise semântica extraindo as entidades nomeadas de nosso corpus. Para entender que tipo de entidades queremos extrair, primeiro, conheceremos o conjunto de dados ATIS.

### Conhecendo o conjunto de dados ATIS
Ao longo deste capítulo, trabalharemos com o corpus ATIS. ATIS é um conjunto de dados bem conhecido; é um dos conjuntos de dados de referência padrão para classificação de intenção. O conjunto de dados consiste em declarações de clientes que desejam reservar um voo, obter informações sobre os voos, incluindo custos de voo, destinos de voo e horários.

Não importa qual seja a tarefa da NLP, você deve sempre examinar seu corpus a olho nu. Queremos conhecer nosso corpus para integrar nossas observações de corpus em nosso código. Ao visualizar nossos dados de texto, geralmente observamos o seguinte:
* Que tipo de enunciados existem? É um corpus de texto curto ou o corpus consiste em documentos longos ou parágrafos de tamanho médio?
* Que tipo de entidades o corpus inclui? Nomes de pessoas, nomes de cidades, nomes de países, nomes de organizações e assim por diante. Quais queremos extrair?
* Como a pontuação é usada? O texto está pontuado corretamente ou nenhuma pontuação é usada?
* Como as regras gramaticais são seguidas? A capitalização está correta? Os usuários seguiram as regras gramaticais? Existem palavras incorretas?

Antes de iniciar qualquer processamento, examinaremos nosso corpus. Vamos em frente e baixar o conjunto de dados:
~~~python
https://github.com/PacktPublishing/Mastering-spaCy/blob/main/Chapter06/data/atis_intents.csv
~~~

O conjunto de dados é um arquivo CSV de duas colunas. Primeiro, obteremos alguns insights sobre as estatísticas do conjunto de dados com pandas. pandas é uma biblioteca de manipulação de dados popular que é frequentemente usada por cientistas de dados. Você pode ler mais em https://pandas.pydata.org/pandas-docs/version/0.15/tutorials.html.

1. Vamos começar lendo o arquivo CSV em Python. Usaremos o método **read_csv** dos pandas:

In [2]:
import pandas as pd
dataset = pd.read_csv('atis_intents.csv', header=None, encoding='utf8', sep=',')

A variável do conjunto de dados mantém o CSV como um objeto para nós.
2. Em seguida, chamaremos **head()** no objeto dataset. **head()** gera as primeiras 10 colunas do conjunto de dados:

In [3]:
dataset.head()

Unnamed: 0,0,1
0,atis_flight,i want to fly from boston at 838 am and arriv...
1,atis_flight,what flights are available from pittsburgh to...
2,atis_flight_time,what is the arrival time in san francisco for...
3,atis_airfare,cheapest airfare from tacoma to orlando
4,atis_airfare,round trip fares from pittsburgh to philadelp...


Como você vê, o objeto de conjunto de dados contém linhas e colunas. Na verdade, é um objeto CSV. A primeira coluna contém a intenção e a segunda coluna contém o enunciado do usuário.
3. Agora podemos imprimir alguns enunciados de exemplo:

In [4]:
for text in dataset[1].head():
	print(text)

 i want to fly from boston at 838 am and arrive in denver at 1110 in the morning
 what flights are available from pittsburgh to baltimore on thursday morning
 what is the arrival time in san francisco for the 755 am flight leaving washington
 cheapest airfare from tacoma to orlando
 round trip fares from pittsburgh to philadelphia under 1000 dollars


Como podemos ver, o primeiro usuário deseja reservar um voo; incluíam o destino, as cidades de origem e o tempo de voo. O terceiro usuário está perguntando sobre o horário de chegada de um voo específico e o quinto usuário fez uma consulta com um limite de preço. Os enunciados não são capitalizados ou pontuados. Isso ocorre porque esses enunciados são uma saída de um mecanismo de *speech-to-text*.

4. Por último, podemos ver a distribuição do número de enunciados por intenção:

In [5]:
grouped = dataset.groupby(0).size()
print(grouped)

0
atis_abbreviation                            147
atis_aircraft                                 81
atis_aircraft#atis_flight#atis_flight_no       1
atis_airfare                                 423
atis_airfare#atis_flight_time                  1
atis_airline                                 157
atis_airline#atis_flight_no                    2
atis_airport                                  20
atis_capacity                                 16
atis_cheapest                                  1
atis_city                                     19
atis_distance                                 20
atis_flight                                 3666
atis_flight#atis_airfare                      21
atis_flight_no                                12
atis_flight_time                              54
atis_ground_fare                              18
atis_ground_service                          255
atis_ground_service#atis_ground_fare           1
atis_meal                                      6
atis_quantity     

5. Após este ponto, processaremos apenas o texto do enunciado. Portanto, podemos descartar a primeira coluna. Para fazer isso, vamos fazer um pequeno truque com a ferramenta Unix awk:
~~~python
awk -F ',' '{print $2}' atis_intents.csv > atis_utterances.txt
~~~
Aqui, imprimimos a segunda coluna do arquivo CSV de entrada (onde o separador de arquivo é um **,**) e direcionamos a saída para um arquivo de texto chamado **atis_utterances.txt**. Agora que nossos enunciados estão prontos para serem processados, podemos prosseguir e extrair as entidades.

In [6]:
dataset[1].to_csv('atis_utterances.csv', header=None)

### Extraindo entidades nomeadas com o Matcher
Como já vimos, este é um conjunto de dados de voos. Portanto, esperamos ver nomes de cidades/países, nomes de aeroportos e nomes de companhias aéreas:
1. Aqui estão alguns exemplos:
~~~python
does american airlines fly from boston to san francisco
what flights go from dallas to tampa
show me the flights from montreal to chicago
what flights do you have from ontario
The users also provide the dates, times, days of the weeks they
wish to fly on. These entities include numbers, month names, day
of the week names as well as time adverbs such as next week,
today, tomorrow, next month. Let's see some example entities:
list flights from atlanta to boston leaving between 6 pm and 10
pm on august eighth
i need a flight after 6 pm on wednesday from oakland to salt
lake city
show me flights from minneapolis to seattle on july second
what flights leave after 7 pm from philadelphia to boston
~~~
2. Além disso, a intenção **atis_abbreviation** contém enunciados que são perguntas sobre algumas abreviações. As abreviações de voos podem ser códigos de tarifa (por exemplo, M = Economy), códigos de nome de companhia aérea (por exemplo, United Airlines = UA) e códigos de aeroporto (por exemplo, Aeroporto de Berlim = BER) e assim por diante. Os exemplos incluem o seguinte:
~~~python
what does the abbreviation ua mean
what does restriction ap 57 mean
explain restriction ap please
what's fare code yn
~~~
3. Vamos visualizar alguns enunciados do conjunto de dados. A captura de tela a seguir mostra as entidades com seus tipos:

In [7]:
import spacy
from spacy import displacy
nlp = spacy.load('en_core_web_md')

doc1 =nlp('show me the flights from montreal to chicago')
doc2 = nlp('does american airlines fly from boston to san francisco')
doc3 = nlp('show me flights from minneapolis to seattle on july second')
doc4 = nlp("what flights leave after 7 pm from philadelphia to boston")

displacy.render(doc1, style='ent')
displacy.render(doc2, style='ent')
displacy.render(doc3, style='ent')
displacy.render(doc4, style='ent')

4. Podemos ver todos os tipos de entidade e suas frequências de forma mais sistemática. O segmento de código a seguir realiza as seguintes ações:
   * Lê o arquivo de texto dos enunciados que criamos na subseção anterior de exploração do conjunto de dados.
   * Ele itera sobre cada enunciado e cria um objeto Doc.
   * Extrai entidades do objeto doc atual.
   * Atualiza a lista global de rótulos de entidades com os rótulos das entidades.
   * Finalmente calcula a frequência de cada etiqueta com um objeto contador.

Aqui está o código:

In [8]:
from collections import Counter
import spacy
nlp = spacy.load("en_core_web_md")
corpus = open("atis_utterances.csv", "r").read().split("\n")
all_ent_labels = []
for sentence in corpus:
    doc = nlp(sentence.strip())
    ents = doc.ents
    all_ent_labels += [ent.label_ for ent in ents]
c = Counter(all_ent_labels)
print(c)

Counter({'GPE': 9125, 'CARDINAL': 4144, 'DATE': 2283, 'TIME': 993, 'ORG': 420, 'ORDINAL': 218, 'NORP': 74, 'QUANTITY': 44, 'MONEY': 42, 'LOC': 17, 'PRODUCT': 16, 'FAC': 9, 'PERSON': 6, 'EVENT': 2})


Nosso palpite inicial parece correto. Os rótulos de entidade mais frequentes são **GPE** (nomes de local), **DATE**, **TIME**, **CARDINAL** e **ORGANIZATION**. Obviamente, as entidades de localização referem-se a cidades/países de destino e origem, portanto, desempenham um papel muito importante no sucesso semântico geral de nossa aplicação.

5. Primeiro vamos extrair as entidades de localização pelo spaCy Matcher procurando por um padrão do formulário de **preposição nome_local**. O código a seguir extrai entidades de localização precedidas por uma preposição:

In [12]:
import spacy
from spacy.matcher import Matcher
nlp = spacy.load("en_core_web_md")
matcher = Matcher(nlp.vocab)
pattern = [{"POS": "ADP"}, {"ENT_TYPE": "GPE"}]
matcher.add("prepositionLocation", [pattern])
doc = nlp("show me flights from denver to boston on tuesday")
matches = matcher(doc)
for mid, start, end in matches:
    print(doc[start:end])

from denver
to boston


In [14]:
# Visualizando ADP e GPE na frase.
displacy.render(doc, style='dep')

Já vimos como inicializar um objeto Matcher e adicionar padrões a ele. Ainda assim, vamos relembrar como usar um objeto Matcher para extrair as correspondências agora. Aqui está o que fizemos neste segmento de código:

a) Começamos importando o **spacy** e a classe **spacy.matcher** nas linhas 1-2.
b) Criamos um objeto pipeline de linguagem, **nlp**, na linha 3.
c) Na linha 4, inicializamos o objeto Matcher com o vocabulário da linguagem.
d) Na linha 5, criamos um padrão combinando dois tokens, uma preposição (tag **POS ADP** significa *adposição = preposição + posposição*) e uma entidade de localização (rótulo **GPE** significa uma *entidade de localização*).
e) Adicionamos este padrão ao objeto Matcher.
f) Por fim, solicitamos as correspondências em uma sentença corpus de exemplo e imprimimos as correspondências.

6. Embora as preposições **from** e **to** dominem neste conjunto de dados, os verbos sobre **leaving** e **arriving** podem ser usados com uma variedade de preposições. Aqui estão mais algumas frases de exemplo do conjunto de dados:

In [32]:
doc = nlp("i'm looking for a flight that goes from ontario to atlanta and stops in chicago")
matches = matcher(doc)
for mid, start, end in matches:
	print(doc[start:end])

from ontario
to atlanta
in chicago


In [33]:
# Visualizando ADP e GPE na frase.
displacy.render(doc, style='ent')

In [34]:
doc = nlp("what flights arrive in chicago on sunday on continental")
matches = matcher(doc)
for mid, start, end in matches:
    print(doc[start:end])

in chicago


Outra frase de exemplo do conjunto de dados contém uma abreviação em uma entidade de destino:

In [39]:
doc = nlp("yes i'd like a flight from Long Beach to St. louis by way of dallas")
matches = matcher(doc)
for mid, start, end in matches:
    print(doc[start:end])

from Long
to St.
of dallas


Nossa última frase de exemplo é novamente uma frase de pergunta:

doc = nlp("what are the evening flights flying out of dallas")
matches = matcher(doc)
for mid, start, end in matches:
    print(doc[start:end])

Aqui, vemos alguns verbos frasais, **arrive in**, bem como preposições e combinações de verbos, como **stop in** e **fly out of**. **By the way de Dallas** não inclui um verbo em tudo. O usuário indicou que deseja fazer uma parada em Dallas. **to, from, in, out e of*** são preposições comuns que são usadas em um contexto de viagem.

7. Após extrair as localizações, agora podemos extrair as informações da companhia aérea. O rótulo de entidade **ORG** significa uma organização e corresponde aos nomes das companhias aéreas em nosso conjunto de dados. O segmento de código a seguir extrai os nomes das organizações, possivelmente nomes com várias palavras:

In [42]:
import spacy
from spacy.matcher import Matcher
nlp = spacy.load("en_core_web_md")
matcher = Matcher(nlp.vocab)

pattern = [{"ENT_TYPE": "ORG", "OP": "+"}]
matcher.add("AirlineName", [pattern])
doc = nlp("what is the earliest united airlines flight flying from denver")
matches = matcher(doc)
for mid,start,end in matches:
    print(doc[start:end])

united
united airlines
airlines


Aqui, extraímos as entidades cujos rótulos são **ORG**. Queríamos capturar uma ou mais ocorrências para capturar também as entidades de várias palavras, e é por isso que usamos o operador **OP: "+"**.

8. As datas e horários de extração não são muito diferentes; você pode replicar o anterior com código com **ENT_TYPE: DATE** e **ENT_TYPE: TIME**. Nós encorajamos você a tentar você mesmo. A captura de tela a seguir mostra detalhadamente a aparência das entidades de data e hora:

In [44]:
doc1 = nlp("show me all flights from atlanta to denver which leave after 5 o'clock pm the day after tomorrow")
doc2 = nlp("show me all flights from boston to pittsburgh next wednesday nigth after 6 o'clock")
doc3 = nlp('show me all the delta flights leaving or arriving at pittsburgh between 12 and 4 in the afternoon')
doc4 = nlp("show me the fligths before 11 am on august second from boston to denver on delta")

displacy.render(doc1, style='ent')
displacy.render(doc2, style='ent')
displacy.render(doc3, style='ent')
displacy.render(doc4, style='ent')

9. Em seguida, vamos extrair entidades do tipo abreviação. Extrair as entidades de abreviação é um pouco mais complicado. Primeiro, veremos como as abreviações aparecem:
~~~python
what does restriction ap 57 mean?
what does the abbreviation co mean?
what does fare code qo mean
what is the abbreviation d10
what does code y mean
what does the fare code f and fn mean
what is booking class c
~~~

Apenas uma dessas frases inclui uma entidade. A primeira frase de exemplo inclui uma entidade **AMOUNT**, que é **57**. Fora isso, as abreviações não são marcadas com nenhum tipo de entidade. Nesse caso, temos que fornecer algumas regras personalizadas para o Matcher. Vamos fazer algumas observações primeiro e depois formar um padrão Matcher:
a) Uma abreviatura pode ser dividida em duas partes – letras e dígitos.
b) A parte da letra pode ter de 1 a 2 caracteres.
c) A parte do dígito também tem 1-2 caracteres.
d) A presença de dígitos indica uma entidade abreviada.
e) A presença das seguintes palavras indica uma entidade de abreviatura: classe, código, abreviatura.
f) A etiqueta **POS** de uma abreviatura é um substantivo. Se a palavra candidata for uma palavra de 1 ou 2 letras, podemos olhar para a etiqueta **POS** e ver se é um substantivo. Essa abordagem elimina os falsos positivos, como us (pronome), me (pronome), a (determinador) e an (determinador).

10. Vamos agora colocar essas observações nos padrões do Matcher:

In [45]:
pattern1 = [{"TEXT": {"REGEX": "\w{1,2}\d{1,2}"}}]
pattern2 = [{"SHAPE": { "IN": ["x", "xx"]}}, {"SHAPE": { "IN":["d", "dd"]}}]
pattern3 = [{"TEXT": {"IN": ["class", "code", "abbrev","abbreviation"]}}, {"SHAPE": { "IN": ["x", "xx"]}}]
pattern4 = [{"POS": "NOUN", "SHAPE": { "IN": ["x", "xx"]}}]

Em seguida, criamos um objeto Matcher com os padrões que definimos:

In [46]:
matcher = Matcher(nlp.vocab)
matcher.add("abbrevEntities", [pattern1, pattern2, pattern3, pattern4])

Agora estamos prontos para alimentar nossas frases no matcher:

In [47]:
sentences = [
    'what does restriction ap 57 mean',
    'what does the abbreviation co mean',
    'what does fare code qo mean',
    'what is the abbreviation d10',
    'what does code y mean',
    'what does the fare code f and fn mean',
    'what is booking class c'
]

18. Estamos prontos para enviar nossas frases para o matcher:

In [48]:
for sent in sentences:
	doc = nlp(sent)
	matches = matcher(doc)
	for mid, start, end in matches:
		print(doc[start: end])

ap 57
57
abbreviation co
co
code qo
d10
code y
code f
class c
c


No código anterior, definimos quatro padrões:
a) O primeiro padrão corresponde a um único token, que consiste em 1-2 letras e 1-2 dígitos. Por exemplo, **d1, d10, ad1 e ad21** corresponderão a esse padrão.
b) O segundo padrão corresponde a abreviaturas de 2 tokens em que o primeiro token tem 1-2 letras e o segundo token 1-2 dígitos. As abreviaturas **ap 5, ap 57, a 5 e a 57** irão corresponder a este padrão.
c) O terceiro padrão também corresponde a dois tokens. O primeiro token é uma palavra de pista de contexto, como **class** ou **code**, e o segundo token deve ser um token de 1-2 letras. Algumas correspondências de exemplo são o **code f**, **code y** e a **class c**.
d) O quarto padrão extrai palavras curtas de 1-2 letras cuja tag **POS** é **NOUN**. Alguns exemplos de correspondências das frases anteriores são **c** e **co**.

spaCy Matcher torna a vida mais fácil para nós, permitindo-nos fazer uso de forma de token, dicas de contexto e uma tag de token **POS**. Fizemos uma extração de entidade muito bem-sucedida nesta subseção extraindo locais, nomes de companhias aéreas, datas, horários e abreviações. Na próxima subseção, aprofundaremos a sintaxe da frase e extrairemos entidades das frases onde o contexto não oferece muitas pistas.

### Usando árvores de dependência para extrair entidades
Na subseção anterior, extraímos entidades onde o contexto fornece pistas óbvias. Extrair a cidade de destino da frase a seguir é fácil. Podemos procurar o padrão **to + GPE**:
~~~python
I want to fly to Munich tomorrow
~~~
Mas suponha que o usuário forneça uma das seguintes frases:
~~~python
I'm going to a conference in Munich. I need an air ticket.
My sister's wedding will be held in Munich. I'd like to book a flight.
~~~

Aqui, a preposição **to** refere-se a **conference**, não a **Munich**, na primeira frase. Nesta frase, precisamos de um padrão como para **+ .... + GPE**. Então, temos que ter cuidado com quais palavras podem vir entre "to" e o nome da cidade, bem como quais palavras não devem vir. Por exemplo, esta frase tem um significado completamente diferente e não deve corresponder:
~~~python
I want to book a flight to my conference without stopping at Berlin.
~~~

Na segunda frase, não encontramos a presença do **to**. Aqui, como vemos a partir desses exemplos, precisamos examinar as relações sintáticas entre as palavras. No Capítulo 3, Características Linguísticas, já vimos como interpretar árvores de dependência para entender as relações entre palavras. Nesta subseção, percorreremos as árvores de dependência.

Percorrer uma árvore de dependências significa visitar os tokens em uma ordem personalizada, não necessariamente da esquerda para a direita. Normalmente, paramos de iterar na árvore de dependências quando encontramos o que estamos procurando. Novamente, uma árvore de dependência mostra as relações sintáticas entre suas palavras. Lembre-se do Capítulo 3, Características linguísticas, que as relações são representadas com setas direcionadas, conectando a cabeça e o filho de uma relação. Cada palavra em uma frase tem que envolver pelo menos uma relação. Esse fato garante que visitaremos cada palavra enquanto percorremos a frase.

> #### RECALL
> Antes de prosseguir com o código, primeiro, vamos relembrar alguns conceitos sobre árvores de dependência. ROOT é um rótulo de dependência especial e é sempre atribuído ao verbo principal da frase. spaCy mostra relações sintáticas com arcos. Um dos tokens é o pai sintático (chamado de HEAD) e o outro é dependente (chamado de CHILD). A título de exemplo, na Figura 6.3, **going** tem 3 filhos sintáticos – **I**, **m** e  **to**. De forma equivalente, o núcleo sintático de **to** está **going** (o mesmo se aplica a **I** e **m**).

Voltando aos nossos exemplos, vamos iterar as árvores de dependência de enunciados para descobrir se a preposição **to** está sintaticamente relacionada à entidade de localização, **Munich**. Antes de tudo, vamos ver a análise de dependência da nossa frase de exemplo *I'm going to a conference in Munich*  e também lembrar como é uma árvore de dependência:

In [50]:
doc = nlp("I'm going to a conference in Munich.")
displacy.render(doc, style='dep')

Não há arcos de entrada no verbo **going**, então **going** é a raiz da árvore de dependência (quando examinamos o código, veremos que o rótulo de dependência é **ROOT**). Isso deve acontecer porque **going** é o verbo principal da frase. Se seguirmos o arco à sua direita imediata, encontraremos **to**; saltando sobre os arcos à direita chegamos a **Munich**. Isso mostra que há uma relação sintática entre **to** e **Munich**.
Vamos agora iterar sobre a árvore de dependências com código. Existem duas maneiras possíveis de se conectar **to** e **Munich**:
 * Da esquerda para a direita. Partimos de **to** e tentamos chegar a Munique visitando os filhos sintáticos de "to". Essa abordagem pode não ser uma boa ideia, porque se "to" tiver mais de um filho, precisamos verificar cada filho e acompanhar todos os caminhos possíveis.
 * Direita para esquerda. Partimos de **Munich**, pulamos em sua cabeça, seguimos a cabeça da cabeça e assim por diante. Como cada palavra tem exatamente uma cabeça, é garantido que haverá apenas um caminho. Em seguida, determinamos se estamos nesse caminho ou não.

Os segmentos de código a seguir implementam a segunda abordagem, iniciam a caminhada da árvore de dependência de Munique e procuram: