## Instalação

Caso for necessário, instalar a versão 2.2.3 do spacy para seguir a aula do professor:

```bash
    pip install spacy==2.2.3
```

Assim

In [1]:
import spacy
spacy.__version__

'3.8.7'

Realiza o download dos pacotes em português do spaCy.

In [2]:
!python -m spacy download pt # Agora deve ser: pt_core_news_sm

[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'pt' are deprecated. Please use the
full pipeline package name 'pt_core_news_sm' instead.[0m
Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m28.8 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


## Marcação POS

- POS: (part-of-speech, partes da fala), atribui para as palavras partes da fala, como substantivos, adjetivos e verbos.
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém.

In [3]:
# Função principal para realizar todo o processamento nos dados de texto
pln = spacy.load('pt_core_news_sm')

Sempre que for necessário processar um texto é necessário coloca-lo dentro do objeto *pln* (variável que armazenou os modelos em português).

In [4]:
doc = pln('Estou aprendendo processamento de linguagem natural, curso do professor da IA Expert Academy, estudando em São Paulo.')

In [5]:
for token in doc:
    print(token, token.pos_) # pos_ verifica o "part-of-speech"

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
do ADP
professor NOUN
da ADP
IA PROPN
Expert PROPN
Academy PROPN
, PUNCT
estudando VERB
em ADP
São PROPN
Paulo PROPN
. PUNCT


### Legenda

- **lemma**: raiz da palavra
- **pos**: parte da fala
- **tag**: informações morfológicas, como se o verbo está no passado
- **dep**: dependência sintática
- **shape**: formato (maiúsculo, minúsculo, dígitos)
- **alpha**: se é alfabético
- **stop**: se é stopword

In [6]:
import pandas as pd

tokens = [{'palavra': token.text, 
           'lemma_': token.lemma_, 
           'pos_': token.pos_, 
           'tag_': token.tag_, 
           'dep_': token.dep_, 
           'shape_': token.shape_, 
           'is_alpha': token.is_alpha, 
           'is_stop': token.is_stop}
          for token in doc]

df_tokens = pd.DataFrame.from_dict(tokens)
df_tokens

Unnamed: 0,palavra,lemma_,pos_,tag_,dep_,shape_,is_alpha,is_stop
0,Estou,estar,AUX,AUX,aux,Xxxxx,True,True
1,aprendendo,aprender,VERB,VERB,ROOT,xxxx,True,False
2,processamento,processamento,NOUN,NOUN,obj,xxxx,True,False
3,de,de,ADP,ADP,case,xx,True,True
4,linguagem,linguagem,NOUN,NOUN,nmod,xxxx,True,False
5,natural,natural,ADJ,ADJ,amod,xxxx,True,False
6,",",",",PUNCT,PUNCT,punct,",",False,False
7,curso,curso,NOUN,NOUN,appos,xxxx,True,False
8,do,de o,ADP,ADP,case,xx,True,True
9,professor,professor,NOUN,NOUN,nmod,xxxx,True,False


Adquirindo apenas entidades (nomes próprios):

In [7]:
for token in doc:
    if token.pos_ == 'PROPN':
        print(token)

IA
Expert
Academy
São
Paulo


## Lematização e stemização

- **Lematização**: "Lema" de uma palavra de acordo com seu significado no dicionário - **palavra base** (análise vocabular e morfológica)
    - Como por exemplo, para a palavra "aprendendo" a palavra base seria "aprender".

- **Stemização**: Extração do **radical** das palavras.
    - Como por exemplo, para a palavra "aprendendo" o radical extraído seria "aprend".

A Lematização realiza a análise morfológica das palavras.

*morfológica: refere-se ao estudo da forma e estrutura*

In [8]:
df_tokens[['palavra', 'lemma_']]

Unnamed: 0,palavra,lemma_
0,Estou,estar
1,aprendendo,aprender
2,processamento,processamento
3,de,de
4,linguagem,linguagem
5,natural,natural
6,",",","
7,curso,curso
8,do,de o
9,professor,professor


Note que o lemma para cada uma das palavras abaixo é a mesma, ou seja, a morfologia de todas essas palavras levam para a palavra "encontrar".

In [9]:
doc_2 = pln('encontrei encontraram encontrarão')
[token.lemma_ for token in doc_2]

['encontrar', 'encontrar', 'encontrar']

### Comparação de stemização (NLTK - Natural Language ToolKit) x lematização (spaCy) 

In [10]:
import nltk
nltk.download('rslp') # stemizador específico para trabalharmos com a língua portuguesa

[nltk_data] Downloading package rslp to /home/wolf/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

Quando é realizado a stemização, irá extrair apenas o radical das palavras.

É possível que com o uso dessa técnica palavras com significados diferentes tenham um mesmo radical, algo que pode gerar confusão.

In [11]:
stemmer = nltk.stem.RSLPStemmer()

stemmer.stem('aprendendo')

'aprend'

São Paulo ficou como "paul", não faz muito sentido extrair o radical de uma palavra que seria de um nome próprio.

Com a lematização o significado da palavra é mantido.

In [12]:
for token in doc:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou estar est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso curso curs
do de o do
professor professor profes
da de o da
IA IA ia
Expert Expert expert
Academy Academy academy
, , ,
estudando estudar estud
em em em
São São são
Paulo Paulo paul
. . .


## Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition).
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos).
- Usado em chatbots para saber o assunto falado.

In [13]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [14]:
doc = pln(texto)

Para acessar as entidades nomeadas, basta acessar pela propriedade *ents*.

No caso, o algoritmo identificou que IBM é uma organização (ORG) e os demais são localizações (LOC).

In [15]:
for entidade in doc.ents:
    print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [16]:
from spacy import displacy

displacy.render(doc,
                style='ent', # enfatizar as entidades
                jupyter=True) # True para exibir com uma estilização no Jupyter Notebook

In [17]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'
doc = pln(texto)

In [18]:
for entidade in doc.ents:
    print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [19]:
displacy.render(doc,
                style='ent',
                jupyter=True)

Buscando apenas as entidades do tipo PER (pessoa).

In [20]:
for entidade in doc.ents:
    if entidade.label_ == 'PER':
        print(entidade.text)

Bill Gates


## Stopwords

- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc).

In [21]:
from spacy.lang.pt.stop_words import STOP_WORDS
print(STOP_WORDS)

{'com', 'pegar', 'povo', 'põem', 'dizer', 'usar', 'aí', 'segundo', 'onde', 'além', 'certamente', 'duas', 'sete', 'novos', 'faz', 'custa', 'quer', 'nenhuma', 'tuas', 'outra', 'só', 'quero', 'tivestes', 'obrigado', 'fará', 'nunca', 'tarde', 'veja', 'segunda', 'cada', 'sabe', 'falta', 'adeus', 'sua', 'este', 'tipo', 'deve', 'fazes', 'vêm', 'treze', 'uma', 'portanto', 'tive', 'fazemos', 'quinze', 'minha', 'número', 'debaixo', 'então', 'dão', 'dessa', 'nuns', 'próximo', 'dezoito', 'três', 'eles', 'parte', 'nem', 'nada', 'grande', 'maioria', 'devem', 'estivestes', 'sétima', 'diz', 'favor', 'porquanto', 'poder', 'depois', 'fazem', 'em', 'des', 'onze', 'qual', 'apenas', 'faço', 'tente', 'sob', 'aqui', 'disso', 'foram', 'quê', 'teve', 'algumas', 'estar', 'puderam', 'umas', 'ainda', 'dez', 'meio', 'quinta', 'acerca', 'bem', 'vários', 'nesse', 'partir', 'bom', 'daquela', 'fazeis', 'estiveram', 'somos', 'quarta', 'lugar', 'comprida', 'ter', 'vossas', 'quanto', 'cinco', 'próprio', 'todas', 'ali', '

In [22]:
print(f'Para a Lingua Portuguesa temos {len(STOP_WORDS)} stopwords.')

Para a Lingua Portuguesa temos 416 stopwords.


Verificando se uma palavra específica é stopword.

In [23]:
pln.vocab['é'].is_stop

True

In [24]:
pln.vocab['caminhar'].is_stop

False

In [25]:
doc = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [26]:
for token in doc:
    if not pln.vocab[token.text].is_stop:
        print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


## Parsing de Dependências

- Relação pai-filho entre as palavras.
- Associação/contexto entre as palavras.

A partir desta técnica é possível fazer a identificação do contexto da frase.

Para um chat bot, por exemplo, será identificado os verbos (que seriam as ações que serão feitas) e indicará os nomes próprios ou localizações. Com isto, é possível adquirir o contexto (intenção) da frase.

### Exemplo 1

In [35]:
doc = pln('Reserve uma passagem saindo de Guarulhos e chegando em Curitiba.')

In [36]:
origem = doc[5]
destino = doc[9]
origem, destino

(Guarulhos, Curitiba)

In [37]:
list(origem.ancestors)

[saindo, passagem, Reserve]

In [38]:
list(destino.ancestors)

[chegando, saindo, passagem, Reserve]

### Exemplo 2

In [40]:
doc = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel.')

In [41]:
tarefas = doc[3], doc[10]
locais = doc[6], doc[13]

In [42]:
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [45]:
for local in locais:
    print(5*'-', local)
    for objeto in local.ancestors:
        print(objeto)

----- restaurante
mesa
Reserva
----- hotel
táxi
restaurante
mesa
Reserva


In [47]:
for local in locais:
    for objeto in local.ancestors:
        if objeto in tarefas:
            print(f'Reserva de {objeto} é para o {local}')
            break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


O que vem depois da palavra "restaurante" (filhos dessa palavra, a direita).

In [48]:
list(doc[6].children)

[para, o, táxi]

### Exemplo 3: Visualizando as relações entre as palavras

É possível analisar a relação entre as palavras de forma mais visual.

In [49]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

In [None]:
list(doc[3].ancestors) # "Reserva" aponta para "mesa"

[Reserva]

In [None]:
list(doc[3].children) # "Mesa" aponta para "de", "uma" e "restaurante"

[de, uma, restaurante]

### Exercício

Qual cidade nós iremos visitar e qual cidade nós iremos ficar?

Para responder essa pergunta podemos resgatar quais são as ações (verbos) da frase e locais (nomes próprios). A partir disto, podemos realizar um loop de repetição que passará pela lista de locais (nomes próprios) e irá adquirir as palavras que antecedem cada local (ancestrais).

Baseado na proximidade, os verbos mais próximos dos nomes próprios estarão relacionados.

A partir disto, é possível saber o que irá ser feito em cada uma das cidades.

In [52]:
doc = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')

In [54]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

In [65]:
acoes = [token for token in doc if token.pos_ == "VERB"]
acoes

[podemos, visitar, ficar]

In [None]:
locais = [token for token in doc if token.pos_ == "PROPN"]
locais

[Curitiba, Guarulhos]

In [67]:
for local in list(locais):
    for verbo in local.ancestors:
        if verbo in acoes:
            print(f'{local} para {verbo}')
            break

Curitiba para visitar
Guarulhos para ficar
