# Processamento de Linguagem Natural - Aula 2

# Conteúdo

## Stopwords

São palavras que embora estejam presentes em um texto não contribuem significativamente para sua compreensão, normalmente essas palavras apenas consomem recursos de processamento, não sendo sempre necessárias para que um algorítimo de processamento de linguagem natural compreenda o todo do texto passado ao mesmo

Elas podem ser usadas para diminuir a quantidade de texto processado para se chegar ao contexto

In [13]:
import spacy
from spacy import displacy

nlp = spacy.load('en_core_web_sm')
nlp_pt = spacy.load('pt_core_news_sm')

In [10]:
# Stopwords da língua portuguesa
from spacy.lang.pt.stop_words import STOP_WORDS as PT_STOP_WORDS
# Stopwords da língua inglesa
from spacy.lang.en.stop_words import STOP_WORDS as EN_STOP_WORDS

print('Stopwords PT:', PT_STOP_WORDS, '\n')
print('Stopwords EN:', EN_STOP_WORDS, '\n')

Stopwords PT: {'ter', 'entre', 'catorze', 'sistema', 'nenhuma', 'bastante', 'estará', 'ver', 'favor', 'dos', 'oito', 'quarto', 'mês', 'bom', 'estivestes', 'primeiro', 'sempre', 'boa', 'meu', 'quê', 'é', 'outra', 'nem', 'se', 'teus', 'nessa', 'iniciar', 'irá', 'possível', 'desde', 'já', 'fomos', 'cujo', 'fazia', 'também', 'pouco', 'te', 'vais', 'têm', 'além', 'diz', 'naquele', 'des', 'dentro', 'mil', 'vindo', 'nada', 'ademais', 'próprio', 'direita', 'minhas', 'sei', 'em', 'meses', 'dessa', 'no', 'atrás', 'ali', 'ir', 'aquelas', 'bem', 'a', 'umas', 'talvez', 'ontem', 'aqueles', 'num', 'forma', 'vocês', 'todos', 'tivemos', 'sexta', 'vários', 'tentar', 'estar', 'poder', 'foste', 'quanto', 'querem', 'só', 'numa', 'dezassete', 'alguns', 'tu', 'logo', 'primeira', 'disso', 'ela', 'ambos', 'último', 'porquê', 'ele', 'pegar', 'isso', 'perto', 'cuja', 'falta', 'era', 'novos', 'embora', 'inclusive', 'suas', 'aquela', 'tempo', 'parece', 'vinte', 'pouca', 'temos', 'dois', 'mal', 'fazem', 'deste', 't

In [17]:
doc = nlp('We are learning natural language processing. We are in Brazil')


print('Stop words: ')
for token in doc:
    # Vocab Doc -> https://spacy.io/api/vocab
    #
    # <nlp>.vocab -> Acessa um dicionário com o vocabulário presente no NLP
    # <vocab>.is_stop -> Determina se o vocabulário é uma stopword
    if nlp.vocab[token.text].is_stop:
        print(token.text)


print('\nPalavras: ')
for token in doc:
    if not nlp.vocab[token.text].is_stop:
        print(token.text)

Stop words: 
We
are
We
are
in

Palavras: 
learning
natural
language
processing
.
Brazil


## Dependency Parsing

Evidencia o relacionamento hierárquico (pai-filho) entre as palavras da frase

Usado para obter o relacionamento e os elementos de ligação de uma palavra da frase com as demais do todo

In [67]:
doc = nlp('Book a ticket from London to Paris')
origin = doc[4]
destiny = doc[6]

# <token>.ancestors -> Lista os ancestrais do token
print(list(origin.ancestors))
print(list(destiny.ancestors))

[from, ticket, Book]
[to, ticket, Book]


In [77]:
doc = nlp('Book a table for the restaurant and a taxi for the hotel')
tasks = doc[2], doc[8]  # Cria um par (tupla) com os elementos
locations = doc[5], doc[11]

print('Locations: ')
for location in locations:
    print(f'  {location}:')
    for ancestor in location.ancestors:
        print(f'    - {ancestor}')

print('\nTasks: ')
for task in tasks:
    print(f'  {task}:')
    for ancestor in task.ancestors:
        print(f'    - {ancestor}')

print('\nReservations: ')
for location in locations:
    for ancestor in location.ancestors:
        if ancestor in tasks:
            print(f'  - {ancestor} to {location}')

displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})

Locations: 
  restaurant:
    - for
    - table
    - Book
  hotel:
    - for
    - taxi
    - restaurant
    - for
    - table
    - Book

Tasks: 
  table:
    - Book
  taxi:
    - restaurant
    - for
    - table
    - Book

Reservations: 
  - table to restaurant
  - taxi to hotel
  - table to hotel


## Word similarity

Obtém a semelhança entre duas ou mais sentenças

In [83]:
hello = nlp('hello')
hi = nlp('hi')
or_ = nlp('or')

# <nlp>.similarity -> calcula a similaridade entre duas sentenças, de 0 a 1
print(hello.similarity(hi))
print(hello.similarity(or_))

0.7161105066354656
0.15867725447859862


  print(hello.similarity(hi))
  print(hello.similarity(or_))


# Exercícios

## Exercício 1

In [49]:
doc_araras = nlp_pt('A fundação da cidade é atribuída aos irmãos Bento de Lacerda Guimarães , barão de Araras, e José Lacerda Guimarães, barão de Arari, originários de Itatiba. As primeiras residências da região surgiram em suas terras por volta de 1862, mas foi a doação de parte da Fazenda São Joaquim (no Município de Limeira) - propriedade que pertence até hoje a seus descendentes, que permitiu a construção da capela que mais tarde se tornaria a Igreja Nossa Senhora do Patrocínio da cidade, em 15 de agosto de 1862. O nome "Araras" foi escolhido em referência ao nome do rio que corta a cidade, e também devido ao grande número dessa ave que havia na região.')

txt_araras_sem_stopwords = ''

for token in doc_araras:
    if not nlp_pt.vocab[token.text].is_stop:
        txt_araras_sem_stopwords += f'{token.text} '

doc_araras_sem_stopwords = nlp_pt(txt_araras_sem_stopwords)

print('Texto normal:\n')
displacy.render(doc_araras, style='ent', jupyter=True)

print('\nTexto filtrado:\n')
displacy.render(doc_araras_sem_stopwords, style='ent', jupyter=True)

Texto normal:




Texto filtrado:



## Exercício 2

In [137]:
doc = nlp_pt('Quais lugares podemos visitar em Araras?')

action = None
location = None

for token in doc:
    # Filtra apenas os tokens de localização
    if token.ent_type_ == 'LOC':
        location = token.text

        for ancestor in token.ancestors:
            # Filtra apenas verbos
            if not ancestor.pos_ == 'VERB':
                continue

            # Parseia cada children para só obter aqueles relacionados com
            # a locaiton
            if token in ancestor.children:
                action = ancestor.text

print('Local: ', location)
print('Ação: ', action)

print('\nLinhagem: ')
for token in doc:
    print(f'| {token}')

    if len(list(token.ancestors)) > 0:
        print('| | Ancestors:')
        for ancestor in token.ancestors:
            print(f'| | | {ancestor.text}')

    if len(list(token.children)) > 0:
        print('| | Children:')
        for child in token.children:
            print(f'| | | {child.text}')

displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})

Local:  Araras
Ação:  visitar

Linhagem: 
| Quais
| | Ancestors:
| | | lugares
| | | podemos
| lugares
| | Ancestors:
| | | podemos
| | Children:
| | | Quais
| podemos
| | Children:
| | | lugares
| | | visitar
| visitar
| | Ancestors:
| | | podemos
| | Children:
| | | Araras
| | | ?
| em
| | Ancestors:
| | | Araras
| | | visitar
| | | podemos
| Araras
| | Ancestors:
| | | visitar
| | | podemos
| | Children:
| | | em
| ?
| | Ancestors:
| | | visitar
| | | podemos


## Exercício 3

deseja-se desenvolver um jogo no qual, dada uma palavra sorteada aleatoriamente dente um conjunto de palavras previamente estabelecidas, o player tenha que digitar uma palavra similar, mas não idêntica. O jogo termina quando o player digitar uma palavra com similaridade menor que um limiar estabelecido (por exemplo: 60%).

In [28]:
from random import choice

import spacy

palavras = [
    "Café", "Carro", "Livro", "Telefone", "Computador",
    "Amigo", "Família", "Viagem", "Comida", "Casa",
    "Trabalho", "Escola", "Praia", "Filme", "Música",
    "Felicidade", "Chuva", "Sorriso", "Gato", "Cachorro",
    "Relógio", "Dinheiro", "Sonho", "Sono", "Sol",
    "Lua", "Criança", "Árvore", "Internet", "Notícia",
    "Férias", "Amor", "Compras", "Esporte", "Televisão",
    "Moda", "Risada", "Conversa", "Passeio", "Exercício",
    "Chocolate", "Televisão", "Telefone", "Jantar", "Céu",
    "Estrela", "Leitura", "Mar", "Montanha", "Passarinho"
]

mapeamento_dificuldades = {
    'f': (0.25, 'Fácil'),
    'm': (0.35, 'Média'), 
    'd': (0.45, 'Difícil'),
}

dificuldade_escolhida = str(input('Escolha uma dificuldade:\n  F - Fácil\n  M - Média\n  D - Difícil\n') or 'M').lower()
while dificuldade_escolhida not in mapeamento_dificuldades:
    dificuldade_escolhida = str(input(f'Dificuldade {dificuldade_escolhida} inválida, escolha uma dificuldade entre:\n  F - Fácil\n  M - Média\n  D - Difícil\n') or 'M').lower()

limite, dificuldade = mapeamento_dificuldades[dificuldade_escolhida]
print(f'\nIniciando jogo na dificuldade {dificuldade}')
print(f'Será preciso que a palavra escrita seja ao menos {int(limite * 100)}% similar')

nlp_pt = spacy.load('pt_core_news_sm')

while True:    
    palavra_escolhida = nlp_pt(choice(palavras).lower())
    entrada = nlp_pt(input(f'\nEscreva uma palavra similar a: {palavra_escolhida.text}\n').lower())
    similaridade = abs(palavra_escolhida.similarity(entrada))
    similaridade_percentual = int(similaridade * 100)

    if similaridade < limite:
        print('Você perdeu!')
        print(f'A similaridade entre {palavra_escolhida.text} e {entrada.text} é de apenas {similaridade_percentual}%')
        break
    else:
        print(f'Parabéns! A similariade entre {palavra_escolhida.text} e {entrada.text} foi de {similaridade_percentual}%')

Escolha uma dificuldade:
  F - Fácil
  M - Média
  D - Difícil
 f



Iniciando jogo na dificuldade Fácil
Será preciso que a palavra escrita seja ao menos 25% similar



Escreva uma palavra similar a: criança
 cria


  similaridade = abs(palavra_escolhida.similarity(entrada))


Parabéns! A similariade entre criança e cria foi de 50%



Escreva uma palavra similar a: chuva
 chove


Parabéns! A similariade entre chuva e chove foi de 45%



Escreva uma palavra similar a: televisão
 televisa


Parabéns! A similariade entre televisão e televisa foi de 65%



Escreva uma palavra similar a: casa
 computador


Parabéns! A similariade entre casa e computador foi de 37%



Escreva uma palavra similar a: chuva
 correios vindo da china e parando um curitiba


Você perdeu!
A similaridade entre chuva e correios vindo da china e parando um curitiba é de apenas 12%
