<a href="https://colab.research.google.com/github/muxeres/NLTK-Formativa-PUC/blob/master/%5BONLINE%5D_Similaridade_Sem%C3%A2ntica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Similaridade Semântica
## Processamento de Linguagem Natural
A Similaridade semântica é medida através da semelhança de  **significado** ou **conteúdo semântico** entre palavras/sentenças/documentos.

Nesta aula você realizará atividades práticas relacionadas a  **Similaridade semântica**, visando entender qual o seu papel nas mais diversas aplicações de PLN, além de utilizar a interface de WordNet do NLTK para língua inglesa.

**WordNet** é a rede semântica mais popular na área de medir a similaridade *knowledge-based*; O WordNet é um grande banco de dados léxico, disponível em diversos idiomas. Substantivos, verbos, adjetivos e advérbios são agrupados em conjuntos de sinônimos cognitivos (*synsets*), cada um expressando um conceito distinto. Os *synsets* são interligados por meio de relações conceitual-semânticas e léxicas.

### Acessando o WordNet utilizando o NLTK
Infelizmente o NLTK ainda não dá suporte ao acesso direto a busca em algum grande WordNet em português (e.g., openWordnet-PT, WordNet.PT). Trabalharemos nossos exemplos em inglês e utilizando a versão em português contida no [Open Multilingual Wordnet](http://compling.hss.ntu.edu.sg/omw/) que o NLTK dá suporte.

In [None]:
# Você deve importar o corpus do WordNet
import nltk
from nltk.corpus import wordnet
# Precisa efetuar o download do wordnet
nltk.download('wordnet')
# Caso use o Open Multilingual Wordnet
nltk.download('omw')

In [None]:
# Obtém o(s) synset(s) para a palavra "pain" (dor)
syn = wordnet.synsets("pain")
# Imprime a definição
print(syn[0].definition())
# Imprime exemplos de aplicação em uma frase
print(syn[0].examples())



> **O que é um `synset`?** É um conjunto de sinônimos que compartilham um mesmo significado.



In [None]:
# Temos uma lista de synset possíveis para a palavra pesquisada
syn



> Cada `synset` possui um ou mais `lemmas`, que representam um significado particular de uma palavra específica.



#### Utilizando `synsets` e `lemmas` em português através do Open Multilingual Wordnet

In [None]:
# Busca synsets em português
wordnet.synsets("cão", lang="por")

In [None]:
# Busca lemmas em português
wordnet.lemmas("cão", lang="por")

#### Atividade prática - Construindo uma função de **sugestão de sinônimos**
Você já deve ter visto em aplicativos como o Microsoft Word a funcionalidade de sugerir sinônimos de uma palavras. Com o auxílio do WordNet conseguimos facilmente obter sinônimos de uma dada palavra.


---


![String-based similarity measures](https://docs.google.com/uc?export=download&id=1-VKDiXbIdSgwJzBvXjgdP47R-dPe--XG)

In [None]:
def buscarSinonimos(palavra):



In [None]:
#A seguir pediremos que o usuário digite uma palavra
palavra = input("Digite uma palavra: ")

# Busca sinonimos da palavra
buscarSinonimos(palavra)



> **ATIVIDADE EXTRA**: Agora faça uma função de busca por palavras opostas (antônimos).
DICA: além da função `name()` o objeto `lemma` tem também a função `.antonyms()`.



### Acessando diferentes níveis hierárquicos
Além dos sinônimos e antônimos podemos acessar termos com diferentes relações hierarquicas entre si.

#### Hiponímias

In [None]:
fruta = wordnet.synsets("fruta", lang="por")[0]
fruta.hyponyms()

#### Hiperonímias

In [None]:
cidade = wordnet.synsets("cidade", lang="por")[0]
cidade.hypernyms()

É possível encontrar o hiperônimo mais próximo entre dois termos.

In [None]:
bulldog = wordnet.synsets("bulldog")[0]
pug = wordnet.synsets("pug")[0]
bulldog.lowest_common_hypernyms(pug)

#### Meronímias

In [None]:
mao = wordnet.synsets("mão", lang="por")[0]
mao.part_meronyms()

In [None]:
saliva = wordnet.synsets("saliva", lang="por")[0]
saliva.substance_meronyms()

#### Holonímias

In [None]:
arvore = wordnet.synsets("árvore", lang="por")[0]
arvore.member_holonyms()

#### Polissemias

##### **Atividade prática** - Buscando polissemias
A polissemia é a quantidade de sentidos/significados de uma palavra.

Utilizando a interface do WordNet podemos determinar que o substantivo "cachorro" tem 7 diferentes significados ao utilizar o código: `len(wordnet.synsets('dog', 'n'))`

Calcule a média de polissemias entre os substantivos (n), verbos (v) e adjetivos (a).

> **DICA**: Você pode obter todos `synsets` substantivos usando `wordnet.all_synsets('n')`





### Calculando Similaridade semântica entre palavras
Algumas funções de similaridade *knowledge-based* já são implementadas pela interface do WordNet no NLTK.

![Knowledge-based similarity measures](https://docs.google.com/uc?export=download&id=1g-3cWh9BF6Ex8oWDv77L1mdagUq0yc0v)

In [None]:
gato = wordnet.synsets("gato", lang="por")[0]
cachorro = wordnet.synsets("dog")[0]

chocar = wordnet.synsets("chocar", lang="por")[0]
colidir = wordnet.synsets("colidir", lang="por")[0]

caneta = wordnet.synsets("caneta", lang="por")[0]

In [None]:
gato

In [None]:
cachorro



> **IMPORTANTE**: Não importa o idioma que você busque, a referência será sempre aos mesmos `synsets`



#### **Path Similarity** (path)
Retorna uma pontuação indicando o quão semelhantes os sentidos de duas palavras são, com base no caminho mais curto que conecta os sentidos na taxonomia *is-a* (é-um) (Hiperonímia / Hiponímia). A pontuação está no intervalo de 0 a 1.

In [None]:
cachorro.path_similarity(gato)

In [None]:
chocar.path_similarity(colidir)

In [None]:
gato.path_similarity(caneta)

#### **Leacock-Chodorow Similarity** (lch)
Similar ao anterior, porém utiliza também a profundidade máxima da taxonomia em que os sentidos ocorrem no cálculo.

In [None]:
cachorro.lch_similarity(gato)

In [None]:
chocar.lch_similarity(colidir)

In [None]:
gato.lch_similarity(caneta)

#### **Wu-Palmer Similarity** (wup)
Retorna uma pontuação indicando o quão  semelhantes os sentidos de duas palavras são, com base na profundidade dos dois sentidos na taxonomia e no seu nó ancestral mais específico.

In [None]:
cachorro.wup_similarity(gato)

In [None]:
chocar.wup_similarity(colidir)

In [None]:
gato.wup_similarity(caneta)

## Referências e Material complementar

*   [NLTK WordNet Interface](http://www.nltk.org/howto/wordnet.html)
*   [openWordnet-PT](https://github.com/own-pt/openWordnet-PT)
*   [WordNet.PT](http://wordnet.pt/)


Este notebook foi produzido por Prof. [Lucas Oliveira](http://lattes.cnpq.br/3611246009892500).