<a href="https://colab.research.google.com/github/muxeres/NLTK-Formativa-PUC/blob/master/%5BONLINE%5D_Similaridade_Sem%C3%A2ntica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Similaridade Semântica
## Processamento de Linguagem Natural
A Similaridade semântica é medida através da semelhança de  **significado** ou **conteúdo semântico** entre palavras/sentenças/documentos.

Nesta aula você realizará atividades práticas relacionadas a  **Similaridade semântica**, visando entender qual o seu papel nas mais diversas aplicações de PLN, além de utilizar a interface de WordNet do NLTK para língua inglesa.

**WordNet** é a rede semântica mais popular na área de medir a similaridade *knowledge-based*; O WordNet é um grande banco de dados léxico, disponível em diversos idiomas. Substantivos, verbos, adjetivos e advérbios são agrupados em conjuntos de sinônimos cognitivos (*synsets*), cada um expressando um conceito distinto. Os *synsets* são interligados por meio de relações conceitual-semânticas e léxicas.

### Acessando o WordNet utilizando o NLTK
Infelizmente o NLTK ainda não dá suporte ao acesso direto a busca em algum grande WordNet em português (e.g., openWordnet-PT, WordNet.PT). Trabalharemos nossos exemplos em inglês e utilizando a versão em português contida no [Open Multilingual Wordnet](http://compling.hss.ntu.edu.sg/omw/) que o NLTK dá suporte.

In [38]:
# Você deve importar o corpus do WordNet
import nltk
from nltk.corpus import wordnet
# Precisa efetuar o download do wordnet
nltk.download('wordnet')
# Caso use o Open Multilingual Wordnet
nltk.download('omw')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw to /root/nltk_data...
[nltk_data]   Package omw is already up-to-date!


True

In [39]:
# Obtém o(s) synset(s) para a palavra "pain" (dor)
syn = wordnet.synsets("pain")
# Imprime a definição
print(syn[0].definition())
# Imprime exemplos de aplicação em uma frase
print(syn[0].examples())

a symptom of some physical hurt or disorder
['the patient developed severe pain and distension']




> **O que é um `synset`?** É um conjunto de sinônimos que compartilham um mesmo significado.



In [40]:
# Temos uma lista de synset possíveis para a palavra pesquisada
syn

[Synset('pain.n.01'),
 Synset('pain.n.02'),
 Synset('pain.n.03'),
 Synset('pain.n.04'),
 Synset('annoyance.n.04'),
 Synset('trouble.v.05'),
 Synset('pain.v.02')]



> Cada `synset` possui um ou mais `lemmas`, que representam um significado particular de uma palavra específica.



#### Utilizando `synsets` e `lemmas` em português através do Open Multilingual Wordnet

In [41]:
nltk.download('omw-1.4')
# Busca synsets em português
wordnet.synsets("cão", lang="por")

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


[Synset('canine.n.02'),
 Synset('bitch.n.04'),
 Synset('dog.n.01'),
 Synset('devil.n.02')]

In [42]:
# Busca lemmas em português
wordnet.lemmas("cão", lang="por")

[Lemma('canine.n.02.cão'),
 Lemma('bitch.n.04.cão'),
 Lemma('dog.n.01.cão'),
 Lemma('devil.n.02.cão')]

#### Atividade prática - Construindo uma função de **sugestão de sinônimos**
Você já deve ter visto em aplicativos como o Microsoft Word a funcionalidade de sugerir sinônimos de uma palavras. Com o auxílio do WordNet conseguimos facilmente obter sinônimos de uma dada palavra.


---


![String-based similarity measures](https://docs.google.com/uc?export=download&id=1-VKDiXbIdSgwJzBvXjgdP47R-dPe--XG)

In [13]:
def buscarSinonimos(palavra):
  sinonimos = []
  # Obter synsets para a palavra
  synsets = wordnet.synsets(palavra, lang="por")

  # Iterar e coletar lemmas (sinônimos)
  for synset in synsets:
      for lemma in synset.lemmas(lang="por"):
          # Adicionar o nome do lemma (sinônimo) à lista, evitando repetições
          if lemma.name() != palavra and lemma.name() not in sinonimos:
              sinonimos.append(lemma.name())

  return sinonimos



In [14]:
#A seguir pediremos que o usuário digite uma palavra
palavra = input("Digite uma palavra: ")

# Busca sinonimos da palavra
buscarSinonimos(palavra)

Digite uma palavra: coletar


['coligir', 'juntar', 'recolher', 'reunir', 'pegar']



> **ATIVIDADE EXTRA**: Agora faça uma função de busca por palavras opostas (antônimos).
DICA: além da função `name()` o objeto `lemma` tem também a função `.antonyms()`.



In [46]:
from nltk.corpus import wordnet


In [49]:

def buscarAntonimos(palavra):
    antonimos = []

    # Verificar se há synsets para a palavra em português
    synsets = wordnet.synsets(palavra, lang="por")

    if not synsets:
        print(f"Nenhum conteúdo encontrado para a palavra '{palavra}' em português.")
        return antonimos

 # Iterar sobre os synsets e coletar antônimos
    for synset in synsets:
        for lemma in synset.lemmas(lang="por"):
            # Iterar sobre os antônimos de cada lemma
            for antonimo in lemma.antonyms():
                print(antonimo.name())
                # Adicionar o nome do antônimo à lista sem repetições
                if antonimo.name() not in antonimos:
                    antonimos.append(antonimo.name())

    if not antonimos:
        print(f"Nenhum antônimo encontrado para a palavra '{palavra}'.")

    return antonimos


In [52]:
from nltk.corpus import wordnet

def listarPalavrasComAntonimos(lang="por"):
    palavras_com_antonimos = set()

    # Percorre todos os synsets disponíveis no WordNet
    for synset in wordnet.all_synsets():
        # Verifica se o synset tem lemmas em português
        for lemma in synset.lemmas(lang=lang):
            # Verifica se o lemma tem antônimos
            if lemma.antonyms():
                # Adiciona o nome do lemma à lista de palavras com antônimos
                palavras_com_antonimos.add(lemma.name())

    return sorted(palavras_com_antonimos)

# Exemplo de uso
palavras_com_antonimos = listarPalavrasComAntonimos()
print(f"Palavras em português com antônimos: {palavras_com_antonimos}")


Palavras em português com antônimos: ['Lady', 'RISC', 'a_priori', 'absorbency', 'anal', 'angular', 'artificial', 'atonal', 'bicameral', 'bimodal', 'bipolar', 'cardinal', 'central', 'cerebral', 'civil_law', 'congenial', 'continental', 'contralateral', 'cortex', 'crucial', 'digital', 'distal', 'dorsal', 'e-mail', 'email', 'equatorial', 'extramural', 'extraterritorial', 'fatal', 'fauna', 'federal', 'filial', 'flora', 'formal', 'fraternal', 'gradual', 'hardware', 'horizontal', 'in_vitro', 'individual', 'industrial', 'inferior', 'infernal', 'informal', 'instrumental', 'intramural', 'ipsilateral', 'irregular', 'legal', 'legato', 'liberal', 'literal', 'local', 'manual', 'material', 'maternal', 'mental', 'minimum', 'mononuclear', 'moral', 'mortal', 'multidimensional', 'musical', 'nadir', 'natural', 'neutral', 'nominal', 'normal', 'nuclear', 'off-line', 'off-site', 'on-line', 'ordinal', 'original', 'paranormal', 'parental', 'perinatal', 'perpendicular', 'piano', 'plural', 'polar', 'popular', 'p

In [54]:
#A seguir pediremos que o usuário digite uma palavra
palavra = input("Digite uma palavra: ")

# Busca sinonimos da palavra
buscarAntonimos(palavra)


Digite uma palavra: literal
figurative


['figurative']

### Acessando diferentes níveis hierárquicos
Além dos sinônimos e antônimos podemos acessar termos com diferentes relações hierarquicas entre si.

#### Hiponímias

In [55]:
fruta = wordnet.synsets("fruta", lang="por")[0]
fruta.hyponyms()

[Synset('ackee.n.01'),
 Synset('anchovy_pear.n.02'),
 Synset('apple.n.01'),
 Synset('apricot.n.02'),
 Synset('avocado.n.01'),
 Synset('banana.n.02'),
 Synset('barbados_gooseberry.n.02'),
 Synset('berry.n.01'),
 Synset('breadfruit.n.02'),
 Synset('canistel.n.02'),
 Synset('carambola.n.02'),
 Synset('carissa_plum.n.01'),
 Synset('ceriman.n.02'),
 Synset('cherry.n.03'),
 Synset('citrus.n.01'),
 Synset('cling.n.01'),
 Synset('cocoa_plum.n.02'),
 Synset('custard_apple.n.02'),
 Synset('date.n.08'),
 Synset('dried_fruit.n.01'),
 Synset('durian.n.02'),
 Synset('elderberry.n.02'),
 Synset('feijoa.n.02'),
 Synset('fig.n.04'),
 Synset('freestone.n.01'),
 Synset('garambulla.n.02'),
 Synset('genip.n.02'),
 Synset('genipap.n.01'),
 Synset('grape.n.01'),
 Synset('guava.n.03'),
 Synset('hog_plum.n.03'),
 Synset('hog_plum.n.04'),
 Synset('jaboticaba.n.02'),
 Synset('jackfruit.n.02'),
 Synset('jujube.n.02'),
 Synset('kai_apple.n.01'),
 Synset('ketembilla.n.02'),
 Synset('kiwi.n.03'),
 Synset('lanseh.n.0

#### Hiperonímias

In [56]:
cidade = wordnet.synsets("cidade", lang="por")[0]
cidade.hypernyms()

[Synset('state.n.04')]

É possível encontrar o hiperônimo mais próximo entre dois termos.

In [57]:
bulldog = wordnet.synsets("bulldog")[0]
pug = wordnet.synsets("pug")[0]
bulldog.lowest_common_hypernyms(pug)

[Synset('dog.n.01')]

#### Meronímias

In [58]:
mao = wordnet.synsets("mão", lang="por")[0]
mao.part_meronyms()

[Synset('ball.n.10'),
 Synset('digital_arteries.n.01'),
 Synset('finger.n.01'),
 Synset('intercapitular_vein.n.01'),
 Synset('metacarpal_artery.n.01'),
 Synset('metacarpal_vein.n.01'),
 Synset('metacarpus.n.01'),
 Synset('palm.n.01')]

In [59]:
saliva = wordnet.synsets("saliva", lang="por")[0]
saliva.substance_meronyms()

[Synset('ptyalin.n.01')]

#### Holonímias

In [60]:
arvore = wordnet.synsets("árvore", lang="por")[0]
arvore.member_holonyms()

[Synset('forest.n.01')]

#### Polissemias

##### **Atividade prática** - Buscando polissemias
A polissemia é a quantidade de sentidos/significados de uma palavra.

Utilizando a interface do WordNet podemos determinar que o substantivo "cachorro" tem 7 diferentes significados ao utilizar o código: `len(wordnet.synsets('dog', 'n'))`

Calcule a média de polissemias entre os substantivos (n), verbos (v) e adjetivos (a).

> **DICA**: Você pode obter todos `synsets` substantivos usando `wordnet.all_synsets('n')`





### Calculando Similaridade semântica entre palavras
Algumas funções de similaridade *knowledge-based* já são implementadas pela interface do WordNet no NLTK.

![Knowledge-based similarity measures](https://docs.google.com/uc?export=download&id=1g-3cWh9BF6Ex8oWDv77L1mdagUq0yc0v)

In [61]:
gato = wordnet.synsets("gato", lang="por")[0]
cachorro = wordnet.synsets("dog")[0]

chocar = wordnet.synsets("chocar", lang="por")[0]
colidir = wordnet.synsets("colidir", lang="por")[0]

caneta = wordnet.synsets("caneta", lang="por")[0]

In [62]:
gato

Synset('cat.n.01')

In [63]:
cachorro

Synset('dog.n.01')



> **IMPORTANTE**: Não importa o idioma que você busque, a referência será sempre aos mesmos `synsets`



#### **Path Similarity** (path)
Retorna uma pontuação indicando o quão semelhantes os sentidos de duas palavras são, com base no caminho mais curto que conecta os sentidos na taxonomia *is-a* (é-um) (Hiperonímia / Hiponímia). A pontuação está no intervalo de 0 a 1.

In [64]:
cachorro.path_similarity(gato)

0.2

In [65]:
chocar.path_similarity(colidir)

0.5

In [66]:
gato.path_similarity(caneta)

0.058823529411764705

#### **Leacock-Chodorow Similarity** (lch)
Similar ao anterior, porém utiliza também a profundidade máxima da taxonomia em que os sentidos ocorrem no cálculo.

In [67]:
cachorro.lch_similarity(gato)

2.0281482472922856

In [68]:
chocar.lch_similarity(colidir)

2.5649493574615367

In [69]:
gato.lch_similarity(caneta)

0.8043728156701697

#### **Wu-Palmer Similarity** (wup)
Retorna uma pontuação indicando o quão  semelhantes os sentidos de duas palavras são, com base na profundidade dos dois sentidos na taxonomia e no seu nó ancestral mais específico.

In [70]:
cachorro.wup_similarity(gato)

0.8571428571428571

In [71]:
chocar.wup_similarity(colidir)

0.8

In [72]:
gato.wup_similarity(caneta)

0.3333333333333333

## Referências e Material complementar

*   [NLTK WordNet Interface](http://www.nltk.org/howto/wordnet.html)
*   [openWordnet-PT](https://github.com/own-pt/openWordnet-PT)
*   [WordNet.PT](http://wordnet.pt/)


Este notebook foi produzido por Prof. [Lucas Oliveira](http://lattes.cnpq.br/3611246009892500).