<a href="https://colab.research.google.com/github/muxeres/PNL/blob/master/C%C3%B3pia_de_%5BONLINE%5D_Similaridade_L%C3%A9xica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Similaridade Léxica
## Processamento de Linguagem Natural
Nesta atividade você realizará atividades práticas relacionadas a  **Similaridade léxica**, visando entender qual o seu papel nas mais diversas aplicações de PLN.


##**Medidas de similaridade**
Existe uma série de diferentes cálculos/medidas que indicam a similaridade léxica entre palavras, as chamamos de *string-based*.

![String-based similarity measures](https://docs.google.com/uc?export=download&id=1iO4zT9lTIO4-XsAB-P9_BddOIJwjwMRJ)

A seguir uma série de exemplos de algumas das medidas de similaridade léxica da figura acima.

### **Levenshtein (edit) distance**

A distância de Levenshtein entre duas palavras é o número mínimo de edições de um caractere (inserções, exclusões ou substituições) necessárias para alterar uma palavra pela outra. Usaremos para comparar **PALAVRAS/TOKENS**.

In [None]:
# Define 4 palavras diferentes
p1 = "padeiro"
p2 = "pandeiro"
p3 = "bombeiro"
p4 = "padaria"

In [None]:
# Não há necessidade de implementar a função de edit distance visto que o NLTK já a implementa
import nltk

In [None]:
nltk.edit_distance(p1, p2)

1

In [None]:
nltk.edit_distance(p1, p3)

4

In [None]:
nltk.edit_distance(p1, p4)

4

In [None]:
nltk.edit_distance(p3, p4)

7

#### Atividade prática - Construindo um **verificador ortográfico simples**

In [None]:
# Lista contendo o dicionário de palavras válidas
dicionario = ['beneficente','cumprimento', 'comprimento', 'tráfego', 'tráfico', 'iminente', 'eminente', 'descrição', 'discrição']

In [None]:
# Função que verifica se palavra está no dicionário
def verificar(p):
  # Se palavra não está no dicionário
  if p not in dicionario:

    print("Palavra incorreta!")

In [None]:
#A seguir pediremos que o usuário digite uma palavra
palavra = input("Digite uma palavra: ")

# Verifica palavra informada pelo usuário
verificar(palavra)

Digite uma palavra: palavrão
Palavra incorreta!



Re-implemente a função `verificar(p)` de modo que:
1.  Caso a palavra digitada não exista no dicionário, ela sugira todas as outras que tenham uma distância de edição de valor 1 da palavra digitada.
> **DICA**: Para percorrer a lista de palavras você pode utilizar o comando `for palavra in dicionario:`
2.  Ao invés de receber apenas uma palavra, a função receba uma sentença inteira, faça a tokenização da mesma, e ofereça sugestões para todas palavras que nao se encontram no dicionário (caso as mesmas tenham distância de edição igual a 1)
3. **BÔNUS**: Obter uma lista de palavras de maior abrangência, abrir arquivo e popular o dicionário (https://github.com/pythonprobr/palavras)








### **N-grams**
O N-grams são basicamente um conjunto de caracteres/palavras co-ocorrentes em uma determinada janela de abertura. Usaremos tanto para comparar **CARACTERES** quanto **PALAVRAS**.

In [None]:
# Não há necessidade de implementar uma função de n-grams - o NLTK já implementa
import nltk
from nltk.util import ngrams
# Necessário pois utilizaremos o tokenizador
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

#### N-Grams de **PALAVRAS**

In [None]:
# Função para gerar n-grams de palavras a partir de uma sentença.
def extrair_ngrams_palavras(sent, n):
    n_grams = ngrams(nltk.word_tokenize(sent, language='portuguese'), n)
    return [ ' '.join(grams) for grams in n_grams]

texto = 'Esta é uma sentença para testarmos n-grams de palavras.'

print("1-gram: ", extrair_ngrams_palavras(texto, 1))
print("2-gram: ", extrair_ngrams_palavras(texto, 2))
print("3-gram: ", extrair_ngrams_palavras(texto, 3))
print("4-gram: ", extrair_ngrams_palavras(texto, 4))

1-gram:  ['Esta', 'é', 'uma', 'sentença', 'para', 'testarmos', 'n-grams', 'de', 'palavras', '.']
2-gram:  ['Esta é', 'é uma', 'uma sentença', 'sentença para', 'para testarmos', 'testarmos n-grams', 'n-grams de', 'de palavras', 'palavras .']
3-gram:  ['Esta é uma', 'é uma sentença', 'uma sentença para', 'sentença para testarmos', 'para testarmos n-grams', 'testarmos n-grams de', 'n-grams de palavras', 'de palavras .']
4-gram:  ['Esta é uma sentença', 'é uma sentença para', 'uma sentença para testarmos', 'sentença para testarmos n-grams', 'para testarmos n-grams de', 'testarmos n-grams de palavras', 'n-grams de palavras .']


#### N-Grams de **CARACTERES**

In [None]:
# Função para gerar n-grams de caracteres a partir de um texto.
def extrair_ngrams_char(texto, n):
  # Cria lista com caracteres
  chars = [c for c in texto]
  n_grams = ngrams(chars,n)
  return [ ' '.join(grams) for grams in n_grams]

texto = "Sentença para testarmos n-grams de caracteres"

print("1-gram: ", extrair_ngrams_char(texto,1))
print("2-gram: ", extrair_ngrams_char(texto,2))
print("3-gram: ", extrair_ngrams_char(texto,3))
print("4-gram: ", extrair_ngrams_char(texto,4))

1-gram:  ['S', 'e', 'n', 't', 'e', 'n', 'ç', 'a', ' ', 'p', 'a', 'r', 'a', ' ', 't', 'e', 's', 't', 'a', 'r', 'm', 'o', 's', ' ', 'n', '-', 'g', 'r', 'a', 'm', 's', ' ', 'd', 'e', ' ', 'c', 'a', 'r', 'a', 'c', 't', 'e', 'r', 'e', 's']
2-gram:  ['S e', 'e n', 'n t', 't e', 'e n', 'n ç', 'ç a', 'a  ', '  p', 'p a', 'a r', 'r a', 'a  ', '  t', 't e', 'e s', 's t', 't a', 'a r', 'r m', 'm o', 'o s', 's  ', '  n', 'n -', '- g', 'g r', 'r a', 'a m', 'm s', 's  ', '  d', 'd e', 'e  ', '  c', 'c a', 'a r', 'r a', 'a c', 'c t', 't e', 'e r', 'r e', 'e s']
3-gram:  ['S e n', 'e n t', 'n t e', 't e n', 'e n ç', 'n ç a', 'ç a  ', 'a   p', '  p a', 'p a r', 'a r a', 'r a  ', 'a   t', '  t e', 't e s', 'e s t', 's t a', 't a r', 'a r m', 'r m o', 'm o s', 'o s  ', 's   n', '  n -', 'n - g', '- g r', 'g r a', 'r a m', 'a m s', 'm s  ', 's   d', '  d e', 'd e  ', 'e   c', '  c a', 'c a r', 'a r a', 'r a c', 'a c t', 'c t e', 't e r', 'e r e', 'r e s']
4-gram:  ['S e n t', 'e n t e', 'n t e n', 't e n 

> #### **IMPORTANTE**: Mas quais seriam algumas das aplicações dos n-grams?



#### 1) Reconhecimento de entidades / Chunking
Imagine que você tenha um corpus (conjunto de documentos) e visualize os seguintes n-grams:

1.   São Paulo (2-gram)
2.   processamento de linguagem natural (4-gram)
3.   o presidente alega que é inocente (6-gram)

Ao fazermos um levantamento de frequência, possivelmente os exemplos 1 e 2 ocorram com mais frequência no corpus. Agora se aplicarmos um modelo de probabilidade podemos **encontrar entidades** compostas por múltiplas palavras no texto.






#### 2) Predição de palavras
Seguindo a mesma linha anterior, é possível também utilizar os n-grams para fazer **predições de palavras**. Por exemplo, se houver a sentença parcial "*Meu beatle favorito é*", a probabilidade da próxima palavra ser "*John*", "*Paul*", "*George*" ou "*Ringo*" é bem maior que o restante das palavras do vocabulário.

#### 3) Correção ortográfica
A sentença "*beba vino*" poderia ser corrigida para "*beba vinho*" se você soubesse que a palavra "*vinho*" tem uma alta probabilidade de ocorrência após a palavra "*beba*". Além disso, a sobreposição de letras entre "*vino*" e "*vinho*" é alta (i.e., baixa distância de edição).

#### 4) e por fim, nosso assunto atual, *Similaridade léxica*
Vamos extrair 2-grams de caracteres das duas palavras a seguir.

In [None]:
p1 = "parar"
p2 = "parado"

# 4 bi-grams - 2 únicos
print("2-grams: ", extrair_ngrams_char(p1,2))
# 5 bi-grams - 5 únicos
print("2-grams: ", extrair_ngrams_char(p2,2))

2-grams:  ['p a', 'a r', 'r a', 'a r']
2-grams:  ['p a', 'a r', 'r a', 'a d', 'd o']


Para **cálculo de similaridade utilizando n-grams** usamos a fórmula: `S = 2C / A + B`

Onde:
* A é o número de n-grams únicos na primeira palavra
* B é o número de n-grams únicos na segunda palavra
* C é o número de n-grams únicos compartilhados

Portanto, neste exemplo o cálculo ficaria: `S = 2 * 2 / 2 + 5 = 0.57`

In [None]:
# Obtém os N-Grams únicos
def uniqueNgrams(ngrams):

  ngrams = [item for item in ngrams if ngrams.count(item) == 1]

  return ngrams

# Obtém os N-Grams compartilhados
def sharedNgrams(ng1, ng2):

  return list(set(ng1) & set(ng2))

# Calcula a similaridade através dos N-Grams
def nGramsSimilarity(ng1, ng2):

  # Obtém N-Grams únicos para cada palavra
  ung1 = uniqueNgrams(ng1)
  ung2 = uniqueNgrams(ng2)

  #Número de N-Grams únicos da palavra 1
  A = len(ung1)
  #Número de N-Grams únicos da palavra 2
  B = len(ung2)
  #Número de N-Grams compartilhados entre as palavras
  C = len(sharedNgrams(ung1, ung2))

  return (2 * C) / (A + B)

In [None]:
nGramsSimilarity(extrair_ngrams_char(p1,2), extrair_ngrams_char(p2,2))

0.5714285714285714

### **Jaccard distance**

A distância de Jaccard é definida como o *tamanho da interseção dividida pelo tamanho da união de dois conjuntos*. Usaremos tanto para comparar **CARACTERES** quanto **PALAVRAS**.

Sentença 1: Eu gosto de fazer programas usando processamento de linguagem natural

Sentença 2: Eu sei programar técnicas de processamento de linguagem natural

![String-based similarity measures](https://docs.google.com/uc?export=download&id=11Wh0zM0nTqDIMPSjgM3S3LSgT9K1Xlcr)

In [None]:
# Não há necessidade de implementar uma função de jaccard - o NLTK já implementa
import nltk
# Necessário pois utilizaremos o tokenizador
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

#### Jaccard em **CARACTERES**

In [None]:
w1 = set('tráfico')
w2 = set('tráfego')

nltk.jaccard_distance(w1, w2)

0.4444444444444444



> **IMPORTANTE**: Esta medida calcula a **distância** entre os dois termos, portanto quanto maior o valor, mais distantes (diferentes) são os termos!





> **ATENÇÃO**: a função `jaccard_distance()` não aceita strings, você deve transformar sua entrada em `set`



#### Jaccard em **PALAVRAS**

In [None]:
s1 = 'Eu gosto de fazer programas usando processamento de linguagem natural'
s2 = 'Eu sei programar técnicas de processamento de linguagem natural'

# Tokeniza e transforma lista de tokens em set
s1_set = set(nltk.word_tokenize(s1, language='portuguese'))
s2_set = set(nltk.word_tokenize(s2, language='portuguese'))

nltk.jaccard_distance(s1_set, s2_set)

0.5833333333333334

#### **Quiz**

1. Qual etapa de pré-processamento poderíamos aplicar para obter uma pontuação ainda maior de Jaccard no exemplo acima? *Dica*: verifique as palavras que não estão fazendo intersecção, porém tem sentido similar.
2. No caso das sentenças a seguir, qual o valor de Jaccard? O valor refletiu a similaridade entre as sentenças?

**Sentença 1**: Presidente responde a imprensa no Paraná

**Sentença 2**: Bolsonaro fala em Curitiba



In [None]:
import nltk
from nltk.stem import RSLPStemmer
nltk.download('rslp')

# Sentenças originais
s1 = 'Eu gosto de fazer programas usando processamento de linguagem natural'
s2 = 'Eu sei programar técnicas de processamento de linguagem natural'

# Tokenização
s1_tokens = nltk.word_tokenize(s1, language='portuguese')
s2_tokens = nltk.word_tokenize(s2, language='portuguese')

# Stemming
stemmer = RSLPStemmer()
s1_stemmed = [stemmer.stem(token) for token in s1_tokens]
s2_stemmed = [stemmer.stem(token) for token in s2_tokens]

# Convertendo para conjuntos
s1_set = set(s1_stemmed)
s2_set = set(s2_stemmed)

# Calculando a distância Jaccard com stemming
distancia_jaccard_stemmed = nltk.jaccard_distance(s1_set, s2_set)

print("Distância Jaccard original:", nltk.jaccard_distance(set(s1_tokens), set(s2_tokens)))
print("Distância Jaccard com stemming:", distancia_jaccard_stemmed)


#A distância Jaccard com stemming deve ser menor do que a distância Jaccard original, indicando que a aplicação do stemming aumentou a similaridade percebida entre as sentenças. Isso ocorre porque palavras como "programas" e "programar" são reduzidas ao mesmo radical "program", aumentando a intersecção entre os conjuntos e, consequentemente, diminuindo a distância Jaccard.

Distância Jaccard original: 0.5833333333333334
Distância Jaccard com stemming: 0.45454545454545453


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


O gabarito para as atividades práticas propostas estão [aqui](https://colab.research.google.com/drive/1-CtW1Y5GTGc2tm7fxXC5SY8_RB75DviC#scrollTo=SDCy7V1GxQKH).

## Referências e Material complementar

*   [Edit Distance & Jaccard](https://python.gotrained.com/nltk-edit-distance-jaccard-distance/)
*   [N-Grams Tutorial](https://www.kaggle.com/rtatman/tutorial-getting-n-grams)
*   [Introduction to N-Grams: What Are They and Why Do We Need Them?](https://blog.xrds.acm.org/2017/10/introduction-n-grams-need/)
*   [Overview of Text Similarity metrics](https://towardsdatascience.com/overview-of-text-similarity-metrics-3397c4601f50)



Este notebook foi produzido por Prof. [Lucas Oliveira](http://lattes.cnpq.br/3611246009892500).