#**Score de semelhança entre frases.**

























---

### **Objetivo**

---

Neste pequeno projeto o objetivo é mostrar a similaridade entre frases. Para isso, usarei um modelo pré-treinado de Processamento de Linguagem Natural (NPL), **BERT**.

---

### **Dados**

---

Dada a seguinte frase original:

*Olhando para a escala na parede, qual valor indicaria melhor a sua dor hoje?*

Temos 3 frases  que iremos comparar com a frase original e retornar um score de semelhança entre comparativa x original.

*   *De acordo com a escala de dor ali na parede, qual valor você acha que mais representa a sua dor?*
*   *De 0 a 10, qual o nível de intensidade da sua dor atualmente?*	
*   *Qual a intensidade da sua dor?*

## **Modelo BERT**

---

Instalação da biblioteca Hugging Face Transformers com a implementação do BERT

In [None]:
# transformers

!pip install transformers


Agora, criamos uma função que recebe duas frases, faz a comparação e retorna o score de similaridade entre elas utilizando o modelo BERT. A função emprega o tokenizer e converte as frases em vetores numéricos aceitos pelo modelo BERT. Depois, as frases são submetidas ao modelo, obtendo uma saída numérica para cada uma. Então, a função calcula o score de similaridade entre as saídas.

In [37]:
# bibliotecas necessárias para utilizar o modelo BERT

from transformers import AutoTokenizer, AutoModelForPreTraining, AutoModel
import torch

# modelo e o tokenizer pré-treinado do BERT para português

model = AutoModelForPreTraining.from_pretrained('neuralmind/bert-base-portuguese-cased')
tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased')

# Função score

def score_similaridade(frase1, frase2):
    # Token das frases
    token_frase1 = tokenizer(frase1, return_tensors="pt")
    token_frase2 = tokenizer(frase2, return_tensors="pt")
    
    # Passando pelo BERT
    with torch.no_grad():
        saida1 = model(**token_frase1)[1].numpy()
        saida2 = model(**token_frase2)[1].numpy()
    
    # Score de similaridade entre as duas saídas
    score = (saida1 @ saida2.T).item()
    return score

---
### **Comparação das frases**
---
Agora, é possível comparar as frases com a original.

In [38]:
# Frase original
original = "Olhando para a escala na parede, qual valor indicaria melhor a sua dor hoje?"

# Frases comparativas
comparativa1 = "De acordo com a escala de dor ali na parede, qual valor você acha que mais representa a sua dor?"
comparativa2 = "De 0 a 10, qual o nível de intensidade da sua dor atualmente?"
comparativa3 = "Qual a intensidade da sua dor?"

# Calculando os scores de similaridade
score1 = score_similaridade(original, comparativa1)
score2 = score_similaridade(original, comparativa2)
score3 = score_similaridade(original, comparativa3)

print("Score de similaridade da frase 1:", score1)
print("Score de similaridade da frase 2:", score2)
print("Score de similaridade da frase 3:", score3)

Score de similaridade da frase 1: 0.4671139717102051
Score de similaridade da frase 2: 0.28231847286224365
Score de similaridade da frase 3: 0.34338945150375366


---
## **Resultados**
---
Como podemos ver, o modelo nos dá três saídas, uma para cada comparação feita. 

Veja como cada uma se saiu em relaçâo a frase "Olhando para a escala na parede, qual valor indicaria melhor a sua dor hoje?"

*   "De acordo com a escala de dor ali na parede, qual valor você acha que mais representa a sua dor?"
    
    - Obteve um score de 0.467113, ou seja, 46,71% de similaridade.


*   "De 0 a 10, qual o nível de intensidade da sua dor atualmente?"
    
    - Obteve um score de 0.282318, ou seja, 28,23% de similaridade.


*   "Qual a intensidade da sua dor?"

    - Obteve um score de 0.343389, ou seja, 34,33% de similaridade.

**Com isso, a conclusão é que a frase 1 é a que mais se assemelha a frase original.**

