<a href="https://colab.research.google.com/github/jsansao/teic-20231/blob/main/TEIC_Licao31_bleu_bertscore.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ü§ñ Comparando M√©tricas: BLEU vs. BERTScore

Este notebook demonstra a diferen√ßa fundamental entre a m√©trica **BLEU** (baseada em *n-grams*) e a m√©trica **BERTScore** (baseada em *sem√¢ntica*).

Vamos avaliar 4 senten√ßas "candidatas" contra 1 senten√ßa de "refer√™ncia" para ver como cada m√©trica reage.

### O Cen√°rio
* **BLEU:** Esperamos que pontue bem apenas quando as palavras *exatas* s√£o usadas.
* **BERTScore:** Esperamos que pontue bem quando o *significado* √© semelhante, mesmo que as palavras sejam diferentes.

In [6]:
# @title 1. Instala√ß√£o das Bibliotecas
# Vamos instalar a biblioteca bert-score e a nltk (para o BLEU)

!pip install bert-score
!pip install nltk



In [7]:
# @title 2. Importa√ß√µes
import nltk
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from bert_score import score
import pandas as pd

# Usaremos uma fun√ß√£o de suaviza√ß√£o para o BLEU,
# pois ele n√£o funciona bem em senten√ßas curtas sem isso.
chen_smoothing = SmoothingFunction().method4

## 3. Defini√ß√£o das Senten√ßas de Teste

Este √© o nosso caso de teste. Temos uma refer√™ncia (a tradu√ß√£o "correta") e quatro candidatos com caracter√≠sticas diferentes:

1.  **Candidato 1 (Correspond√™ncia Exata):** Id√™ntico √† refer√™ncia.
2.  **Candidato 2 (Par√°frase/Sem√¢ntico):** Significado id√™ntico, mas com sin√¥nimos.
3.  **Candidato 3 (Sobreposi√ß√£o, Sentido Oposto):** Usa as mesmas palavras, mas o significado √© o oposto.
4.  **Candidato 4 (Diferente):** Uma senten√ßa completamente aleat√≥ria.

In [8]:
# @title 4. Nossas senten√ßas (em Portugu√™s)

# A senten√ßa que consideramos "correta"
referencia = "O gato r√°pido pulou sobre o cachorro pregui√ßoso."

# Lista de senten√ßas geradas para comparar
candidatos = [
    # 1. Correspond√™ncia Exata
    "O gato r√°pido pulou sobre o cachorro pregui√ßoso.",

    # 2. Par√°frase (Sin√¥nimos, mesmo significado)
    "O felino √°gil saltou por cima do c√£o sonolento.",

    # 3. Sobreposi√ß√£o de palavras (Significado oposto)
    "O cachorro pregui√ßoso pulou sobre o gato r√°pido.",

    # 4. Totalmente diferente
    "O c√©u est√° azul hoje."
]

# Vamos tokenizar (dividir as palavras) para o BLEU
ref_tokenized = [referencia.split()] # BLEU espera uma lista de refer√™ncias
cands_tokenized = [c.split() for c in candidatos]

# BERTScore usa as senten√ßas brutas (strings)
# Precisamos de uma lista de refer√™ncias com o mesmo tamanho da lista de candidatos
refs_bert = [referencia] * len(candidatos)

In [9]:
# @title 5. C√°lculo das M√©tricas

# ----- 5.1. Calcular o BLEU -----
# BLEU √© uma m√©trica a n√≠vel de corpus, mas podemos us√°-la
# a n√≠vel de senten√ßa com suaviza√ß√£o.
scores_bleu = []
for cand in cands_tokenized:
    score_b = sentence_bleu(ref_tokenized, cand, smoothing_function=chen_smoothing)
    scores_bleu.append(score_b)


# ----- 5.2. Calcular o BERTScore -----
# Usaremos um modelo BERT treinado para o portugu√™s para melhores resultados
# lang="pt" automaticamente usa "neuralmind/bert-base-portuguese-cased"
P, R, F1_bert = score(candidatos, refs_bert, lang="pt", verbose=False)

# Vamos extrair apenas o F1-score (a m√©trica principal)
scores_bert = F1_bert.tolist()

## 6. An√°lise dos Resultados

Vamos colocar tudo em uma tabela para comparar lado a lado.

* **Score_BLEU:** Varia de 0.0 a 1.0. Foca na sobreposi√ß√£o de palavras.
* **Score_BERT (F1):** Varia (aprox.) de 0.0 a 1.0. Foca na similaridade de significado.

In [10]:
# @title 7. Tabela Comparativa

data = {
    "Candidato": [
        "1. Exato",
        "2. Par√°frase (Sin√¥nimos)",
        "3. Oposto (Sobreposi√ß√£o)",
        "4. Diferente"
    ],
    "Senten√ßa": candidatos,
    "Score_BLEU": scores_bleu,
    "Score_BERT (F1)": scores_bert
}

df = pd.DataFrame(data)

# Vamos formatar os n√∫meros para melhor leitura
df["Score_BLEU"] = df["Score_BLEU"].round(4)
df["Score_BERT (F1)"] = df["Score_BERT (F1)"].round(4)

print("Refer√™ncia:", referencia)
print("-" * 50)
print(df.to_markdown(index=False))

Refer√™ncia: O gato r√°pido pulou sobre o cachorro pregui√ßoso.
--------------------------------------------------
| Candidato                | Senten√ßa                                         |   Score_BLEU |   Score_BERT (F1) |
|:-------------------------|:-------------------------------------------------|-------------:|------------------:|
| 1. Exato                 | O gato r√°pido pulou sobre o cachorro pregui√ßoso. |       1      |            1      |
| 2. Par√°frase (Sin√¥nimos) | O felino √°gil saltou por cima do c√£o sonolento.  |       0.0257 |            0.836  |
| 3. Oposto (Sobreposi√ß√£o) | O cachorro pregui√ßoso pulou sobre o gato r√°pido. |       0.1963 |            0.9605 |
| 4. Diferente             | O c√©u est√° azul hoje.                            |       0.0251 |            0.6774 |


## 8. Conclus√£o da An√°lise

Veja o que a tabela nos mostra:

1.  **Candidato 1 (Exato):**
    * **BLEU:** 1.00 (Perfeito).
    * **BERTScore:** 1.00 (Perfeito).
    * *Ambas as m√©tricas concordam que uma correspond√™ncia exata √© perfeita.*

2.  **Candidato 2 (Par√°frase/Sin√¥nimos):**
    * **BLEU:** ~0.0 (Muito baixo). N√£o h√° quase nenhuma palavra em comum (apenas "O" e "do").
    * **BERTScore:** ~0.84 (Muito alto). O BERT entende que "gato" √© sin√¥nimo de "felino", "r√°pido" de "√°gil", "pulou" de "saltou", etc.
    * *Esta √© a maior falha do BLEU e a maior for√ßa do BERTScore.*

3.  **Candidato 3 (Oposto):**
    * **BLEU:** ~0.20 (M√©dio-Alto). O BLEU v√™ que *todas* as palavras corretas est√£o presentes, ele s√≥ n√£o entende a ordem e, portanto, a mudan√ßa de significado (quem pulou em quem).
    * **BERTScore:** ~0.96 (Alto). O BERTScore tamb√©m √© "enganado" pela alta sobreposi√ß√£o de palavras, mas geralmente d√° uma pontua√ß√£o ligeiramente menor que uma par√°frase correta, pois o contexto dos embeddings muda.
    * *(Nota: A robustez do BERTScore a mudan√ßas de ordem pode variar com o modelo).*

4.  **Candidato 4 (Diferente):**
    * **BLEU:** ~0.0 (Muito baixo).
    * **BERTScore:** ~0.67 (Baixo).
    * *Ambas as m√©tricas concordam que esta √© uma p√©ssima correspond√™ncia, mas o BERTScore raramente d√° 0.0, pois sempre h√° alguma similaridade sem√¢ntica residual (palavras como "O", "est√°", etc.).
  