# Análise qualitativa dos erros

Este notebook tem como objetivo realizar uma análise qualitativa dos erros
cometidos pelos modelos de classificação automática, comparando o baseline
(TF-IDF + Regressão Logística) e o modelo baseado em embeddings contextualizados
(BERTimbau).

A análise busca identificar padrões linguísticos associados aos acertos e erros
dos modelos, bem como discutir os limites da modelagem automática da
informatividade.


In [31]:
import pandas as pd
import numpy as np
import torch


## Carregamento do corpus

Utilizamos o corpus final previamente construído, contendo as respostas, suas
classificações finais e a origem da anotação.


In [23]:
df = pd.read_csv("corpus_modelagem.csv")

df.head()


Unnamed: 0,id,pergunta,resposta,tipo_resposta,n_tokens,n_chars
0,1,O João e a Maria foram à festa?,A Maria foi.,subinformativa,3,12
1,2,O João e a Maria foram à festa?,Ninguém foi.,sobreinformativa,2,12
2,4,O Pedro e a Ana chegaram ao cinema?,A Ana chegou.,subinformativa,3,13
3,5,O Pedro e a Ana chegaram ao cinema?,Todos chegaram.,sobreinformativa,2,15
4,6,O Pedro e a Ana chegaram ao cinema?,Não chegaram.,completa,2,13


## Definição do mapeamento de rótulos

Os rótulos textuais são convertidos em identificadores numéricos para garantir
consistência com os modelos treinados anteriormente.


In [25]:
labels = sorted(df["tipo_resposta"].unique())

label2id = {label: i for i, label in enumerate(labels)}
id2label = {i: label for label, i in label2id.items()}

label2id, id2label


({'completa': 0, 'sobreinformativa': 1, 'subinformativa': 2},
 {0: 'completa', 1: 'sobreinformativa', 2: 'subinformativa'})

## Seleção do subconjunto de modelagem

Para garantir comparabilidade com os modelos treinados anteriormente,
selecionamos apenas as instâncias pertencentes ao conjunto de teste.


In [26]:
from sklearn.model_selection import train_test_split

df_model = df[df["tipo_resposta"] != "indefinida"].copy()

train_df, test_df = train_test_split(
    df_model,
    test_size=0.2,
    random_state=42,
    stratify=df_model["tipo_resposta"]
)

df_test = test_df[["resposta", "tipo_resposta"]].copy()
df_test.rename(columns={"tipo_resposta": "classe_real"}, inplace=True)

df_test.head()



Unnamed: 0,resposta,classe_real
62,Não leu.,completa
173,Todo mundo chegou.,sobreinformativa
209,Não terminou.,completa
83,"Sim, ele chegou.",completa
76,A Maria concluiu.,subinformativa


## Predições do modelo baseline



In [27]:
import joblib

baseline_model = joblib.load("baseline_tfidf_lr.joblib")
vectorizer = joblib.load("tfidf_vectorizer.joblib")


In [28]:
df_test["pred_baseline"] = baseline_model.predict(
    vectorizer.transform(df_test["resposta"])
)


## Predições do modelo com embeddings (BERTimbau)


In [33]:
from datasets import Dataset

bert_test = Dataset.from_pandas(df_test[["resposta"]])

def tokenize(batch):
    return tokenizer(
        batch["resposta"],
        truncation=True,
        padding="max_length",
        max_length=128
    )

bert_test = bert_test.map(tokenize, batched=True)
bert_test.set_format(
    type="torch",
    columns=["input_ids", "attention_mask"]
)

from transformers import Trainer

trainer_bert = Trainer(model=model_bert)

bert_preds = trainer_bert.predict(bert_test)

pred_bert = np.argmax(bert_preds.predictions, axis=1)

df_test["pred_bert"] = [id2label[i] for i in pred_bert]



Map:   0%|          | 0/48 [00:00<?, ? examples/s]

  super().__init__(loader)


## Avaliação de acertos e erros


In [34]:
df_test["baseline_acerta"] = (
    df_test["pred_baseline"] == df_test["classe_real"]
)

df_test["bert_acerta"] = (
    df_test["pred_bert"] == df_test["classe_real"]
)

df_test[["baseline_acerta", "bert_acerta"]].value_counts()


baseline_acerta  bert_acerta
True             False          29
                 True           17
False            True            1
                 False           1
Name: count, dtype: int64

## Casos sensíveis a pistas lexicais


In [35]:
casos_lexicais = df_test[
    (df_test["baseline_acerta"]) &
    (~df_test["bert_acerta"])
]

casos_lexicais[["resposta", "classe_real", "pred_baseline", "pred_bert"]].head()


Unnamed: 0,resposta,classe_real,pred_baseline,pred_bert
62,Não leu.,completa,completa,sobreinformativa
173,Todo mundo chegou.,sobreinformativa,sobreinformativa,completa
209,Não terminou.,completa,completa,sobreinformativa
83,"Sim, ele chegou.",completa,completa,sobreinformativa
76,A Maria concluiu.,subinformativa,subinformativa,sobreinformativa


## Discussão linguística

Os exemplos acima indicam que pistas lexicais e estruturais, como extensão da
resposta e uso de conectivos discursivos, são suficientes para a correta
classificação em muitos casos, favorecendo o desempenho do modelo baseline.


## Casos ambíguos


In [36]:
casos_ambiguos = df_test[
    (~df_test["baseline_acerta"]) &
    (~df_test["bert_acerta"])
]

casos_ambiguos[["resposta", "classe_real", "pred_baseline", "pred_bert"]].head()


Unnamed: 0,resposta,classe_real,pred_baseline,pred_bert
122,Comprou.,completa,sobreinformativa,sobreinformativa


## Discussão final 

Esses casos refletem limites da anotação atual e apontam para a necessidade de
anotações inferenciais mais finas, como implicaturas conversacionais, para
capturar adequadamente fenômenos pragmáticos.


## Trabalhos futuros

Pretende-se, em etapas futuras, incorporar anotações inferenciais ao corpus,
avaliando se modelos baseados em embeddings apresentam vantagens quando
fenômenos pragmáticos mais complexos são explicitamente representados.
