# Severity Classifier Evaluation

This notebook evaluates the accuracy of the severity classification model and provides examples of model explanations.

In [None]:
import sys
import os

os.chdir("..")

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

from core.classifier import classify_severity


In [3]:
df = pd.read_csv("data/inputs/exemplos_rotulados.csv")  # must contain 'texto' and 'gravidade_esperada'
X_train, X_test, y_train, y_test = train_test_split(df['texto'], df['gravidade_esperada'], test_size=0.2, random_state=42)


In [4]:
y_pred = [classify_severity(text)[0] for text in X_test]  # assume classify_severity returns (label, explanation)


OpenAI API Key exists and begins sk-proj-
Resposta do modelo: Classificação: leve
Justificativa: tontura leve é um sintoma comum e autolimitado.
Classificação: leve
OpenAI API Key exists and begins sk-proj-
Resposta do modelo: Classificação: leve
Justificativa: sintoma leve e autolimitado, não causa impacto significativo na saúde do paciente.
Classificação: leve
OpenAI API Key exists and begins sk-proj-
Resposta do modelo: Classificação: moderada
Justificativa: a visão turva pode indicar um efeito colateral sério que merece atenção médica, embora não represente um risco imediato à vida.
Classificação: moderada
OpenAI API Key exists and begins sk-proj-
Resposta do modelo: Classificação: leve
Justificativa: A vermelhidão na pele é um sintoma leve e comum, geralmente autolimitado.
Classificação: leve


In [None]:
print(y_test)
print(y_pred)

In [5]:
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))


Accuracy: 1.0

Classification Report:
               precision    recall  f1-score   support

        leve       1.00      1.00      1.00         3
    moderada       1.00      1.00      1.00         1

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



In [None]:
cm = confusion_matrix(y_test, y_pred)
labels = sorted(df['gravidade_esperada'].unique())
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=labels, yticklabels=labels)
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Confusion Matrix')
plt.show()


In [None]:
for i in range(5):  # Show 5 examples
    text = X_test.iloc[i]
    pred, explanation = classify_severity(text)
    print(f"Text: {text}")
    print(f"Predicted Severity: {pred}")
    print(f"Explanation: {explanation}")
    print("-" * 80)
