# Resultados do experimento NLU
Giulia Chimini Stefainski, Leonardo Azzi Martins, Matheus de Moraes Costa

---

**Objetivo:** analisar os dados da avaliação do experimento NLU.

In [None]:
%pip install -r requirements.txt

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

In [None]:
paper_results_dict = {
    'f1-macro': [0.774],
    'precision': [0.734],
    'recall': [0.840],
    'fpr': [0.179]
}

paper_results_df = pd.DataFrame(paper_results_dict)
paper_results_df

In [None]:
bert_full_df = pd.read_csv('./covidbr_bert_metrics_kfold.csv', index_col=0)
bert_full_df['dataset'] = 'covidbr_full'
bert_full_df

In [None]:
bert_nostarturl_df = pd.read_csv('./covidbr_nostarturl_bert_metrics_kfold.csv', index_col=0)
bert_nostarturl_df['dataset'] = 'covidbr_no_starturl'
bert_nostarturl_df

In [None]:
bert_nourl_df = pd.read_csv('./covidbr_nourl_bert_metrics_kfold.csv', index_col=0)
bert_nourl_df['dataset'] = 'covidbr_no_url'
bert_nourl_df

In [None]:
metrics_df = pd.concat([bert_full_df, bert_nostarturl_df, bert_nourl_df])
metrics_df

In [None]:
def letter_annotation(ax, xoffset, yoffset, letter):
 ax.text(xoffset, yoffset, letter, transform=ax.transAxes,
         size=12)

In [None]:
def letter_annotation(ax, xoffset, yoffset, letter):
 ax.text(xoffset, yoffset, letter, transform=ax.transAxes,
                 size=12)
 
ylim = (0.7, 0.9)

fig = plt.figure(figsize=(8, 12))

# Cria 2 subfiguras para a primeira e segunda linha
(row1fig, row2fig) = fig.subfigures(2, 1, height_ratios=[1,1])

# Primeira linha
row1_axs = row1fig.subplots(1, 2)
row1fig.subplots_adjust(wspace=0.3, hspace=0.01, left=0, right=1.2, bottom=.2)

# Segunda linha
row2_axs = row2fig.subplots(1, 2)
row2fig.subplots_adjust(wspace=0.3, hspace=0.01, left=0, right=1.2, bottom=.3)

# F1-Macro
# ============================================================
ax = row1_axs[0]
sns.boxplot(data=metrics_df, x='dataset', y='f1-macro', hue='dataset', palette='Set3', ax=ax)
ax.tick_params(labelrotation=45)
ax.set_ylim(ylim)
ax.set_title('F1-Macro por versão do dataset COVID.BR')
letter_annotation(ax, -.15, 1, 'a)')
sns.despine(offset=5, trim=False, ax=ax)

# # Adiciona um ponto específico do df final_df
# ax.annotate(f"{float(paper_results_df['f1-macro']):.3f}", 
#                         xy=(0, paper_results_df['f1-macro']), 
#                         xytext=(0, paper_results_df['f1-macro']),
#                         arrowprops=dict(facecolor='black', shrink=0.09),
#                         ha='center')

ax.axhline(float(paper_results_df['f1-macro']), linewidth=0.8, color='grey', linestyle='--', label='F1-Macro em Martins et al. (2021)')

# Cria uma legenda para o desempenho no conjunto de teste
handles, labels = ax.get_legend_handles_labels()
handles.append(plt.Line2D([0], [0], marker='v', color='w', markerfacecolor='black', markersize=10))
# labels.append('F1-Score médio em Martins et al. (2021)')
ax.legend(handles, labels, loc='upper right')

# Precisão
# ============================================================
ax = row1_axs[1]
sns.boxplot(data=metrics_df, x='dataset', y='precision', hue='dataset', palette='Set3', ax=ax)
ax.tick_params(labelrotation=45)
ax.set_ylim(ylim)
ax.set_title('Precisão por versão do dataset COVID.BR')
letter_annotation(ax, -.15, 1, 'b)')
sns.despine(offset=5, trim=False, ax=ax)

# # Adiciona um ponto específico do df final_df
# ax.annotate(f"{float(paper_results_df['precision']):.3f}", 
#                         xy=(0, paper_results_df['precision']), 
#                         xytext=(0, paper_results_df['precision']),
#                         arrowprops=dict(facecolor='black', shrink=0.09),
#                         ha='center')

ax.axhline(float(paper_results_df['precision']), linewidth=0.8, color='grey', linestyle='--', label='Precisão em Martins et al. (2021)')

# Cria uma legenda para o desempenho no conjunto de teste
handles, labels = ax.get_legend_handles_labels()
handles.append(plt.Line2D([0], [0], marker='v', color='w', markerfacecolor='black', markersize=10))
# labels.append('Precisão em Martins et al. (2021)')
ax.legend(handles, labels, loc='upper right')

# Recall
# ============================================================
ax = row2_axs[0]
sns.boxplot(data=metrics_df, x='dataset', y='recall', hue='dataset', palette='Set3', ax=ax)
ax.tick_params(labelrotation=45)
ax.set_ylim(ylim)
ax.set_title('Revocação por versão do dataset COVID.BR')
letter_annotation(ax, -.15, 1, 'c)')
sns.despine(offset=5, trim=False, ax=ax)

# # Adiciona um ponto específico do df final_df
# ax.annotate(f"{float(paper_results_df['recall']):.3f}", 
#                         xy=(0, paper_results_df['recall']), 
#                         xytext=(0, paper_results_df['recall']),
#                         arrowprops=dict(facecolor='black', shrink=0.09),
#                         ha='center')

ax.axhline(float(paper_results_df['recall']), linewidth=0.8, color='grey', linestyle='--', label='Revocação em Martins et al. (2021)')

# Cria uma legenda para o desempenho no conjunto de teste
handles, labels = ax.get_legend_handles_labels()
handles.append(plt.Line2D([0], [0], marker='v', color='w', markerfacecolor='black', markersize=10))
# labels.append('Revocação em Martins et al. (2021)')
ax.legend(handles, labels, loc='upper right')

# ============================================================

# Deixa o segundo gráfico da segunda linha vazio
plt.delaxes(row2_axs[1])

plt.show()



In [None]:
ylim = (0.0, 0.3)

fig = plt.figure(figsize=(6, 6))

# # Cria 2 subfiguras para a primeira e segunda linha
# (row1fig, row2fig) = fig.subfigures(2, 1, height_ratios=[1,1])

# # Primeira linha
# row1_axs = row1fig.subplots(1, 2)
# row1fig.subplots_adjust(wspace=0.3, hspace=0.01, left=0, right=1.2, bottom=.2)

# # Segunda linha
# row2_axs = row2fig.subplots(1, 2)
# row2fig.subplots_adjust(wspace=0.3, hspace=0.01, left=0, right=1.2, bottom=.3)

# False Positive Rate (FPR)
# ============================================================
ax = fig.add_subplot()
sns.boxplot(data=metrics_df, x='dataset', y='fpr', hue='dataset', palette='Set3', ax=ax)
ax.tick_params(labelrotation=45)
ax.set_ylim(ylim)
ax.set_title('Taxa de Falso-Positivos (FPR) por dataset')
# letter_annotation(ax, -.15, 1, 'a)')
sns.despine(offset=5, trim=False, ax=ax)

ax.axhline(float(paper_results_df['fpr']), linewidth=0.8, color='grey', linestyle='--', label='FPR em Martins et al. (2021)')
        
# # Cria uma legenda para o desempenho no conjunto de teste
# handles, labels = ax.get_legend_handles_labels()
# handles.append(plt.Line2D([0], [0], marker='v', color='w', markerfacecolor='black', markersize=10))
# labels.append('FPR em Martins et al. (2021)')
ax.legend(loc='upper right')