# Inicialização

## Carregando bibliotecas e funções de auxílio

In [65]:
from sklearn.metrics import f1_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd
import copy
import xml.etree.ElementTree as et

def parse_xml_to_df(xml_root):
    # Cria um dataframe vazio em que as linhas serão concatenadas.
    df = pd.DataFrame(columns=['similarity', 't', 'h'])
    # Para cada par na root.
    for pair in xml_root:
        # Recupera o valor de t.
        t = pair[0].text
        # Recupera o valor de h.
        h = pair[1].text
        # Recupera o valor da variável target.
        is_entailment = pair.attrib['entailment'] == 'Entailment'
        # Recupera o valor de similaridade atribuído.
        similarity = float(pair.attrib['similarity'])
        # Constroi a nova linha.
        new_line = pd.DataFrame([{'t': t, 'h': h, 'similarity': similarity, 'is_entailment': is_entailment}])
        # Adiciona ao dataframe.
        df = pd.concat([df, new_line], ignore_index=True)
    return df

def get_classification_results(y_train, y_train_pred, y_dev, y_dev_pred, y_test, y_test_pred):
    # Cria um dataframe com todos o resultado de todas as métricas.
    return pd.DataFrame({
        'type':['train', 'dev', 'test'],
        
        'f1': [f1_score(y_train, y_train_pred), 
               f1_score(y_dev, y_dev_pred), 
               f1_score(y_test, y_test_pred)],

        'precision': [precision_score(y_train, y_train_pred), 
                      precision_score(y_dev, y_dev_pred), 
                      precision_score(y_test, y_test_pred)],

        'recall': [recall_score(y_train, y_train_pred), 
                      recall_score(y_dev, y_dev_pred), 
                      recall_score(y_test, y_test_pred)],

        'accuracy': [accuracy_score(y_train, y_train_pred), 
                     accuracy_score(y_dev, y_dev_pred), 
                     accuracy_score(y_test, y_test_pred)],
    })

## Carregando conjuntos de dados

In [4]:
# Recupera o arquivo de entrada de treinamento.
train_xml_root = et.parse('../data/assin2-train.xml').getroot()
# Cria o dataframe de treinamento.
df_train = parse_xml_to_df(train_xml_root)

# Recupera o arquivo de entrada de validação.
dev_xml_root = et.parse('../data/assin2-dev.xml').getroot()
# Cria o dataframe de validação.
df_dev = parse_xml_to_df(dev_xml_root)

# Recupera o arquivo de entrada de validação.
test_xml_root = et.parse('../data/assin2-test.xml').getroot()
df_test = parse_xml_to_df(test_xml_root)



In [9]:
print('Shape de treinamento:', df_train.shape)
print('Shape de validação:', df_dev.shape)
print('Shape de teste:', df_test.shape)

Shape de treinamento: (6500, 4)
Shape de validação: (500, 4)
Shape de teste: (2448, 4)


## Limpando os dados

In [5]:
import unidecode 

def clean_string(x):
    return unidecode.unidecode(x.lower())

# Removendo acentos para normalizar as palavras no conjunto de treinameto.
df_train['t'] = df_train['t'].apply(clean_string)
df_train['h'] = df_train['h'].apply(clean_string)

# Removendo acentos para normalizar as palavras no conjunto de validação.
df_dev['t'] = df_dev['t'].apply(clean_string)
df_dev['h'] = df_dev['h'].apply(clean_string)

# Removendo acentos para normalizar as palavras no conjunto de teste.
df_test['t'] = df_test['t'].apply(clean_string)
df_test['h'] = df_test['h'].apply(clean_string)




# Aplicando Abordagem Simbólica

In [69]:
# Abordagem baseada em 3 regras:
# Para classificar o par de sentenças como A acarreta B: 
#   1 - o tamanho da sentença B deve ser menor que o da sentença A
#   2 - A taxa de similaridade entre as sentenças deve ser maior que 50%
#   3 - A palavra "não" deve estar ausente ou presente em ambas as frases, ou presente somente na sentença B
def symbolic_approach(df_data):
    predictions = []

    for index in df_data.index:
        # Transformando frases em listas de palavras   
        sentence_A = df_data['t'][index].split()
        sentence_B = df_data['h'][index].split()

        # Criando lista com palavras em comum entre as frases
        aux = copy.deepcopy(sentence_B)
        common_words = []
        for word in sentence_A:
            if word in aux:
                common_words.append(word)
                aux.remove(word)

        # Aplicando regras
        if len(sentence_B) <= len(sentence_A) and len(common_words)/len(sentence_B) > 0.5:
            prediction = True
        else:
            prediction = False
        if "nao" in sentence_A and "nao" not in sentence_B:
            prediction = False

        # Debug print
        #print(sentence_A, "\n", sentence_B, "\n", common_words, "\n", len(common_words)/len(sentence_B), prediction, "\n")
        
        # Gerando lista de previsões
        predictions.append(prediction) 

    return predictions

# Aplicando as regras para gerar predições
y_train_pred = symbolic_approach(df_train)
y_dev_pred = symbolic_approach(df_dev)
y_test_pred = symbolic_approach(df_test)



['uma', 'crianca', 'risonha', 'esta', 'segurando', 'uma', 'pistola', 'de', 'agua', 'e', 'sendo', 'espirrada', 'com', 'agua'] 
 ['uma', 'crianca', 'esta', 'segurando', 'uma', 'pistola', 'de', 'agua'] 
 ['uma', 'crianca', 'esta', 'segurando', 'uma', 'pistola', 'de', 'agua'] 
 1.0 True 

['os', 'homens', 'estao', 'cuidadosamente', 'colocando', 'as', 'malas', 'no', 'porta-malas', 'de', 'um', 'carro'] 
 ['os', 'homens', 'estao', 'colocando', 'bagagens', 'dentro', 'do', 'porta-malas', 'de', 'um', 'carro'] 
 ['os', 'homens', 'estao', 'colocando', 'porta-malas', 'de', 'um', 'carro'] 
 0.7272727272727273 True 

['uma', 'pessoa', 'tem', 'cabelo', 'loiro', 'e', 'esvoacante', 'e', 'esta', 'tocando', 'violao'] 
 ['um', 'guitarrista', 'tem', 'cabelo', 'loiro', 'e', 'esvoacante'] 
 ['tem', 'cabelo', 'loiro', 'e', 'esvoacante'] 
 0.7142857142857143 True 

['batatas', 'estao', 'sendo', 'fatiadas', 'por', 'um', 'homem'] 
 ['o', 'homem', 'esta', 'fatiando', 'a', 'batata'] 
 ['homem'] 
 0.1666666666666666

# Calculando resultados

In [67]:
# Transforma os dados da anotação no formato de vetor binário 
y_train = df_train['is_entailment'].astype(int)
y_dev = df_dev['is_entailment'].astype(int)
y_test = df_test['is_entailment'].astype(int)

# Transforma os dados da predição no formato de vetor binário 
y_train_pred = np.array(y_train_pred).astype(int)
y_dev_pred = np.array(y_dev_pred).astype(int)
y_test_pred = np.array(y_test_pred).astype(int)

# Calcula as métricas de performance dos resultados do modelo.
df_symbolic_approach_results = get_classification_results(
    y_train, 
    y_train_pred, 
    y_dev, 
    y_dev_pred, 
    y_test, 
    y_test_pred)
display(df_symbolic_approach_results)

Unnamed: 0,type,f1,precision,recall,accuracy
0,train,0.698807,0.734079,0.666769,0.712615
1,dev,0.713693,0.741379,0.688,0.724
2,test,0.688765,0.727934,0.653595,0.704657
