In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import os

In [2]:
def save_string_as_txt(text,directory,file):
    
    if not os.path.exists(directory):
        os.makedirs(directory)
        
    path = os.path.join(directory,file)

    text_file = open(path, "w+")
    text_file.write(text)
    text_file.close()

In [3]:
def dataframe_to_string(path,caption = '',label = ''):
    df = pd.read_parquet(path)
    
    ## trocamos o nome da coluna conjunto
    df = df.rename(columns = {"text_set":"Conjunto",'quantidade_textos':'quantidade de textos'})
    ## arredondamos para 3 casas
    df = df.round(3)
    
    ## preparamos o formato para XXXX ao inves de r ou l 
    column_format = len(df.columns) * 'X'
    column_format = column_format
    
    ## geramos o latex, sem indice, com legenda, com label , posicionando com o H,
    ## sem caracteres de escape e com o formato de coluna definido anteriormente
    text = str(df.to_latex(index = False,caption = caption,label = label,position = 'H',escape = False,column_format = column_format))
    ## trocamos o tabular pelo tabular x
    text = text.replace('tabular','tabularx')
    text = text.replace('begin{tabularx}','begin{tabularx}\linewidth')
    text = text.replace('_',' ')
    
    return text

In [4]:
tipo_texto = 'respostas curtas'
text_type = 'short_answer'
opcao_doc_to_vec = '32_dimensoes'
opcao_lsi = '10_topicos'

In [5]:
RESULT_DATASETS = os.path.join(text_type,'predictions','experiment_results')
OUTPUT_FOLDER = os.path.join('tabelas_latex','results',text_type)

In [6]:
input_file = os.path.join(RESULT_DATASETS,'doc_to_vec.parquet')
output_file = f'resultados_doc_to_vec_{text_type}'
caption = f'Análise do desempenho do pipeline com diferentes dimensionalidades do doc-to-vec em {tipo_texto}'

df_doc_2_vec = pd.read_parquet(input_file)
texto = dataframe_to_string(path = input_file,caption = caption,label = output_file)
 
save_string_as_txt(texto,OUTPUT_FOLDER,output_file + '.tex')

  text = str(df.to_latex(index = False,caption = caption,label = label,position = 'H',escape = False,column_format = column_format))


In [7]:
input_file = os.path.join(RESULT_DATASETS,'lsi_topics_results.parquet')
output_file = f'resultados_lsi_{text_type}'
caption = f'Análise dos resultados do pipeline usando LSI com diferentes dimensionalidades em {tipo_texto}'

df_lsi = pd.read_parquet(input_file)
texto = dataframe_to_string(path = input_file,caption = caption,label = output_file)
 
save_string_as_txt(texto,OUTPUT_FOLDER,output_file + '.tex')

  text = str(df.to_latex(index = False,caption = caption,label = label,position = 'H',escape = False,column_format = column_format))


In [8]:
input_file = os.path.join(RESULT_DATASETS,'universal_sentence_encoder_results.parquet')
df_use = pd.read_parquet(input_file) 
df_ensemble = pd.read_parquet('kappa_cohen_ensemble_short_answer.parquet').rename(columns = {'Conjunto':'text_set','kappa de cohen':'Ensemble'})
 

 
df = pd.merge(df_doc_2_vec,df_lsi, on =['text_set'])
df = pd.merge(df,df_use, on = 'text_set')
df = pd.merge(df,df_ensemble, on = 'text_set')
novo_df = df[['text_set',opcao_doc_to_vec,opcao_lsi,'USE','Ensemble']]

novo_df = novo_df.rename({opcao_doc_to_vec:'doc 2 vec',opcao_lsi:'LSI'})
novo_df.to_parquet(os.path.join(RESULT_DATASETS,'comparative_vision.parquet'))

In [9]:
input_file = os.path.join(RESULT_DATASETS,'comparative_vision.parquet')
output_file = f'visao_comparativa_{text_type}'
caption = f'comparação dos diferentes métodos em {tipo_texto}'

compara = pd.read_parquet(input_file)
texto = dataframe_to_string(path = input_file,caption = caption,label = output_file)

save_string_as_txt(texto,OUTPUT_FOLDER,output_file + '.tex')

  text = str(df.to_latex(index = False,caption = caption,label = label,position = 'H',escape = False,column_format = column_format))
