In [None]:
from sklearn.model_selection import train_test_split
import pandas as pd
from cleaner import Cleaner, Corretor
from tqdm.auto import tqdm
import pickle

### Objetos

In [None]:
dados = pd.read_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Objetos/df_tipos_objetos.csv')
dados

In [None]:
from transformers import AutoTokenizer

In [None]:
tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased')

In [None]:
dados['tamanho'] = dados['text'].apply(lambda x: len(tokenizer.tokenize(x)))
dados['tamanho'].describe()

In [None]:
dados.reset_index(drop=True, inplace=True)
dados.drop(columns=['tamanho'], inplace=True)
dados

In [None]:
treino, teste = train_test_split(dados, test_size=0.3, random_state=42, stratify=dados['label'], shuffle=True)
teste, validacao = train_test_split(teste, test_size=0.5, random_state=42, stratify=teste['label'], shuffle=True)

In [None]:
treino

In [None]:
teste

In [None]:
validacao

In [None]:
treino.reset_index(drop=True, inplace=True)
teste.reset_index(drop=True, inplace=True)
validacao.reset_index(drop=True, inplace=True)

In [None]:
treino.to_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Objetos/df_tipos_objetos_treino.csv', index=False)
teste.to_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Objetos/df_tipos_objetos_teste.csv', index=False)
validacao.to_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Objetos/df_tipos_objetos_validacao.csv', index=False)

### Indicios

In [None]:
dados = pd.read_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Indicios/gold_completo_raw.csv')
dados

In [None]:
columns = ['certidao_protesto', 'certificado_boas_praticas', 'comprovante_localizacao', 'idoneidade_financeira', 'integralizado', 'licenca_ambiental', 'n_min_max_limitacao_atestados']
print(columns)

In [None]:
for coluna in columns:
    dados[coluna] = 0

In [None]:
dados

In [None]:
for indice in dados.index:
    for label in eval(dados['annotation'][indice]):
        if label in columns:
            dados.at[indice, label] = 1

In [None]:
dados

In [None]:
dados.drop(columns=['annotation'], inplace=True)
dados

In [None]:
def executaLimpeza(dataframe: pd.DataFrame, column: str, cased: bool, accents: bool) -> pd.DataFrame:
    """
    Executa a limpeza do DataFrame usando as classes Cleaner e Corretor.
    """
    sentencesDrop = []
    for indice in tqdm(dataframe.index, desc="Executando a Limpeza", colour='yellow'):
        texto = dataframe[column][indice]
        if isinstance(texto, str):
            texto = Cleaner().clear(texto)
            texto = Corretor(cased, accents).corrige_termos(texto)
            dataframe.at[indice, column] = texto
        else:
            sentencesDrop.append(indice)
    dataframe = dataframe.drop(sentencesDrop)
    return dataframe

In [None]:
dados = executaLimpeza(dados, 'text', True, True)

In [None]:
dados.dropna(subset=['text'], inplace=True)
dados.drop_duplicates(subset=['text'], inplace=True)
dados.reset_index(drop=True, inplace=True)
dados

In [None]:
from skmultilearn.model_selection import iterative_train_test_split

In [None]:
X_train, y_train, X_test, y_test = iterative_train_test_split(dados.values, dados[dados.columns[1:]].values, test_size = 0.25)
X_test, y_test, X_val, y_val = iterative_train_test_split(X_test, y_test, test_size = 0.5)

In [None]:
treino = pd.DataFrame(X_train, columns=dados.columns)
teste = pd.DataFrame(X_test, columns=dados.columns)
validacao = pd.DataFrame(X_val, columns=dados.columns)

In [None]:
treino

In [None]:
teste

In [None]:
validacao

In [None]:
treino.to_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Indicios/dataset_bid_notices_gold_treino.csv', index=False)
teste.to_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Indicios/dataset_bid_notices_gold_teste.csv', index=False)
validacao.to_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/Indicios/dataset_bid_notices_gold_validacao.csv', index=False)

### Ner Indicios

In [None]:
treino = pickle.load(open('/var/projetos/Jupyterhubstorage/victor.silva/HelBERT/Datasets/Indicios/bid_notices_weak/dataset_bid_notices_weak_hab_clean_treino_chunk_more.pkl', 'rb'))
teste = pickle.load(open('/var/projetos/Jupyterhubstorage/victor.silva/HelBERT/Datasets/Indicios/bid_notices_weak/dataset_bid_notices_weak_hab_clean_teste_chunk_more.pkl', 'rb'))
validacao = pickle.load(open('/var/projetos/Jupyterhubstorage/victor.silva/HelBERT/Datasets/Indicios/bid_notices_weak/dataset_bid_notices_weak_hab_clean_validacao_chunk_more.pkl', 'rb'))

### Dataset Perplexidade

In [None]:
dados = pd.read_csv('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/PreTreinamento/dfPreTreinamento-base-uncased.csv')
dados

In [None]:
teste = dados['text'].tolist()[:100000]
treinamento = dados['text'].tolist()[100000:]

In [None]:
with open('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/PreTreinamento/teste.txt', 'w') as file:
    for texto in teste:
        file.write(texto + '\n')

In [None]:
with open('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/PreTreinamento/HelBERT-base-uncased/treino.txt', 'w') as file:
    for texto in treinamento:
        file.write(texto + '\n')

### MLM Sentences

In [None]:
!pip install unidecode

In [None]:
import re, json
from unidecode import unidecode

In [None]:
palavrasIRb = json.load(open('/var/projetos/Jupyterhubstorage/victor.silva/HelBERTModel/Datasets/MaskedLanguageModeling/tesauroIRB3Palavras.json'))
palavrasIRb

In [None]:
lista_palavras = []
for palavra in palavrasIRb:
    lista_palavras.append(palavra['Palavra'])
    lista_palavras.append(palavra['Relacionada'])
    

In [None]:
lista_palavras = list(set(lista_palavras))
lista_palavras