In [9]:
from transformers import AutoTokenizer, RobertaForQuestionAnswering, TrainingArguments, Trainer
from datasets import load_dataset
from sklearn.model_selection import train_test_split
from datasets import Dataset
import torch
import json
import time

In [10]:
tokenizer = AutoTokenizer.from_pretrained("deepset/roberta-base-squad2")
model = RobertaForQuestionAnswering.from_pretrained("deepset/roberta-base-squad2")

In [11]:
def print_number_of_trainable_model_parameters(model):
    trainable_model_params = 0
    all_model_params = 0
    for _, param in model.named_parameters():
        all_model_params += param.numel()
        if param.requires_grad:
            trainable_model_params += param.numel()
    return f"trainable model parameters: {trainable_model_params}\nall model parameters: {all_model_params}\npercentage of trainable model parameters: {100 * trainable_model_params / all_model_params:.2f}%"

print(print_number_of_trainable_model_parameters(model))

trainable model parameters: 124056578
all model parameters: 124056578
percentage of trainable model parameters: 100.00%


In [70]:
with open("Dados/dataset_coleta_SEDS.json", 'r', encoding = 'utf-8') as file:
    data = json.load(file)

len(data)
data['dados']['question']


TypeError: list indices must be integers or slices, not str

In [100]:
for item in data['dados']:
    context = item['context']
    question = item['question']
    answers = item['answers']
    
    # Iterar sobre as respostas para extrair o text e answer_start
    for answer in answers:
        text = answer['text']
        answer_start = answer['answer_start']
        
        # Adicionar os dados extraídos à lista data_list
    data_list.append({'context': context, 'question': question, 'answer': {'text': text, 'answer_start': answer_start}})

12


In [None]:
for programa, lista_perguntas_respostas in data.items():
    # Criar uma entrada para o programa no dicionário
    dataset_por_programa[programa] = []
    # Percorrer cada item (dicionário) etiquetar prompts e completions
    for item in lista_perguntas_respostas:
        dataset_por_programa[programa].append({'prompt': f"{programa} : {item['prompt']}", 'completion': item['completion']})


In [58]:
dataset = load_dataset("json", data_files="Dados/dataset_coleta_SEDS.json")

KeyError: 'answers'

In [95]:
train_data, test_data = train_test_split(data_list, test_size = 0.25, random_state = 42)
len(test_data)

51

In [152]:
from transformers import RobertaTokenizer

# Carregar o tokenizer do modelo RoBERTa pré-treinado
tokenizer = RobertaTokenizer.from_pretrained("roberta-base")

# Função para pré-processar os dados
def preprocess_data(data):
    processed_data = []
    max_question_len = 0
    max_context_len = 0
    
    for item in data:
        # Tokenizar a pergunta e o contexto
        question_tokens = tokenizer(item["question"], return_tensors="pt", padding="max_length", truncation=True, max_length=64)
        context_tokens = tokenizer(item["context"], return_tensors="pt", padding="max_length", truncation=True, max_length=256)
        
        # Salvar o tamanho máximo da pergunta e do contexto
        max_question_len = max(max_question_len, len(question_tokens["input_ids"]))
        max_context_len = max(max_context_len, len(context_tokens["input_ids"]))
        
        # Adicionar os tokens tokenizados e as respostas ao conjunto de dados processado
        processed_data.append({
            "input_ids": question_tokens["input_ids"],
            "attention_mask": question_tokens["attention_mask"],
            "context_input_ids": context_tokens["input_ids"],
            "context_attention_mask": context_tokens["attention_mask"],
            "answer": item["answer"]
        })
    
    print("Tamanho máximo da pergunta:", max_question_len)
    print("Tamanho máximo do contexto:", max_context_len)
    
    return processed_data

# Pré-processamento dos dados
processed_train_data = preprocess_data(train_data)
processed_test_data = preprocess_data(test_data)


Tamanho máximo da pergunta: 1
Tamanho máximo do contexto: 1
Tamanho máximo da pergunta: 1
Tamanho máximo do contexto: 1


In [97]:
index = 5

prompt = f"""
Context of the Question.

{train_data[index]['context']}

"""

inputs = tokenizer(train_data[index]['question'], train_data[index]['context'], return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()

predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
resposta = tokenizer.decode(predict_answer_tokens, skip_special_tokens=True)

dash_line = '-'.join('' for x in range(100))
print(dash_line)
print(f'INPUT PROMPT:\n{prompt}')
print(f'Question:\n{train_data[index]['question']}\n')
print(dash_line)
print(f'MODEL ANSWER - ZERO SHOT:\n{resposta}')

---------------------------------------------------------------------------------------------------
INPUT PROMPT:

Context of the Question.

O Aprendiz do Futuro é uma iniciativa do Governo do Estado de Goiás, por meio da Secretaria de Estado de Desenvolvimento Social (SEDS), que tem como visão oferecer o maior programa de sócio-aprendizagem do Brasil e do mundo com foco em tecnologia, alta performance e impacto social na vida dos jovens em situação de vulnerabilidade.


Question:
Como o Programa Aprendiz do Futuro contribui para o desenvolvimento pessoal e profissional dos jovens participantes?

---------------------------------------------------------------------------------------------------
MODEL ANSWER - ZERO SHOT:



In [98]:
start_probs = torch.nn.functional.softmax(outputs.start_logits, dim=1)
end_probs = torch.nn.functional.softmax(outputs.end_logits, dim=1)

start_one_hot = torch.nn.functional.one_hot(torch.tensor([answer_start_index]), num_classes=start_probs.size(1))
end_one_hot = torch.nn.functional.one_hot(torch.tensor([answer_end_index]), num_classes=end_probs.size(1))

start_loss = torch.nn.functional.binary_cross_entropy(start_probs, start_one_hot.float())
end_loss = torch.nn.functional.binary_cross_entropy(end_probs, end_one_hot.float())

total_loss = start_loss + end_loss

total_loss_value = total_loss.item()

rounded_loss = round(total_loss_value, 2)

print(f'Loss: {rounded_loss}')

Loss: 0.03


In [134]:
def tokenize_function(example):
    start_prompt = 'Answer the question.\n\n'
    end_prompt = '\n\nAnswer: '
    prompt = start_prompt + example["question"] + end_prompt
    
    # Tokenizar a pergunta e o contexto
    inputs = tokenizer(prompt, example["context"],
                       add_special_tokens=True, padding='max_length', truncation=True,
                       max_length=1000, return_tensors="pt")

    # Adicionar os inputs ao exemplo
    example['input_ids'] = inputs.input_ids
    example['attention_mask'] = inputs.attention_mask
    
    # Encontrar as posições de início e fim das respostas
    start_pos = example["context"].find(example["answer"])
    if start_pos == -1:
        # Se a resposta não está presente no contexto, atribuir posição 0
        example['start_positions'] = [0]
        example['end_positions'] = [0]
    else:
        # Se a resposta está presente no contexto, atribuir posições de início e fim
        end_pos = start_pos + len(example["answer"]) - 1
        example['start_positions'] = [start_pos]
        example['end_positions'] = [end_pos]
    
    return example


In [135]:
print(test_data['context'])

['No caso de perda ou extravio do cartão, entrar em contato com a BK Bank pelo número 08009010203 ou pelo Whatsapp (16) 99375-7412.', 'Para receber os benefícios não é necessário realizar inscrição, pois o Governo de Goiás usa a base de dados do Cadastro Único (CadÚnico).', 'O Aprendiz do Futuro é uma iniciativa do Governo do Estado de Goiás, por meio da Secretaria de Estado de Desenvolvimento Social (SEDS), que tem como visão oferecer o maior programa de sócio-aprendizagem do Brasil e do mundo com foco em tecnologia, alta performance e impacto social na vida dos jovens em situação de vulnerabilidade.', 'O Dignidade beneficia com R$ 300 mensais pessoas que tenham entre 60 anos e 64 anos 11 meses e 29 dias em situação de pobreza ou de extrema pobreza.']


In [136]:
# Lista para armazenar os exemplos tokenizados
tokenized_test_data = []

# Itera sobre cada exemplo no conjunto de dados de teste
for example in test_data:
    # Aplica a função tokenize_function ao exemplo atual
    tokenized_example = tokenize_function(example)
    # Adiciona o exemplo tokenizado à lista
    tokenized_test_data.append(tokenized_example)


# Lista para armazenar os exemplos tokenizados
tokenized_train_data = []

# Itera sobre cada exemplo no conjunto de dados de teste
for example in train_data:
    # Aplica a função tokenize_function ao exemplo atual
    tokenized_example = tokenize_function(example)
    # Adiciona o exemplo tokenizado à lista
    tokenized_train_data.append(tokenized_example)

In [137]:
for i, example in enumerate(tokenized_train_data):
    input_ids_size = example['input_ids'].size()
    attention_mask_size = example['attention_mask'].size()
    print(f"Tamanho do tensor {i} do dataset tokenizado (treinamento):")
    print("input_ids:", input_ids_size)
    print("attention_mask:", attention_mask_size)

for i, example in enumerate(tokenized_test_data):
    input_ids_size = example['input_ids'].size()
    attention_mask_size = example['attention_mask'].size()
    print(f"Tamanho do tensor {i} do dataset tokenizado (teste):")
    print("input_ids:", input_ids_size)
    print("attention_mask:", attention_mask_size)

Tamanho do tensor 0 do dataset tokenizado (treinamento):
input_ids: torch.Size([70, 1000])
attention_mask: torch.Size([70, 1000])
Tamanho do tensor 1 do dataset tokenizado (treinamento):
input_ids: torch.Size([45, 1000])
attention_mask: torch.Size([45, 1000])
Tamanho do tensor 2 do dataset tokenizado (treinamento):
input_ids: torch.Size([54, 1000])
attention_mask: torch.Size([54, 1000])
Tamanho do tensor 3 do dataset tokenizado (treinamento):
input_ids: torch.Size([63, 1000])
attention_mask: torch.Size([63, 1000])
Tamanho do tensor 4 do dataset tokenizado (treinamento):
input_ids: torch.Size([52, 1000])
attention_mask: torch.Size([52, 1000])
Tamanho do tensor 5 do dataset tokenizado (treinamento):
input_ids: torch.Size([116, 1000])
attention_mask: torch.Size([116, 1000])
Tamanho do tensor 6 do dataset tokenizado (treinamento):
input_ids: torch.Size([43, 1000])
attention_mask: torch.Size([43, 1000])
Tamanho do tensor 7 do dataset tokenizado (treinamento):
input_ids: torch.Size([45, 1000

In [138]:
from accelerate import Accelerator, DataLoaderConfiguration

dataloader_config = DataLoaderConfiguration(
    dispatch_batches=None,
    split_batches=False,
    even_batches=True,
    use_seedable_sampler=True
)

accelerator = Accelerator(dataloader_config=dataloader_config)

In [139]:
output_dir = f'./dialogue-summary-training-{str(int(time.time()))}'

training_args = TrainingArguments(
    output_dir=output_dir,
    learning_rate=1e-5,
    num_train_epochs=1,
    weight_decay=0.01,
    logging_steps=1,
    max_steps=1
)

trainer = Trainer(
    model = model,  # Altere para o seu modelo original
    args = training_args,
    train_dataset = tokenized_train_data
)

In [148]:
import torch

def my_collate_fn(batch):
    # Separe as entradas e os rótulos
    inputs = [item['input_ids'] for item in batch]
    labels = [item['labels'] for item in batch]
    
    # Obtenha o comprimento máximo da sequência no lote
    max_len = max(len(seq) for seq in inputs)
    
    # Preencha as sequências para que todas tenham o mesmo comprimento
    padded_inputs = [seq + [0] * (max_len - len(seq)) for seq in inputs]
    
    return {
        'input_ids': torch.tensor(padded_inputs),
        'labels': torch.tensor(labels)
    }


In [149]:
from torch.utils.data import DataLoader

batch_size = 8  # ajuste conforme necessário
train_loader = DataLoader(
    dataset,
    batch_size=batch_size,
    collate_fn=my_collate_fn
)

In [153]:
trainer.train()

RuntimeError: stack expects each tensor to be equal size, but got [43, 1000] at entry 0 and [52, 1000] at entry 1