Treinando o modelo

In [18]:
# Baixe as dependências
!pip install torch transformers datasets




In [19]:
import os
import json
import torch
from datasets import Dataset, load_dataset
from transformers import GPT2Tokenizer, GPT2LMHeadModel, Trainer, TrainingArguments


In [20]:
os.environ["WANDB_DISABLED"] = "true"

In [21]:
# Verificar se a GPU está disponível
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Treinando na: {device}")

Treinando na: cuda


In [22]:
# Carregar o modelo e tokenizer do Hugging Face
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
tokenizer.pad_token = tokenizer.eos_token
model = GPT2LMHeadModel.from_pretrained("gpt2")

In [23]:
# Mover o modelo para a GPU
model.to(device)

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2SdpaAttention(
          (c_attn): Conv1D(nf=2304, nx=768)
          (c_proj): Conv1D(nf=768, nx=768)
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D(nf=3072, nx=768)
          (c_proj): Conv1D(nf=768, nx=3072)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=50257, bias=False)
)

In [24]:
# Carregar seu dataset (substitua com seu caminho correto)
dataset = load_dataset('json', data_files='./text_generator_dataset.json')

In [40]:
# Função de tokenização
def tokenize_function(examples):
    # Tokeniza as perguntas (input) e as respostas (labels)
    question_encodings = tokenizer(examples['question'], padding='max_length', truncation=True, max_length=512)
    answer_encodings = tokenizer(examples['answer'], padding='max_length', truncation=True, max_length=512)

    # Adiciona as labels
    question_encodings['labels'] = answer_encodings['input_ids']

    return question_encodings


In [41]:
# Aplicar a tokenização
tokenized_dataset = dataset.map(tokenize_function, batched=True)

Map:   0%|          | 0/41880 [00:00<?, ? examples/s]

In [42]:
# Dividir o dataset em treino e validação
train_dataset, eval_dataset = tokenized_dataset["train"].train_test_split(test_size=0.1).values()

In [56]:
training_args = TrainingArguments(
    output_dir="./results",              # Diretório de saída
    num_train_epochs=3,                  # Número de épocas
    per_device_train_batch_size=8,       # Tamanho do lote
    per_device_eval_batch_size=8,        # Tamanho do lote para validação
    warmup_steps=500,                    # Passos de aquecimento
    weight_decay=0.01,                   # Decaimento de peso
    logging_dir="./logs",                # Diretório para logs
    fp16=True# Passos para log
)

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


In [57]:
trainer = Trainer(
    model=model,                         # Seu modelo treinado
    args=training_args,                  # Argumentos de treinamento
    train_dataset=train_dataset,         # Dataset de treinamento
    eval_dataset=eval_dataset            # Dataset de validação
)

In [58]:
# Iniciar o treinamento
trainer.train()

# Salvando o modelo no diretório especificado
trainer.save_model()

# Caso queira salvar o tokenizador junto com o modelo:
model.save_pretrained(training_args.output_dir, safe_serialization=True)
tokenizer.save_pretrained(training_args.output_dir)

Step,Training Loss
500,0.0241
1000,0.0243
1500,0.0234
2000,0.0234
2500,0.0219
3000,0.0225
3500,0.0224
4000,0.0217
4500,0.0214
5000,0.0213


('./results/tokenizer_config.json',
 './results/special_tokens_map.json',
 './results/vocab.json',
 './results/merges.txt',
 './results/added_tokens.json')

Utilizando o modelo

In [91]:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Carregar o modelo e o tokenizador
model_name = "./results"  # Caminho do seu modelo treinado
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Função para gerar a resposta
def generate_response(question, answer):
    # Criando o prompt para gerar a frase no formato desejado
    prompt = f"Pergunta: {question}\nResposta: {answer}\nFrase formal: O indicador ROE da empresa ROMI3 é {answer}"

    # Tokenizar o prompt
    inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True, max_length=512)

    # Gerar a resposta
    with torch.no_grad():
        generated_ids = model.generate(
            inputs['input_ids'],
            max_new_tokens=50,  # Definir o número máximo de novos tokens que o modelo pode gerar
            num_beams=5,  # Beam search para melhorar a qualidade
            no_repeat_ngram_size=2,  # Evitar repetições
            top_k=50,  # Amostragem
            top_p=0.95,  # Probabilidade acumulada
            temperature=0.7,  # Controle de criatividade
            do_sample=True,  # Ativa amostragem
            early_stopping=True
        )

    # Decodificar a resposta gerada
    output = tokenizer.decode(generated_ids[0], skip_special_tokens=True)

    return output

# Exemplo de pergunta e resposta
question = "Qual o valor do indicador ROE da empresa ROMI3?"
answer = "10.25"

# Gerar a resposta
generated_answer = generate_response(question, answer)

# Mostrar a resposta gerada
print(f"Resposta gerada: {generated_answer}")


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Resposta gerada: Pergunta: Qual o valor do indicador ROE da empresa ROMI3?
Resposta: 10.25
Frase formal: O indicador ROE da empresa ROMI3 é 10.25
