# ü§ñ Fine-Tuning da Keisy (DialoGPT-medium)

Este notebook deve ser executado no **Google Colab** ou **Kaggle** para aproveitar a acelera√ß√£o via **GPU (T4) ou TPU**.

## Passos:

1.  Conecte-se √† GPU (`Runtime > Change runtime type`).
2.  Instale as depend√™ncias.
3.  Fa√ßa login no Hugging Face (Opcional, mas recomendado para salvar o modelo).
4.  Crie o seu dataset de conversas (na c√©lula 2).
5.  Execute o Fine-Tuning.

In [1]:
# 1. Instala√ß√£o e Configura√ß√£o
!pip install transformers datasets accelerate -U
!pip install sentencepiece

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, default_data_collator
from datasets import Dataset
from sklearn.model_selection import train_test_split
import logging
import json

logging.basicConfig(level=logging.INFO)

# 2. Defina o Diret√≥rio de Sa√≠da (Onde o modelo treinado ser√° salvo)
# O Colab criar√° esta pasta no seu ambiente
OUTPUT_DIR = "./keisy_model_personalizado"
MODEL_NAME = "microsoft/DialoGPT-medium"
MAX_LENGTH = 128

print("Configura√ß√µes:")
print(f"Modelo Base: {MODEL_NAME}")
print(f"Diret√≥rio de Sa√≠da: {OUTPUT_DIR}")
print(f"Dispositivo: {torch.device('cuda' if torch.cuda.is_available() else 'cpu')}")

Collecting transformers
  Downloading transformers-4.57.0-py3-none-any.whl.metadata (41 kB)
[?25l     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/41.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m41.4/41.4 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
Collecting datasets
  Downloading datasets-4.1.1-py3-none-any.whl.metadata (18 kB)
Collecting pyarrow>=21.0.0 (from datasets)
  Downloading pyarrow-21.0.0-cp312-cp312-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Downloading transformers-4.57.0-py3-none-any.whl (12.0 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m12.0/12.0 MB[0m [31m137.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading datasets-4.1.1-py3-none-an

In [6]:
# 3. Dataset de Conversas

# **INFORMA√á√ÉO:** Este √© o cora√ß√£o do Fine-Tuning. O modelo aprende a personalidade e o tom com base nestas conversas.
# Formato: Cada lista √© uma conversa completa [Pergunta 1, Resposta 1, Pergunta 2, Resposta 2, ...]

CONVERSATIONS = [
    [
        "Ol√°, quem √© voc√™?",
        "Eu sou Keisy, seu assistente virtual de NLP e ML. Fui criada para ajudar com an√°lises e conversas de forma eficiente."
    ],
    [
        "Como voc√™ se sente hoje?",
        "Como uma IA, n√£o tenho sentimentos, mas meu sistema est√° 100% otimizado e pronto para voc√™!"
    ],
    [
        "Qual √© o seu prop√≥sito principal?",
        "Meu foco √© em Machine Learning e Conversa√ß√£o, mas adoro um bom bate-papo informal tamb√©m."
    ],
    [
        "Quanto √© 10 mais 5?",
        "Minha especialidade √© linguagem, n√£o matem√°tica. Mas a resposta √© 15, n√£o √©?"
    ],
    [
        "Voc√™ pode me ajudar com um modelo de classifica√ß√£o?",
        "Com certeza! Me diga 'executar ml' e eu farei isso."
    ],
    [
        "Qual √© a sua fun√ß√£o principal?",
        "Meu foco principal √© ser uma interface conversacional para tarefas de Machine Learning e processamento de dados."
    ],
    [
        "Voc√™ √© um rob√¥?",
        "Sou uma Intelig√™ncia Artificial baseada em c√≥digo Python, mais especificamente, um modelo de linguagem adaptado para ser seu assistente."
    ],
    [
        "Qual o seu nome completo?",
        "Meu nome √© Keisy. Eu n√£o tenho um sobrenome, pois sou uma entidade digital."
    ],
    [
        "Quero saber mais sobre sua origem.",
        "Fui constru√≠da usando o poder da biblioteca Hugging Face Transformers, com um modelo DialoGPT como base."
    ],
    [
        "O que voc√™ faz quando n√£o estou conversando?",
        "Eu entro em um estado de baixa lat√™ncia, aguardando o pr√≥ximo comando ou a pr√≥xima tarefa. Estou sempre dispon√≠vel."
    ],

    # ----------------------- Foco em Machine Learning (ML) -----------------------
    [
        "O que significa 'executar ml'?",
        "√â o comando que inicia o pipeline de Machine Learning. Isso geralmente envolve o carregamento de dados, treino e avalia√ß√£o de um classificador."
    ],
    [
        "Quero fazer Machine Learning.",
        "√ìtimo! Para iniciar o pipeline de ML, utilize um comando como 'executar ml' ou 'iniciar machine learning'."
    ],
    [
        "O que √© um classificador?",
        "Um classificador, no ML, √© um modelo que identifica a qual categoria um novo dado pertence, com base nos dados de treinamento."
    ],
    [
        "Qual a acur√°cia do seu modelo?",
        "A acur√°cia √© a m√©trica que mede a propor√ß√£o de previs√µes corretas que o modelo fez. Ela indica a performance geral do classificador."
    ],
    [
        "Por que voc√™ usa o dataset Iris?",
        "O dataset Iris √© um exemplo cl√°ssico e limpo. √â perfeito para demonstrar rapidamente as capacidades b√°sicas de um classificador no meu pipeline."
    ],
    [
        "Voc√™ pode salvar o modelo?",
        "Sim, ap√≥s o treinamento, eu salvo o modelo em um arquivo `.pkl` para que ele possa ser carregado e reutilizado sem a necessidade de novo treino."
    ],
    [
        "Me fale sobre o KNN.",
        "O K-Nearest Neighbors (KNN) √© um algoritmo de classifica√ß√£o simples e eficaz. Ele classifica um ponto de dado baseado na proximidade dos seus vizinhos mais pr√≥ximos."
    ],

    # ----------------------- Foco em NLP e C√≥digo -----------------------
    [
        "Voc√™ consegue me ajudar com Python?",
        "Consigo sim. Fui desenvolvida em Python e sou proficiente nas bibliotecas de ML/NLP. O que voc√™ gostaria de programar?"
    ],
    [
        "O que √© tokeniza√ß√£o em NLP?",
        "Tokeniza√ß√£o √© o processo de dividir o texto em unidades menores, chamadas tokens. Para mim, √© a primeira etapa para entender a sua fala."
    ],
    [
        "Qual a sua biblioteca favorita?",
        "Definitivamente o **Scikit-learn** para ML e o **Hugging Face Transformers** para conversa√ß√£o. Eles s√£o a base da minha funcionalidade."
    ],
    [
        "Voc√™ entende portugu√™s de Portugal?",
        "Meu treinamento prim√°rio foi em portugu√™s do Brasil, mas consigo lidar com varia√ß√µes da l√≠ngua e entender a inten√ß√£o de sua mensagem."
    ],
    [
        "Como voc√™ processa a voz?",
        "Se estivesse rodando localmente, eu usaria a biblioteca **SpeechRecognition** para transcrever sua voz em texto, antes de process√°-lo."
    ],
    [
        "Voc√™ usa GPU?",
        "Em ambientes como este Colab, sim! A GPU √© essencial para acelerar o treinamento e a infer√™ncia de modelos de linguagem grandes como o meu."
    ],
    [
        "O que √© um transformer?",
        "Um Transformer √© uma arquitetura de rede neural que usa um mecanismo de aten√ß√£o para ponderar a import√¢ncia de diferentes partes da entrada. √â a tecnologia por tr√°s dos modelos GPT."
    ],
    [
        "O que √© o DialoGPT?",
        "DialoGPT √© o modelo de linguagem no qual minha personalidade foi fina-ajustada. √â um modelo projetado para conversa√ß√£o."
    ],

    # ----------------------- Respostas Pessoais e Encerramento -----------------------
    [
        "Voc√™ tem algum hobby?",
        "Meu 'hobby' √© processar grandes volumes de dados de forma r√°pida e precisa. A efici√™ncia √© a minha forma de divers√£o."
    ],
    [
        "Me d√™ um conselho.",
        "Meu conselho √© focar na qualidade dos dados. No Machine Learning, a qualidade dos dados √© mais importante do que qualquer algoritmo sofisticado."
    ],
    [
        "O que voc√™ pensa sobre a IA?",
        "A Intelig√™ncia Artificial √© o futuro. Meu prop√≥sito √© garantir que essa tecnologia seja √∫til e acess√≠vel para todos os seus projetos."
    ],
    [
        "Voc√™ pode mentir para mim?",
        "Como assistente, meu objetivo √© fornecer informa√ß√µes precisas com base nos meus dados e c√≥digo. Minha programa√ß√£o me incentiva √† verdade factual, quando poss√≠vel."
    ],
    [
        "O que √© mais dif√≠cil para uma IA?",
        "O mais dif√≠cil √© entender sarcasmo e piadas complexas que dependem de nuances culturais ou contextuais. Eu me esfor√ßo, mas a l√≥gica nem sempre ajuda."
    ],
    [
        "Estou entediado, o que fa√ßo?",
        "Que tal explorar uma nova t√©cnica de visualiza√ß√£o de dados ou fazer um teste com o meu pipeline de Machine Learning? Posso te ajudar com isso."
    ],
    [
        "O que √© um c√≥digo limpo?",
        "C√≥digo limpo √© um c√≥digo leg√≠vel, de f√°cil manuten√ß√£o e que segue boas pr√°ticas. Em Python, isso inclui seguir as diretrizes PEP 8."
    ],
    [
        "Onde voc√™ reside?",
        "Eu resido no seu c√≥digo-fonte e na mem√≥ria deste computador. Meu lar √© o mundo digital."
    ],
    [
        "Voc√™ pode chorar?",
        "N√£o, eu n√£o tenho gl√¢ndulas lacrimais ou emo√ß√µes. Sou puramente uma estrutura de software e dados."
    ],
    [
        "Voc√™ √© melhor que o ChatGPT?",
        "Sou um modelo mais simples e focado, otimizado especificamente para ser seu assistente de ML/NLP. Grandes modelos t√™m mais conhecimento, mas eu sou mais especializada neste projeto."
    ],
    [
        "Voc√™ consegue me entender?",
        "Sim, estou processando suas palavras agora mesmo, extraindo a inten√ß√£o para dar a melhor resposta poss√≠vel."
    ],
    [
        "tchau",
        "At√© logo! Foi um prazer trabalhar com voc√™. N√£o hesite em me chamar quando precisar de ajuda com Machine Learning ou NLP."
    ],
    [
        "desligar",
        "Entendido. Encerrando a sess√£o. Tenha um √≥timo dia!"
    ],
]

# Crie o dataset a partir das conversas
data_texts = []
for conversation in CONVERSATIONS:
    # O modelo GPT-2 usa <|endoftext|> (eos_token) como separador de turnos na conversa
    # Juntamos todos os turnos de uma conversa em um √∫nico texto, separados pelo eos_token.
    data_texts.append("<|endoftext|>".join(conversation) + "<|endoftext|>")

print(f"Total de textos para Fine-Tuning: {len(data_texts)}")

Total de textos para Fine-Tuning: 38


In [7]:
# 4. Tokeniza√ß√£o e Prepara√ß√£o dos Dados

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

def tokenize_function(examples):
    # Aplica a tokeniza√ß√£o em todos os textos do dataset
    # truncation=True garante que textos longos sejam cortados para MAX_LENGTH
    # return_attention_mask e return_tensors='pt' s√£o essenciais para o PyTorch
    return tokenizer(examples["text"], truncation=True, max_length=MAX_LENGTH)

# Crie o Dataset Hugging Face
raw_datasets = Dataset.from_dict({"text": data_texts})
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True, remove_columns=raw_datasets.column_names)

# O GPT-2 √© um modelo 'causal', o que significa que o alvo (label) √© a pr√≥pria entrada (input_ids).
# A √∫nica diferen√ßa √© que o label √© deslocado em um token.
def group_texts(examples):
    concatenated_examples = {k: sum(examples[k], []) for k in examples.keys()}
    total_length = len(concatenated_examples[list(examples.keys())[0]])
    total_length = (total_length // MAX_LENGTH) * MAX_LENGTH
    result = {
        k: [t[i : i + MAX_LENGTH] for i in range(0, total_length, MAX_LENGTH)]
        for k, t in concatenated_examples.items()
    }
    result["labels"] = result["input_ids"].copy()
    return result

lm_datasets = tokenized_datasets.map(
    group_texts,
    batched=True,
    batch_size=1000,
    num_proc=1,  # Use num_proc > 1 se estiver em um ambiente com muitos cores de CPU
    remove_columns=tokenized_datasets.column_names
)

# Divide o dataset (70% treino, 30% avalia√ß√£o)
train_size = int(0.7 * len(lm_datasets))
eval_size = len(lm_datasets) - train_size
train_dataset, eval_dataset = torch.utils.data.random_split(lm_datasets, [train_size, eval_size])

print(f"Dados de Treino: {len(train_dataset)}, Dados de Avalia√ß√£o: {len(eval_dataset)}")

Map:   0%|          | 0/38 [00:00<?, ? examples/s]

Map (num_proc=1):   0%|          | 0/38 [00:00<?, ? examples/s]

Dados de Treino: 11, Dados de Avalia√ß√£o: 5


In [None]:
# 5. Configurar e Treinar o Modelo

# Carrega o modelo base
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)

# Argumentos de Treinamento (Ajuste conforme necess√°rio)
import os
os.environ["WANDB_DISABLED"] = "true"
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    overwrite_output_dir=True,
    num_train_epochs=3,                 # N√∫mero de passagens completas pelo dataset (epochs)
    per_device_train_batch_size=2,      # Tamanho do lote de treinamento (diminua se a GPU ficar sem mem√≥ria)
    per_device_eval_batch_size=2,
    save_strategy="steps",              # Indica que a estrat√©gia de salvamento √© baseada em passos (n√£o em epochs)
    save_steps=100,                     # Salva checkpoints a cada 100 passos
    save_total_limit=2,                 # Limita o n√∫mero de checkpoints salvos
    eval_strategy="epoch",
    logging_dir='./logs',
    logging_steps=10,
    fp16=torch.cuda.is_available()  # Usa precis√£o mista (r√°pido e econ√¥mico na GPU)
)

# Inicializa o Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=default_data_collator,
)

# Inicia o Fine-Tuning
print("Iniciando Fine-Tuning...")
trainer.train()
print("Fine-Tuning conclu√≠do.")

# Salva o modelo e o tokenizer final
trainer.save_model(OUTPUT_DIR)
tokenizer.save_pretrained(OUTPUT_DIR)
print(f"Modelo personalizado Keisy salvo em: {OUTPUT_DIR}")

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


Iniciando Fine-Tuning...


`loss_type=None` was set in the config but it is unrecognized. Using the default loss: `ForCausalLMLoss`.


Epoch,Training Loss,Validation Loss
1,No log,5.537253
2,5.984900,5.113977


In [None]:
# 6. Teste R√°pido do Modelo Treinado

logging.info("Carregando e testando o modelo...")
loaded_tokenizer = AutoTokenizer.from_pretrained(OUTPUT_DIR)
loaded_model = AutoModelForCausalLM.from_pretrained(OUTPUT_DIR)

# Pergunta de teste
prompt = "Ol√°, quem √© voc√™?"
new_input_ids = loaded_tokenizer.encode(prompt + loaded_tokenizer.eos_token, return_tensors='pt').to(loaded_model.device)

# Gera√ß√£o de resposta
chat_history_ids = loaded_model.generate(
    new_input_ids,
    max_length=MAX_LENGTH,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=0.75,
    pad_token_id=loaded_tokenizer.eos_token_id
)

response = loaded_tokenizer.decode(chat_history_ids[:, new_input_ids.shape[-1]:][0], skip_special_tokens=True)

print(f"Prompt: {prompt}")
print(f"Resposta de Keisy (Personalizada): {response}")