<a href="https://colab.research.google.com/github/lrzcalmon/Repo_Git_Api/blob/main/Tech_Challenge_03_Llama_3_1_8B.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Fine-tuning do Llama 3.1-8B em dados de produtos da Amazon

# Este notebook demonstra o processo de fine-tuning do modelo de linguagem Llama 3.1-8B usando a biblioteca Unsloth em dados de produtos da Amazon. O objetivo √© adaptar o modelo para responder a perguntas com base nos t√≠tulos e conte√∫dos dos produtos.

## Estrutura do Notebook

# 1.  **Configura√ß√£o Inicial:** Montagem do Google Drive e importa√ß√£o de bibliotecas essenciais.
# 2.  **Prepara√ß√£o do Dataset:** Carregamento, limpeza, normaliza√ß√£o e formata√ß√£o dos dados para o treinamento.
# 3.  **Instala√ß√£o e Configura√ß√£o do Modelo:** Instala√ß√£o do Unsloth e configura√ß√£o do modelo Llama 3.1-8B para fine-tuning com LoRA.
# 4.  **Treinamento do Modelo:** Defini√ß√£o do prompt, mapeamento do dataset e execu√ß√£o do treinamento.
# 5.  **Exporta√ß√£o do Modelo:** Salvamento do modelo treinado para uso futuro.
# 6.  **Infer√™ncia:** Carregamento do modelo fine-tuned e teste com exemplos de perguntas.


### Montagem do Google Drive

Montar o Google Drive com permiss√£o de leitura e escrita no ambiente do Google Colab para permitir acessar e salvar arquivos diretamente do seu Drive, evitando a necessidade de carregar e baixar arquivos manualmente.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Importa√ß√£o das bibliotecas necess√°rias para o processamento de dados.

In [2]:
import pandas as pd
import unicodedata
import json
import re

import os

# Desabilitar para n√£o solicitar APIKey
os.environ["WANDB_DISABLED"] = "true"


### Prepara√ß√£o do Dataset

Esta se√ß√£o descreve o processo de prepara√ß√£o dos dados brutos (em formato JSON line) para o formato adequado para o treinamento do modelo.

A fun√ß√£o `prepara_dataset` realiza as seguintes etapas:

1.  **Carregamento:** L√™ o arquivo JSON line e carrega os dados.
2.  **Sele√ß√£o de Colunas:** Mant√©m apenas as colunas 'title' e 'content'.
3.  **Normaliza√ß√£o:** Remove caracteres de controle e excesso de espa√ßos.
4.  **Filtragem:** Remove registros com t√≠tulos ou conte√∫dos vazios ap√≥s a normaliza√ß√£o.
5.  **Remo√ß√£o de Duplicados:** Remove registros duplicados com base em 'title' e 'content'.
6.  **Reset de √çndice:** Reseta o √≠ndice do DataFrame ap√≥s as opera√ß√µes de remo√ß√£o.
7.  **Formata√ß√£o para Treinamento:** Cria as colunas 'instruction', 'input' e 'output' no formato esperado pelo modelo (`instruction` para a tarefa, `input` para o t√≠tulo/pergunta, e `output` para o conte√∫do/resposta).
8.  **Amostragem (Opcional):** Se especificado `tam_regs`, seleciona uma amostra aleat√≥ria do dataset.
9.  **Salvamento:** Salva o dataset formatado em um novo arquivo JSON.


In [4]:
# Efetua as diversas limpezas e estabiliza√ß√µes do dataset
def prepara_dataset(tam_regs=None, inpfile, outfile):
# Primeiro carrega o JSON como uma tupla no vetor data
    data = []
    with open(inpfile, 'r', encoding='utf-8') as file:
        for line in file: # para cada linha
            try:
                item = json.loads(line)
                if 'title' in item and 'content' in item:
                    title = item['title']
                    content = item['content']
                    if title or content is not None:
                        data.append({'title': title, 'content': content})  # s√≥ nos interessa titulo e conteudo
            except json.JSONDecodeError:
                pass # bypass de leituras erradas

    df = pd.DataFrame(data) # Usa o pandas para converter uma lista em dataFrame

    # Fun√ß√£o para remover carac de controle e excesso de espa√ßo para ganhar tokens
    def normalizar(text):
        text = ''.join(ch for ch in text if unicodedata.category(ch)[0] != 'C')
        text = re.sub(r'\s+', ' ', text).strip()
        return text

    # Aplica a fun√ß√£o de normaliza√ß√£o nas colunas 'title' e 'content'
    df['title'] = df['title'].apply(normalizar)
    df['content'] = df['content'].apply(normalizar)

    df = df[(df['title'].str.strip() != '') & (df['content'].str.strip() != '')] # remove brancos e vazios
    df.drop_duplicates(subset=['title', 'content'], inplace=True) # remove duplicados

    df.reset_index(drop=True, inplace=True) # como mexemos, precisa resetar o √≠ndice

    # Cria as colunas 'instruction', 'input' e 'output' para o formato necess√°rio
    df['instruction'] = "Responda √† pergunta com base no t√≠tulo do produto."
    df['input'] = df['title'].apply(lambda x: f"O que √© '{x}'?")
    df['output'] = df['content']

    # Se tam_regs definir valor de corte
    if tam_regs is not None:
        df = df.sample(n=tam_regs, random_state=42).reset_index(drop=True)

    formatted_data = df[['instruction', 'input', 'output']].to_dict(orient='records') # Formata para dicion√°rios

    with open(outfile, 'w', encoding='utf-8') as output_file:
        json.dump(formatted_data, output_file, ensure_ascii=False, indent=4) # Salva o Json para uso

    print(f"Total de registros processados: {len(df)}")

In [5]:
# Definindo os caminhos dos arquivos de entrada e sa√≠da
dataset_treino = "/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/trn.json"
dataset_treino_output = "/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/formatted_train_dataset.json"

dataset_teste = "/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/tst.json"
dataset_teste_output = "/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/formatted_test_dataset.json"

Processando os datasets de treinamento e teste com o tamanho de registros especificado.




In [6]:
process_and_format_dataset(tam_regs=250000, dataset_treino, dataset_treino_output)  # 250.000 registros para treinamento
process_and_format_dataset(tam_regs=2500, teste_dataset, dataset_teste_output)     # 2.500 registros para teste

Dataset processado e salvo em '/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/formatted_train_dataset.json'. Total de registros: 250000
Dataset processado e salvo em '/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/formatted_test_dataset.json'. Total de registros: 2500


###Instala√ß√£o do Unsloth e bibliotecas
Instala as bibliotecas necess√°rias para realizar o fine-tuning de forma eficiente em GPUs, como a Tesla T4, utilizando a biblioteca Unsloth. O Unsloth otimiza o processo de treinamento, tornando-o mais r√°pido e com menor consumo de mem√≥ria.


In [7]:
!pip install "unsloth @ git+https://github.com/unslothai/unsloth.git" unsloth-zoo
!pip install peft accelerate bitsandbytes triton --no-deps xformers "trl<0.9.0" dataset

Collecting unsloth@ git+https://github.com/unslothai/unsloth.git
  Cloning https://github.com/unslothai/unsloth.git to /tmp/pip-install-3i2ooyrd/unsloth_3d485ff4e58f4a5e9e59efba17613445
  Running command git clone --filter=blob:none --quiet https://github.com/unslothai/unsloth.git /tmp/pip-install-3i2ooyrd/unsloth_3d485ff4e58f4a5e9e59efba17613445
  Resolved https://github.com/unslothai/unsloth.git to commit 6e5534dc860005be7fd7790b3aa73c2a3996aa5e
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone


###Configura√ß√£o do modelo


Vamos utilizar o modelo Llama 3.1, em GPUs com menos VRAM ou gratuitas como a **Tesla T4**.

In [9]:
fourbit_models = [
    "unsloth/Meta-Llama-3.1-8B-bnb-4bit",           # Llama-3.1 15 trillion tokens model 2x faster!
    "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit",
    "unsloth/Meta-Llama-3.1-70B-bnb-4bit",
    "unsloth/Meta-Llama-3.1-405B-bnb-4bit",         # We also uploaded 4bit for 405b!
]                                                   # More models at https://huggingface.co/unsloth

Carrega o modelo pr√©-treinado Llama 3.1-8B e o tokenizador correspondente. O modelo √© carregado em 4 bits (quantiza√ß√£o) para reduzir o consumo de mem√≥ria VRAM, o que √© crucial para GPUs com recursos limitados.


In [10]:
from unsloth import FastLanguageModel, is_bfloat16_supported
import torch

max_seq_length = 128                        # Tamanho max da entrada.
model_name = "unsloth/Meta-Llama-3.1-8B"    # Modelo escolhido para executar o fine-tuning

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = None,
    load_in_4bit = True,
)

ü¶• Unsloth: Will patch your computer to enable 2x faster free finetuning.


    PyTorch 2.7.0+cu126 with CUDA 1206 (you have 2.6.0+cu124)
    Python  3.11.12 (you have 3.11.12)
  Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
  Memory-efficient attention, SwiGLU, sparse and more won't be available.
  Set XFORMERS_MORE_DETAILS=1 for more details


ü¶• Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.5.5: Fast Llama patching. Transformers: 4.51.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


### Configura√ß√£o do PEFT e LoRA

Configura o modelo para treinamento eficiente utilizando a t√©cnica LoRA (Low-Rank Adaptation of Lare Language Models). LoRA permite adaptar grandes modelos pr√©-treinados para tarefas espec√≠ficas treinando apenas um pequeno n√∫mero de par√¢metros adicionais, o que reduz significativamente os requisitos computacionais  de mem√≥ria.

Os par√¢metros de configr√ß√£o incluem:

*   `r`: Rank das matrizes LoRA. Um valor menor reduz o n√∫mero de par√¢metros trein√°veis e o custo cmputacional, mas pode limitar a capacidade de adapta√ß√£o.
*   `target_modules`: Lista das camadas do modelo onde a adapta√ß√£o LoRAser√° aplicada.
*   `lora_alpha`: Escala das atuliza√ß√µes LoRA.
*   `lora_dropout`: Taxa de dropout aplicada √†s matrizes LoRA pararegulariza√ß√£o.
*   `bias`: Configura√ß√£o para o bias (geralmente 'none √© otimizado).
*   `use_gradient_checkpointing`: Otimiza√ß√£o de mem√≥ria ativad pela Unsloth.
*   `random_state`: Semente para reprodutibilidade.


In [11]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,                                                     # Rank das matrizes LoRA podendo ser 8, 16, 32, 64, 128. Quanto menor o valor, menos custo computacional e menos poder de ajuste.

    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",   # M√≥dulos do modelo que ser√£o adaptados
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,                                            # Controla a escala de atualiza√ß√£o das matrizes LoRA
    lora_dropout = 0,                                           # Ajuda a prevenir overfitting em tarefas espec√≠ficas, onde 0 √© otimizado e valores como 0.1 ou 0.2 podem ser √∫teis para baixo volume de dados.
    bias = "none",                                              # Nenhuma defini√ß√£o necess√°ria para manter a otimiza√ß√£o

    use_gradient_checkpointing = "unsloth",                     # Utiliza√ß√£o de 30% menos de VRAM e 2x mais r√°pido para grandes contextos
    random_state = 3407,                                        # N√∫mero rand√¥mico

    use_rslora = False,
    loftq_config = None,
)

Unsloth 2025.5.5 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


### Formato do Prompt

Define o template do prompt que ser√° utilizado para formatar as entradas e sa√≠das do dataset para o treinamento. Este formato, baseado no template "Alpaca", ajuda o modelo a entender a estrutura da tarefa (instru√ß√£o, entrada e resposta).



In [12]:
alpaca_prompt = """Abaixo est√° uma instru√ß√£o que descreve uma tarefa, emparelhada com uma entrada que fornece contexto adicional. Escreva uma resposta que complete a solicita√ß√£o adequadamente.

### instruction:
{}

### input:
{}

### output:
{}"""


### Aplica√ß√£o do Formato do Prompt ao Dataset

Esta fun√ß√£o aplica o template de prompt a cada exemplo no dataset. Para cada registro (que cont√©m 'instruction', 'input' e 'output'), ela concatena esses campos no formato do `alpaca_prompt` e adiciona o `EOS_TOKEN` (End-of-Sequence token) ao final. O `EOS_TOKEN` indica ao modelo o fim de uma sequ√™ncia.


In [13]:
EOS_TOKEN = tokenizer.eos_token            # Token que indica o fim de uma sequ√™ncia
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        # Formata cada exemplo no template do prompt e adiciona o EOS_TOKEN.
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass


### Infer√™ncia Antes do Fine-tuning

Demonstra como realizar a infer√™ncia com o modelo **antes** de aplicar o fine-tuning. Este teste mostra a capacidade do modelo base para responder a perguntas gerais. Observe que, como o modelo ainda n√£o foi treinado nos dados espec√≠ficos de produtos da Amazon, ele provavelmente n√£o fornecer√° respostas precisas ou relevantes para perguntas baseadas nesses dados.

Carrega o modelo e o tokenizador e os prepara para o modo de infer√™ncia. A fun√ß√£o `FastLanguageModel.for_inference(model)` aplica otimiza√ß√µes espec√≠ficas para gera√ß√£o de texto, tornando-a mais r√°pida.

Prepara o modelo para infer√™ncia com otimiza√ß√µes.


In [14]:
FastLanguageModel.for_inference(model) # Habilita infer√™ncia nativa que √© 2x mais r√°pida


PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 4096, padding_idx=128004)
        (layers): ModuleList(
          (0): LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lora.Linear

###Teste de prompt antes do fine-tuning com o dataset formatado


Prepara a entrada (prompt) para o modelo utilizando o tokenizador e especifica que o tensor retornado deve estar no dispositivo 'cuda' (GPU). Em seguida, gera texto com o modelo com base na entrada.


In [15]:
inputs = tokenizer(
[
    alpaca_prompt.format(
      "Responda √† pergunta com base no t√≠tulo do produto.",  # instruction
      # "What is 'Girls Ballet Tutu Neon Pink'?",            # input
      # "Who was Ayrton Senna?",                             # input
      "Qual o √∫ltimo album do Pink FLoyd ?",                 # input
      "",                                                    # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda") # Retorna tensores PyTorch e move para a GPU.

outputs = model.generate(**inputs, max_new_tokens=200)  # Define o max de tokens gerados
# Decodifica a sa√≠da do modelo para texto leg√≠vel, removendo tokens especiais.
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(generated_text)

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
Answer the question based on the product title.

### Input:
Last Pink FLoyd Album?

### Response:
Response to the request for a response to the request for a response to the request for a response to the request for a response to the request for a response to the request for a response to the request for a response to the request for a response to


### Carregamento do Dataset para Treinamento

Carrega o dataset de treinamento formatado (`formatted_train_dataset.json`) utilizando a biblioteca `datasets`. O dataset √© carregado como um dataset do tipo "train". Em seguida, a fun√ß√£o `formatting_prompts_func` √© aplicada ao dataset para formatar cada exemplo de acordo com o template do prompt, criando a coluna 'text' que ser√° usada para o treinamento.



Mapeamento do dataset formatado e gerado anteriormente pela prepara√ß√£o de dados.

In [16]:
from datasets import load_dataset
# Carrega o dataset formatado a partir do arquivo JSON.
dataset = load_dataset("json", data_files="/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/formatted_train_dataset.json", split="train")
# Aplica a fun√ß√£o de formata√ß√£o de prompts ao dataset.
dataset = dataset.map(formatting_prompts_func, batched = True,)


Generating train split: 0 examples [00:00, ? examples/s]

Map:   0%|          | 0/250000 [00:00<?, ? examples/s]

### Treinamento do Modelo

Configura e executa o processo de fine-tuning do modelo utilizando o `SFTTrainer` da biblioteca `trl` (Transformers Reinforcement Learning). O `SFTTrainer` √© otimizado para fine-tuning supervisionado em dados de texto formatados.

Os `TrainingArguments` definem os par√¢metros do treinamento, incluindo:

*   `per_device_train_batch_size`: Tamanho do batch por GPU.
*   `gradient_accumulation_steps`: N√∫mero de passos antes de atualizar os gradientes.
*   `warmup_steps`: Passos iniciais para aquecimento da taxa de aprendizado.
*   `max_steps`: N√∫mero m√°ximo de passos de treinamento.
*   `learning_rate`: Taxa de aprendizado.
*   `fp16` / `bf16`: Configura√ß√µes de precis√£o.
*   `logging_steps`: Frequ√™ncia de log.
*   `optim`: Otimizador (adamw_8bit √© otimizado para mem√≥ria).
*   `weight_decay`: Penalidade L2 para evitar overfitting.
*   `lr_scheduler_type`: Tipo de agendador de taxa de aprendizado.
*   `seed`: Semente para reprodutibilidade.
*   `output_dir`: Diret√≥rio para salvar resultados.
*   `report_to`: Configura√ß√£o de relat√≥rio (desabilitado).
*   `save_strategy`: Estrat√©gia de salvamento (desabilitado).

O `SFTTrainer` √© ent√£o instanciado com o modelo, tokenizador, dataset de treinamento e os argumentos definidos. Finalmente, o m√©todo `trainer.train()` inicia o processo de fine-tuning.


In [17]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

# Define o diret√≥rio onde os resultados do treinamento ser√£o salvos.
output_dir = "/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M"

args = TrainingArguments(

    per_device_train_batch_size = 1,        # Tamanho do batch por GPU (reduzido para economizar mem√≥ria).
    gradient_accumulation_steps = 2,        # Acumula gradientes por 2 passos antes de atualizar.
    warmup_steps = 5,                       # 5 passos de aquecimento da taxa de aprendizado.
    # num_train_epochs = 1,                 # N√∫mero de √©pocas (desabilitado, usando max_steps).
    max_steps = 60,                         # Treina por no m√°ximo 60 passos.
    learning_rate = 2e-4,                   # Taxa de aprendizado inicial.
    fp16 = not is_bfloat16_supported(),     # Usa FP16 se bfloat16 n√£o for suportado.
    bf16 = is_bfloat16_supported(),         # Usa BF16 se suportado (mais est√°vel).
    logging_steps = 1,                      # Registra m√©tricas a cada passo.
    optim = "adamw_8bit",                   # Otimizador AdamW otimizado para 8 bits.
    weight_decay = 0.01,                    # Penalidade L2.
    lr_scheduler_type = "linear",           # Agendador de taxa de aprendizado linear.
    seed = 3407,                            # Semente para reprodutibilidade.
    output_dir = output_dir,                # Diret√≥rio de sa√≠da.
    report_to = "none",                     # N√£o envia relat√≥rios para plataformas externas.
    save_strategy="no",                     # N√£o salva checkpoints intermedi√°rios.
)

trainer = SFTTrainer(
    model = model,                          # Modelo a ser treinado.
    tokenizer = tokenizer,                  # Tokenizador do modelo.
    train_dataset = dataset,                # Dataset de treinamento formatado.
    dataset_text_field = "text",            # Campo no dataset que cont√©m o texto formatado.
    max_seq_length = max_seq_length,        # Comprimento m√°ximo da sequ√™ncia.
    dataset_num_proc = 2,                   # N√∫mero de processos para carregar dados.
    packing = False,                        # Desabilita packing (pode acelerar para sequ√™ncias curtas).
    args = args,                            # Argumentos de treinamento.
)

trainer.train()

Map (num_proc=2):   0%|          | 0/250000 [00:00<?, ? examples/s]

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 250,000 | Num Epochs = 1 | Total steps = 60
O^O/ \_/ \    Batch size per device = 1 | Gradient accumulation steps = 2
\        /    Data Parallel GPUs = 1 | Total batch size (1 x 2 x 1) = 2
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)


Step,Training Loss
1,0.2743
2,0.377
3,0.3698
4,0.4872
5,0.1816
6,0.1302
7,0.0731
8,0.0952
9,0.0716
10,0.0539


TrainOutput(global_step=60, training_loss=0.04051717385752151, metrics={'train_runtime': 98.2267, 'train_samples_per_second': 1.222, 'train_steps_per_second': 0.611, 'total_flos': 629363485974528.0, 'train_loss': 0.04051717385752151, 'epoch': 0.00048})

### Exporta√ß√£o do Modelo Treinado

Ap√≥s o treinamento, √© importante salvar o modelo fine-tuned e o tokenizador para que possam ser carregados e utilizados posteriormente sem a necessidade de refazer todo o processo de treinamento. Esta se√ß√£o salva o modelo e o tokenizador no diret√≥rio especificado no Google Drive.


Salva os pesos do modelo fine-tuned e o tokenizador usado.

In [18]:
model.save_pretrained("/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/trained_model")
tokenizer.save_pretrained("/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/trained_model")

('/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/trained_model/tokenizer_config.json',
 '/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/trained_model/special_tokens_map.json',
 '/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/trained_model/tokenizer.json')

### Utiliza√ß√£o do Modelo com Fine-tuning (Infer√™ncia)

Esta se√ß√£o demonstra como carregar o modelo que foi treinado com fine-tuning e utiliz√°-lo para realizar infer√™ncias (gerar respostas) para novas perguntas. O modelo carregado j√° incorpora o conhecimento adquirido durante o treinamento no dataset de produtos da Amazon.


Primeiro, instala a biblioteca Unsloth (caso esteja executando em uma nova sess√£o ou ambiente) e importa o `FastLanguageModel`.


In [19]:
!pip install unsloth
from unsloth import FastLanguageModel

# Em seguida, especifica o caminho para o modelo treinado salvo no Google Drive. Carrega o modelo e o tokenizador utilizando o `FastLanguageModel.from_pretrained()`, garantindo que sejam carregados com as mesmas configura√ß√µes de quantiza√ß√£o (4 bits) e comprimento m√°ximo de sequ√™ncia utilizadas no treinamento. Finalmente, prepara o modelo para o modo de infer√™ncia com as otimiza√ß√µes da Unsloth.
# Define o caminho para o modelo treinado salvo.
model_name = "/content/drive/MyDrive/TCC3-Fiap/LF-Amazon-1.3M/trained_model"

# Define as configura√ß√µes para carregar o modelo (devem ser as mesmas do treinamento).
max_seq_length = 128                                  # Define o comprimento m√°ximo das sequ√™ncias de entrada.
dtype = None                                          # Tipo de dados (tamb√©m pode ser torch.float16 ou torch.float32).
load_in_4bit = True                                   # Indica que o modelo ser√° quantizado em 4 bits para economizar mem√≥ria.

# Carrega o modelo e o tokenizador treinados.
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    device_map="auto",
)

# Prepara o modelo para infer√™ncia (modo de avalia√ß√£o e otimiza√ß√µes).
FastLanguageModel.for_inference(model)

==((====))==  Unsloth 2025.5.5: Fast Llama patching. Transformers: 4.51.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 4096, padding_idx=128004)
        (layers): ModuleList(
          (0): LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lora.Linear

Prompt depois de realizer o fine-tuning do modelo que encontrar√° a resposta correta para a pergunta do usu√°rio.

In [26]:
# Prepara a entrada para o modelo fine-tuned.
inputs = tokenizer(
[
    alpaca_prompt.format(
      "Responda √† pergunta com base no conteudo do produto.",  # instruction
      #"What is 'Girls Ballet Tutu Neon Pink'?",           # input
      #"Who was Ayrton Senna?",                            # input
      "√öltimo album do pink floyd ?",                           # input

      "",                                                 # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")                   # Retorna tensores PyTorch e move para a GPU.

outputs = model.generate(**inputs, max_new_tokens=500)   # Gera no m√°ximo 500 novos tokens.
# Decodifica a sa√≠da do modelo para texto leg√≠vel.
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(generated_text)

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
Answer the question based on the product content.

### Input:
Last Album?

### Response:
### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ###