<a href="https://colab.research.google.com/github/josehelioaraujo/Grupo51_TechChallenge_Fase3/blob/main/Grupo51_TechChallengeFase3_Comparacao_Metricas_Com_Sem_FineTuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# **PosTech Inteligência Artificial Para Desenvolvedores - Fiap**
###  **Projeto Challenge Fase 3 - Grupo 51**

### Projeto:
- Projeto de Fine Tuning de um Modelo Foundation LLM(**LLaMA 3 8B**), utilizando o dataset "**The AmazonTitles-1.3MM**".

### Descrição do Arquivo:
  -  Arquivo da Etapa de Geração de Perguntas e Respostas com execução do **Fine Tuning** do modelo


### **Grupo 51/Alunos:**
  
| Matrícula                       | Nome do Aluno  | Email                                                  |
| ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ |
| RM355027 | José Hélio Araujo Andrade  | helioandrade@hotmail.com|
| RM356210 | Bernardo Guimarães Tinti   | betinti@hotmail.com |


### Arquivos Colab

| Descrição do Arquivo Colab | Link de acesso   |
| ------------------------------------------------------------ |   ------------------------------------------------------------ |
| Colab Principal  | [![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1PWEjYtJVAXYlr2zqjj3Ts8r_gW31m_cV#scrollTo=48mnS5Es6O_y) |
| Comparativo Avaliação Modelo - Com e Sem Fine Tuning(esta página)   | [![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hlUUkRJZeVQoqlSzaaAxJwbBCC6cklEr?usp=sharing) |




## Introdução
- O código apresentado implementa um processo completo de fine-tuning de um modelo de linguagem grande (LLM), especificamente uma variante do LLaMA 3 com 8 bilhões de parâmetros. O objetivo principal é adaptar este modelo pré-treinado para uma tarefa específica, utilizando um conjunto de dados personalizado.

- O processo envolve várias etapas-chave:

  - Preparação do ambiente e carregamento do modelo pré-treinado.
  - Aplicação de técnicas de otimização de memória e eficiência computacional, como quantização de 4 bits e Parameter Efficient Fine-Tuning (PEFT).

  - Carregamento e formatação de um dataset personalizado para o treinamento.
  - Execução do fine-tuning utilizando o SFTTrainer, com configurações específicas para melhorar a eficiência e o desempenho do treinamento.
Salvamento do modelo ajustado e sua posterior utilização para gerar respostas a partir de prompts do usuário.

## Objetivo
- O objetivo final é criar um modelo de linguagem personalizado capaz de gerar respostas relevantes e contextualmente apropriadas para uma tarefa específica, demonstrando como LLMs podem ser adaptados eficientemente para aplicações particulares.  

## Funcionalidades do Código

1. Preparação do ambiente e instalação de pacotes necessários
2. Importação de bibliotecas e definição de parâmetros globais
3. Carregamento de um modelo de linguagem pré-treinado (LLaMA 3 8B)
4. Configuração do modelo para Parameter Efficient Fine-Tuning (PEFT)
5. Carregamento e formatação de um dataset personalizado
6. Configuração e execução do treinamento usando SFTTrainer
7. Salvamento do modelo treinado
8. Recarregamento do modelo treinado para inferência
9. Geração de respostas baseadas em prompts do usuário

## Descrição das Bibliotecas Utilizadas

1. **unsloth**: Biblioteca para otimização de modelos de linguagem, fornecendo funcionalidades para carregar e configurar modelos de forma eficiente.

2. **trl**: Biblioteca para Reinforcement Learning em transformers, utilizada aqui para o treinamento supervisionado (SFTTrainer).

3. **datasets**: Biblioteca para manipulação eficiente de conjuntos de dados, usada para carregar e processar o dataset de treinamento.

4. **transformers**: Biblioteca principal para trabalhar com modelos de linguagem baseados em transformers, fornecendo classes como TrainingArguments e TextStreamer.

5. **torch**: Biblioteca de aprendizado de máquina, utilizada implicitamente para operações tensoriais e treinamento do modelo.

## Conclusões

1. O código implementa um pipeline completo de fine-tuning de um modelo de linguagem grande (LLM) usando técnicas de otimização de memória e eficiência computacional.
2. A abordagem utiliza PEFT para reduzir o número de parâmetros treináveis, tornando o processo mais eficiente em termos de recursos computacionais.
3. O modelo final é capaz de gerar respostas personalizadas com base no treinamento realizado, demonstrando a capacidade de adaptação a tarefas específicas.

## Sugestões de Melhorias

1. Implementar validação cruzada ou utilizar um conjunto de dados de validação para monitorar o desempenho do modelo durante o treinamento e evitar overfitting.
2. Adicionar técnicas de regularização adicionais, como dropout nas camadas PEFT, para melhorar a generalização do modelo.
3. Experimentar com diferentes configurações de hiperparâmetros, como taxas de aprendizado, tamanhos de lote e número de épocas, para otimizar o desempenho do modelo.
4. Implementar mecanismos de avaliação automática da qualidade das respostas geradas, utilizando métricas como BLEU, ROUGE ou perplexidade.

# Preparação do Ambiente

### Conexão com as pastas do Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Instalando os pacotes necessários

In [None]:
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers "trl<0.9.0" peft accelerate bitsandbytes
!pip install transformers datasets
!pip install triton

Collecting unsloth@ git+https://github.com/unslothai/unsloth.git (from unsloth[colab-new]@ git+https://github.com/unslothai/unsloth.git)
  Cloning https://github.com/unslothai/unsloth.git to /tmp/pip-install-vig750xf/unsloth_9f452db1fa164a749414a459299c86f0
  Running command git clone --filter=blob:none --quiet https://github.com/unslothai/unsloth.git /tmp/pip-install-vig750xf/unsloth_9f452db1fa164a749414a459299c86f0
  Resolved https://github.com/unslothai/unsloth.git to commit 597e1894f60b9157490d99dc140714899bcc0d14
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting triton
  Downloading triton-3.0.0-1-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.3 kB)
Downloading triton-3.0.0-1-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (209.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.4/209.4 MB[0m [3

### Importando as bibliotecas e pacotes necessárias

In [None]:
from unsloth import FastLanguageModel, is_bfloat16_supported
from trl import SFTTrainer
from datasets import load_dataset
from transformers import TrainingArguments
from transformers import TextStreamer

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


### Definindo parâmetros globais para a execução

In [None]:
loraModelPath = "/content/drive/MyDrive/Pos_IA4Devs/Fine Tunning" # Caminho para armazenamento do modelo
amazonDatasetFormatted_ToTraining = "/content/drive/MyDrive/Pos_IA4Devs/Fine Tunning/AmazonTitle_Dataset_TitleContent_Output.json"
max_seq_length = 2048
dtype = None
load_in_4bit = True

# Chamada do Foundation Model

## Carrega um modelo pré-treinado junto com seu tokenizador

Este código carrega um modelo de linguagem pré-treinado, utilizando a biblioteca `FastLanguageModel` para configurar tanto o modelo quanto o tokenizer. O modelo que está sendo carregado é uma variante compactada para otimização de memória e desempenho, sendo executado em `4 bits` para economizar memória e acelerar o processamento.

Modelo escolhido foi o `llama-3-8b-bnb-4bit`. <br>
O modelo é baseado na arquitetura LLaMA (Large Language Model Meta AI), possivelmente com 8 bilhões de parâmetros (representado por "3-8b") e otimizado para ser carregado e executado em um formato de 4 bits, o que significa que ele foi quantizado para reduzir o uso de memória, tornando-o mais leve. <br>
O termo bnb refere-se ao uso da técnica BitsAndBytes, uma ferramenta para compressão e execução de modelos de forma eficiente, especialmente em dispositivos de menor capacidade.

In [None]:
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-bnb-4bit", # Nome do modelo a ser carregado.
    max_seq_length = max_seq_length,  # Define o comprimento máximo da sequência de tokens que o modelo pode processar em uma única passagem.
    dtype = dtype,                    # O parâmetro dtype especifica o tipo de dado (data type) que será usado para representar os pesos do modelo.
    load_in_4bit = load_in_4bit,      # Este parâmetro ativa o carregamento do modelo em um formato compactado de 4 bits.
)

==((====))==  Unsloth 2024.9.post4: Fast Llama patching. Transformers = 4.44.2.
   \\   /|    GPU: NVIDIA A100-SXM4-40GB. Max memory: 39.564 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.4.1+cu121. CUDA = 8.0. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post1. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.70G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/198 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/50.6k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

Utilizando uma técnica chamada Parameter Efficient Fine-Tuning (PEFT). <br>
A biblioteca PEFT é projetada para melhorar a eficiência do ajuste fino de grandes modelos de linguagem, reduzindo o número de parâmetros treináveis, o que, por sua vez, torna o treinamento mais rápido e econômico em termos de memória.

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,           #especifica a dimensão da matriz de rank baixo usada durante o ajuste fino.
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,  # hiperparâmetro usado para escalar a adaptação LoRA. Ele controla a magnitude das atualizações feitas nos parâmetros LoRA
    lora_dropout = 0, # Indica que não será aplicado dropout nas camadas ajustadas pela LoRA
    bias = "none",    # Este parâmetro controla se os viéses das camadas devem ser treinados ou não. No caso não serão.

    use_gradient_checkpointing = "unsloth", # Técnica que economiza memória durante o treinamento,
    random_state = 3407,                    # Define um estado aleatório para garantir reprodutibilidade.
    use_rslora = False,
    loftq_config = None,                    # Este parâmetro refere-se a uma configuração para uma técnica chamada (Low-Rank Adaptation for Quantization)
)

Unsloth 2024.9.post4 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


# Execução do Fine-Tuning

In [None]:
# Prompt a ser usado nas consultas ao modelo
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
### Instruction:
{}

### Input:
{}

### Response:
{}"""

# Formatação do dataset para a tokenização e em sequência treinamento do modelo

EOS_TOKEN = tokenizer.eos_token
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts        =         []
    for instruction, input, output in zip(instructions, inputs, outputs):

        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass


dataset = load_dataset("json", data_files=amazonDatasetFormatted_ToTraining, split = "train")
dataset = dataset.map(formatting_prompts_func, batched = True,)

In [None]:
# Criando o treinamento

trainer = SFTTrainer(
    model = model,                    # O modelo de linguagem que será ajustado.
    tokenizer = tokenizer,            # O tokenizador usado para converter os dados de texto em tokens que podem ser entendidos pelo modelo.
    train_dataset = dataset,          # O conjunto de dados de treinamento que será usado para ajustar o modelo.
    dataset_text_field = "text",      # Este parâmetro indica qual campo no conjunto de dados contém o texto que será utilizado para o treinamento.
    max_seq_length = max_seq_length,  # O comprimento máximo da sequência de tokens que o modelo pode processar por vez.
    dataset_num_proc = 2,             # Este parâmetro define o número de processos paralelos a serem usados para o pré-processamento do conjunto de dados.
    packing = False,                  # Este parâmetro indica se as sequências de entrada no conjunto de dados devem ser agrupadas ou não. No caso, cada entrada será processada individualmente.
    args = TrainingArguments(   # Configurando hiperparâmetros importantes que controlam como o treinamento será realizado.
        per_device_train_batch_size = 2,    # Tamanho do lote de treinamento para cada dispositivo (por exemplo, GPU ou CPU).
        gradient_accumulation_steps = 4,    # Número de passos de acumulação de gradiente antes de realizar uma atualização nos parâmetros do modelo.
        warmup_steps = 5,                   # Número de passos de aquecimento (warm-up) para o agendador de taxa de aprendizado.
        max_steps = 60,                     # Número máximo de passos de treinamento.
        learning_rate = 2e-4,               # A taxa de aprendizado define o quão rapidamente o modelo ajusta seus parâmetros em resposta ao erro (perda) durante o treinamento. (no caso 0,0002).
        fp16 = not is_bfloat16_supported(), # Se o dispositivo não suportar o formato bfloat16, será utilizado o fp16. Isso reduz o uso de memória e aumenta a eficiência computacional.
        bf16 = is_bfloat16_supported(),     # Verifica se o dispositivo suporta bfloat16
        logging_steps = 1,                  # Número de passos entre cada registro de log durante o treinamento.
        optim = "adamw_8bit",               # Define o otimizador a ser utilizado durante o treinamento.
        weight_decay = 0.01,                # Taxa de decaimento de peso aplicada para evitar overfitting.
        lr_scheduler_type = "linear",       # Define o tipo de agendador de taxa de aprendizado.
        seed = 3407,                        # Semente aleatória usada para garantir a reprodutibilidade dos experimentos.
        output_dir = "outputs",             # Diretório onde os resultados do treinamento, como os pesos do modelo ajustado e os logs, serão salvos.
    ),
)

Map (num_proc=2):   0%|          | 0/205014 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [None]:
# Executando o treinamento

trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 205,014 | Num Epochs = 1
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 60
 "-____-"     Number of trainable parameters = 41,943,040


Step,Training Loss
1,2.954
2,2.6742
3,2.6482
4,2.6256
5,2.6018
6,2.3511
7,2.3684
8,2.2083
9,1.7729
10,1.8789


In [None]:
# Local de armazenamento do modelo após o treinamento

model.save_pretrained(loraModelPath)
tokenizer.save_pretrained(loraModelPath)

('/content/drive/MyDrive/Pos_IA4Devs/Fine Tunning/tokenizer_config.json',
 '/content/drive/MyDrive/Pos_IA4Devs/Fine Tunning/special_tokens_map.json',
 '/content/drive/MyDrive/Pos_IA4Devs/Fine Tunning/tokenizer.json')

## Usando o modelo salvo já treinado

In [None]:
if True:
    from unsloth import FastLanguageModel
    # Recarregando o modelo já treinado anteriormente
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = loraModelPath, # YOUR MODEL YOU USED FOR TRAINING
        max_seq_length = max_seq_length,
        dtype = dtype,
        load_in_4bit = load_in_4bit,
    )
    FastLanguageModel.for_inference(model)

==((====))==  Unsloth 2024.9.post3: Fast Llama patching. Transformers = 4.45.1.
   \\   /|    GPU: NVIDIA A100-SXM4-40GB. Max memory: 39.564 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.4.1+cu121. CUDA = 8.0. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post1. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


# Geração de Respostas

## Definição do Prompt

In [None]:
command = "Using your knowledge base talk about this product. If you can’t find relevant information to answer the question, respond with, “Sorry, I don’t have any information on this question.”"

alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

## Gerando respostas ao usuário

In [None]:
contentInput = input("Enter your product ...")
# contentInput = "Night Heron"

inputs = tokenizer(
[
    alpaca_prompt.format(
        command,
        contentInput,
        ""
    )
], return_tensors = "pt").to("cuda")


text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)

Enter your product ...~lçsakdnfjms
<|begin_of_text|>Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
Using your knowledge base talk about this product. If you can’t find relevant information to answer the question, respond with, “Sorry, I don’t have any information on this question.”

### Input:
~lçsakdnfjms

### Response:
Sorry, I don't have any information on this question.<|end_of_text|>


## # Avaliação das métricas do modelo com Fine Tuning


In [None]:
# Avaliação das métricas do modelo com fine-tuning
!pip install --upgrade datasets evaluate unsloth tabulate rouge-score bert-score

from evaluate import load
import torch
from unsloth import FastLanguageModel
from tabulate import tabulate
import json
from rouge_score import rouge_scorer
from bert_score import score as bert_score
import numpy as np

# Carregar as métricas
bleu = load("bleu")
meteor = load("meteor")
exact_match = load("exact_match")

# Função para calcular a diversidade léxica
def lexical_diversity(text):
    return len(set(text.split())) / len(text.split())

# Função para gerar previsões com o modelo
def generate_predictions(examples):
    inputs = tokenizer(examples["input"], padding=True, return_tensors="pt")
    inputs = {k: v.to(model.device) for k, v in inputs.items()}
    outputs = model.generate(**inputs, max_new_tokens=50)
    decoded_outputs = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    return {"predicted_output": decoded_outputs}

# Preparar o modelo para inferência e gerar previsões
model = FastLanguageModel.for_inference(model)
eval_dataset = dataset.select(range(10))
predictions = eval_dataset.map(generate_predictions, batched=True, remove_columns=eval_dataset.column_names)

# Preparar dados para avaliação
references = [example["output"] for example in eval_dataset]
predicted_outputs = predictions["predicted_output"]

# Calcular métricas
bleu_score = bleu.compute(predictions=predicted_outputs, references=[[r] for r in references])
meteor_score = meteor.compute(predictions=predicted_outputs, references=references)
rouge_scorer_instance = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
rouge_scores = [rouge_scorer_instance.score(ref, pred) for ref, pred in zip(references, predicted_outputs)]
bert_scores = bert_score(predicted_outputs, references, lang="en")
exact_match_score = exact_match.compute(predictions=predicted_outputs, references=references)

# Calcular médias das métricas ROUGE
rouge_avg = {key: np.mean([score[key].fmeasure for score in rouge_scores]) for key in ['rouge1', 'rouge2', 'rougeL']}

# Calcular diversidade léxica média
lex_div_pred = np.mean([lexical_diversity(pred) for pred in predicted_outputs])
lex_div_ref = np.mean([lexical_diversity(ref) for ref in references])

# Preparar dados para a tabela
table_data = [
    ["Métrica", "Valor"],
    ["BLEU Score", f"{bleu_score['bleu']:.4f}"],
    ["METEOR Score", f"{meteor_score['meteor']:.4f}"],
    ["ROUGE-1 F1", f"{rouge_avg['rouge1']:.4f}"],
    ["ROUGE-2 F1", f"{rouge_avg['rouge2']:.4f}"],
    ["ROUGE-L F1", f"{rouge_avg['rougeL']:.4f}"],
    ["BERTScore F1", f"{bert_scores[2].mean().item():.4f}"],
    ["Exact Match", f"{exact_match_score['exact_match']:.4f}"],
    ["Diversidade Léxica (Pred)", f"{lex_div_pred:.4f}"],
    ["Diversidade Léxica (Ref)", f"{lex_div_ref:.4f}"],
    ["Comprimento Médio (Pred)", f"{np.mean([len(pred.split()) for pred in predicted_outputs]):.2f}"],
    ["Comprimento Médio (Ref)", f"{np.mean([len(ref.split()) for ref in references]):.2f}"]
]

# Imprimir a tabela
print(tabulate(table_data, headers="firstrow", tablefmt="grid"))

# Salvar os resultados em um arquivo JSON
results = {row[0]: row[1] for row in table_data[1:]}
with open('evaluation_results.json', 'w') as f:
    json.dump(results, f, indent=2)
print("\nResultados detalhados salvos em 'evaluation_results.json'")

# Opcional: Imprimir alguns exemplos de entrada, saída esperada e previsão
print("\nExemplos de Entrada/Saída:")
for i in range(min(3, len(eval_dataset))):
    print(f"\nExemplo {i+1}:")
    print(f"Entrada: {eval_dataset[i]['input'][:100]}...")
    print(f"Saída Esperada: {references[i][:100]}...")
    print(f"Previsão: {predicted_outputs[i][:100]}...")



[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Some weights of RobertaModel were not initialized from the model checkpoint at roberta-large and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


+---------------------------+---------+
| Métrica                   |   Valor |
| BLEU Score                |  0.0188 |
+---------------------------+---------+
| METEOR Score              |  0.1354 |
+---------------------------+---------+
| ROUGE-1 F1                |  0.1268 |
+---------------------------+---------+
| ROUGE-2 F1                |  0.0405 |
+---------------------------+---------+
| ROUGE-L F1                |  0.0961 |
+---------------------------+---------+
| BERTScore F1              |  0.8131 |
+---------------------------+---------+
| Exact Match               |  0      |
+---------------------------+---------+
| Diversidade Léxica (Pred) |  0.514  |
+---------------------------+---------+
| Diversidade Léxica (Ref)  |  0.9058 |
+---------------------------+---------+
| Comprimento Médio (Pred)  | 39.2    |
+---------------------------+---------+
| Comprimento Médio (Ref)   | 43.6    |
+---------------------------+---------+

Resultados detalhados salvos em 'evalua

##  Exibição dos insights obtidos dos resultados da avaliação do modelo

## Conclusões da avaliação do modelo e sugestões de melhorias

In [None]:

import json
import pandas as pd
from tabulate import tabulate

# Carregar os resultados do arquivo JSON
with open('evaluation_results.json', 'r') as f:
    results = json.load(f)

# Criar uma lista para armazenar as conclusões e sugestões
table_data = [
    ["Aspecto", "Conclusão", "Sugestões de Melhoria"],
]

# Análise de BLEU Score
if float(results['BLEU Score']) > 0.5:
    conclusao_bleu = "O modelo demonstrou boa capacidade de gerar texto similar às referências."
    sugestao_bleu = "Continue monitorando o BLEU Score para garantir a consistência e qualidade das respostas."
else:
    conclusao_bleu = "O BLEU Score está abaixo de 0.5, o que indica que o modelo ainda precisa de mais treinamento para gerar textos mais similares às referências."
    sugestao_bleu = "Aumentar o número de épocas de treinamento ou ajustar os hiperparâmetros para melhorar a similaridade com as referências."
table_data.append(["BLEU Score", conclusao_bleu, sugestao_bleu])

# Análise de ROUGE-L F1
if float(results['ROUGE-L F1']) > 0.7:
    conclusao_rouge = "O modelo demonstra boa capacidade de gerar textos com boa coerência e fluidez."
    sugestao_rouge = "Monitorar o ROUGE-L F1 para garantir a qualidade e a coerência das respostas."
else:
    conclusao_rouge = "O ROUGE-L F1 Score está abaixo de 0.7, o que pode indicar a necessidade de mais treinamento ou ajuste para gerar textos mais coesos e completos."
    sugestao_rouge = "Considerar ajustar o conjunto de dados de treinamento, aumentar o número de épocas ou ajustar os hiperparâmetros para melhorar a coerência e fluidez do texto gerado."
table_data.append(["ROUGE-L F1", conclusao_rouge, sugestao_rouge])

# Análise de BERTScore F1
if float(results['BERTScore F1']) > 0.8:
    conclusao_bertscore = "O modelo consegue gerar textos semanticamente semelhantes às referências."
    sugestao_bertscore = "Monitorar o BERTScore F1 para garantir a qualidade da compreensão semântica."
else:
    conclusao_bertscore = "O BERTScore F1 está abaixo de 0.8, o que pode indicar que o modelo ainda precisa de mais treinamento para capturar o significado do texto de referência."
    sugestao_bertscore = "Considerar ajustar o conjunto de dados de treinamento, aumentar o número de épocas ou explorar diferentes técnicas de treinamento para melhorar a compreensão semântica."
table_data.append(["BERTScore F1", conclusao_bertscore, sugestao_bertscore])

# Análise de Diversidade Léxica
if float(results['Diversidade Léxica (Pred)']) > float(results['Diversidade Léxica (Ref)']):
    conclusao_diversidade = "O modelo apresenta maior diversidade léxica em relação às referências."
    sugestao_diversidade = "Verificar se a maior diversidade léxica é desejável e adequada ao contexto do problema. Se necessário, ajustar o modelo para gerar respostas mais similares às referências."
elif float(results['Diversidade Léxica (Pred)']) < float(results['Diversidade Léxica (Ref)']):
    conclusao_diversidade = "O modelo apresenta menor diversidade léxica em relação às referências."
    sugestao_diversidade = "Considerar aumentar o tamanho do conjunto de dados ou ajustar os hiperparâmetros para melhorar a capacidade do modelo de gerar textos mais diversos."
else:
    conclusao_diversidade = "O modelo apresenta similaridade na diversidade léxica em relação às referências."
    sugestao_diversidade = "Monitorar a diversidade léxica para identificar possíveis mudanças ou problemas."
table_data.append(["Diversidade Léxica", conclusao_diversidade, sugestao_diversidade])

# Análise de Comprimento Médio
if float(results['Comprimento Médio (Pred)']) > float(results['Comprimento Médio (Ref)']):
    conclusao_comprimento = "O modelo tende a gerar respostas mais longas em relação às referências."
    sugestao_comprimento = "Considerar ajustar os hiperparâmetros de geração, como max_new_tokens, para controlar o comprimento das respostas."
elif float(results['Comprimento Médio (Pred)']) < float(results['Comprimento Médio (Ref)']):
    conclusao_comprimento = "O modelo tende a gerar respostas mais curtas em relação às referências."
    sugestao_comprimento = "Ajustar os hiperparâmetros de geração ou o treinamento para gerar textos mais completos e detalhados."
else:
    conclusao_comprimento = "O modelo apresenta similaridade no comprimento médio das respostas em relação às referências."
    sugestao_comprimento = "Monitorar o comprimento médio das respostas para identificar possíveis mudanças ou problemas."
table_data.append(["Comprimento Médio", conclusao_comprimento, sugestao_comprimento])

# Imprimir a tabela
print('-----------------------------------------------------')
print('Resultado da Avaliação - COM Fine-Tuning')
print('-----------------------------------------------------')
print(tabulate(table_data, headers="firstrow", tablefmt="grid"))


-----------------------------------------------------
Resultado da Avaliação - COM Fine-Tuning
-----------------------------------------------------
+--------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Aspecto            | Conclusão                                                                                                                                        | Sugestões de Melhoria                                                                                                                                                 |
| BLEU Score         | O BLEU Score está abaixo de 0.5, o que indica que o modelo ainda precisa de mais treinamento para gerar textos mais similares às referências.    | Aumen

## Avaliação do Modelo Sem Fine-Tuning



In [None]:
# Carregar o modelo base (sem fine-tuning)
model_no_fine_tuning, tokenizer_no_fine_tuning = FastLanguageModel.from_pretrained(
    model_name= 'unsloth/llama-3-8b-bnb-4bit',  # Substitua pelo nome do seu modelo base
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
)
FastLanguageModel.for_inference(model_no_fine_tuning)

# Função para gerar previsões com o modelo sem fine-tuning
def generate_predictions_no_fine_tuning(examples):
    inputs = tokenizer_no_fine_tuning(examples["input"], padding=True, return_tensors="pt")
    inputs = {k: v.to(model_no_fine_tuning.device) for k, v in inputs.items()}
    outputs = model_no_fine_tuning.generate(**inputs, max_new_tokens=50)
    decoded_outputs = tokenizer_no_fine_tuning.batch_decode(outputs, skip_special_tokens=True)
    return {"predicted_output": decoded_outputs}

# Gerar previsões com o modelo sem fine-tuning
predictions_no_fine_tuning = eval_dataset.map(generate_predictions_no_fine_tuning, batched=True, remove_columns=eval_dataset.column_names)

# Preparar dados para avaliação
references = [example["output"] for example in eval_dataset]
predicted_outputs_no_fine_tuning = predictions_no_fine_tuning["predicted_output"]

# Calcular métricas para o modelo sem fine-tuning
bleu_score_no_fine_tuning = bleu.compute(predictions=predicted_outputs_no_fine_tuning, references=[[r] for r in references])
meteor_score_no_fine_tuning = meteor.compute(predictions=predicted_outputs_no_fine_tuning, references=references)
rouge_scores_no_fine_tuning = [rouge_scorer_instance.score(ref, pred) for ref, pred in zip(references, predicted_outputs_no_fine_tuning)]
bert_scores_no_fine_tuning = bert_score(predicted_outputs_no_fine_tuning, references, lang="en")
exact_match_score_no_fine_tuning = exact_match.compute(predictions=predicted_outputs_no_fine_tuning, references=references)

# Calcular médias das métricas ROUGE para o modelo sem fine-tuning
rouge_avg_no_fine_tuning = {key: np.mean([score[key].fmeasure for score in rouge_scores_no_fine_tuning]) for key in ['rouge1', 'rouge2', 'rougeL']}

# Calcular diversidade léxica média para o modelo sem fine-tuning
lex_div_pred_no_fine_tuning = np.mean([lexical_diversity(pred) for pred in predicted_outputs_no_fine_tuning])
lex_div_ref_no_fine_tuning = np.mean([lexical_diversity(ref) for ref in references])

# Preparar dados para a tabela
table_data_no_fine_tuning = [
    ["Métrica", "Valor"],
    ["BLEU Score", f"{bleu_score_no_fine_tuning['bleu']:.4f}"],
    ["METEOR Score", f"{meteor_score_no_fine_tuning['meteor']:.4f}"],
    ["ROUGE-1 F1", f"{rouge_avg_no_fine_tuning['rouge1']:.4f}"],
    ["ROUGE-2 F1", f"{rouge_avg_no_fine_tuning['rouge2']:.4f}"],
    ["ROUGE-L F1", f"{rouge_avg_no_fine_tuning['rougeL']:.4f}"],
    ["BERTScore F1", f"{bert_scores_no_fine_tuning[2].mean().item():.4f}"],
    ["Exact Match", f"{exact_match_score_no_fine_tuning['exact_match']:.4f}"],
    ["Diversidade Léxica (Pred)", f"{lex_div_pred_no_fine_tuning:.4f}"],
    ["Diversidade Léxica (Ref)", f"{lex_div_ref_no_fine_tuning:.4f}"],
    ["Comprimento Médio (Pred)", f"{np.mean([len(pred.split()) for pred in predicted_outputs_no_fine_tuning]):.2f}"],
    ["Comprimento Médio (Ref)", f"{np.mean([len(ref.split()) for ref in references]):.2f}"]
]

# Imprimir a tabela para o modelo sem fine-tuning
print('-----------------------------------------------------')
print('Resultado da Avaliação - SEM Fine-Tuning')
print('-----------------------------------------------------')

print(tabulate(table_data_no_fine_tuning, headers="firstrow", tablefmt="grid"))

# Salvar os resultados em um arquivo JSON
results_no_fine_tuning = {row[0]: row[1] for row in table_data_no_fine_tuning[1:]}
with open('evaluation_results_no_fine_tuning.json', 'w') as f:
    json.dump(results_no_fine_tuning, f, indent=2)
print("\nResultados detalhados do modelo sem fine-tuning salvos em 'evaluation_results_no_fine_tuning.json'")


==((====))==  Unsloth 2024.9.post4: Fast Llama patching. Transformers = 4.44.2.
   \\   /|    GPU: NVIDIA A100-SXM4-40GB. Max memory: 39.564 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.4.1+cu121. CUDA = 8.0. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post1. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Some weights of RobertaModel were not initialized from the model checkpoint at roberta-large and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


-----------------------------------------------------
Resultado da Avaliação - SEM Fine-Tuning
-----------------------------------------------------
+---------------------------+---------+
| Métrica                   |   Valor |
| BLEU Score                |  0.0224 |
+---------------------------+---------+
| METEOR Score              |  0.1425 |
+---------------------------+---------+
| ROUGE-1 F1                |  0.1413 |
+---------------------------+---------+
| ROUGE-2 F1                |  0.0444 |
+---------------------------+---------+
| ROUGE-L F1                |  0.1057 |
+---------------------------+---------+
| BERTScore F1              |  0.8237 |
+---------------------------+---------+
| Exact Match               |  0      |
+---------------------------+---------+
| Diversidade Léxica (Pred) |  0.539  |
+---------------------------+---------+
| Diversidade Léxica (Ref)  |  0.9058 |
+---------------------------+---------+
| Comprimento Médio (Pred)  | 41.3    |
+----------

In [None]:
# Exibição das métricas em forma tabular para fins de comparacao
# Usando os arquivos jsons gerados com os resultados da avalição
# Com X Sem Fine-Tuning
import json
import pandas as pd
from tabulate import tabulate

# Carregar os resultados dos arquivos JSON
with open('evaluation_results.json', 'r') as f:
    results_fine_tuned = json.load(f)

with open('evaluation_results_no_fine_tuning.json', 'r') as f:
    results_no_fine_tuning = json.load(f)

# Criar um DataFrame Pandas para exibir os resultados lado a lado
df_results = pd.DataFrame({
    "Métrica": list(results_fine_tuned.keys()),
    "Modelo com Fine-tuning": list(results_fine_tuned.values()),
    "Modelo sem Fine-tuning": list(results_no_fine_tuning.values())
})

# Exibir o DataFrame

print("Comparativo das Avaliações - Com e Sem Fine Tuning:")
print(tabulate(df_results, headers="keys", tablefmt="grid"))

Comparativo das Avaliações - Com e Sem Fine Tuning:
+----+---------------------------+--------------------------+--------------------------+
|    | Métrica                   |   Modelo com Fine-tuning |   Modelo sem Fine-tuning |
|  0 | BLEU Score                |                   0.0188 |                   0.0224 |
+----+---------------------------+--------------------------+--------------------------+
|  1 | METEOR Score              |                   0.1354 |                   0.1425 |
+----+---------------------------+--------------------------+--------------------------+
|  2 | ROUGE-1 F1                |                   0.1268 |                   0.1413 |
+----+---------------------------+--------------------------+--------------------------+
|  3 | ROUGE-2 F1                |                   0.0405 |                   0.0444 |
+----+---------------------------+--------------------------+--------------------------+
|  4 | ROUGE-L F1                |                   0.096

## Comparativo da Avaliação do Modelo - Com e Sem Fine Tuning

In [None]:
# Exibição do comparativo da métricas - com e sem fine-tuning
from tabulate import tabulate
import json
import pandas as pd

# Carregar os resultados dos arquivos JSON
with open('evaluation_results.json', 'r') as f:
    results_fine_tuned = json.load(f)

with open('evaluation_results_no_fine_tuning.json', 'r') as f:
    results_no_fine_tuning = json.load(f)

# Criar uma lista para armazenar as conclusões e sugestões
table_data = [
    ["Métrica", "Conclusão (Com Fine-tuning)", "Conclusão (Sem Fine-tuning)", "Sugestões de Melhoria"],
]

# Análise de BLEU Score
if float(results_fine_tuned['BLEU Score']) > float(results_no_fine_tuning['BLEU Score']):
    conclusao_bleu_ft = "O modelo com fine-tuning demonstrou melhor capacidade de gerar texto similar às referências."
    conclusao_bleu_no_ft = "O modelo sem fine-tuning apresentou menor similaridade com as referências."
    sugestao_bleu = "Manter o fine-tuning e explorar estratégias para otimizar ainda mais o BLEU Score."
else:
    conclusao_bleu_ft = "O modelo com fine-tuning apresentou similaridade com as referências inferior ao esperado."
    conclusao_bleu_no_ft = "O modelo sem fine-tuning apresentou similaridade com as referências inferior ao esperado."
    sugestao_bleu = "Ajustar o conjunto de dados de treinamento ou os hiperparâmetros para melhorar a similaridade com as referências em ambos os modelos."

table_data.append(["BLEU Score", conclusao_bleu_ft, conclusao_bleu_no_ft, sugestao_bleu])


# Análise de ROUGE-L F1
if float(results_fine_tuned['ROUGE-L F1']) > float(results_no_fine_tuning['ROUGE-L F1']):
    conclusao_rouge_ft = "O modelo com fine-tuning demonstrou melhor capacidade de gerar textos com boa coerência e fluidez."
    conclusao_rouge_no_ft = "O modelo sem fine-tuning apresentou menor coerência e fluidez em relação ao modelo com fine-tuning."
    sugestao_rouge = "Manter o fine-tuning para garantir a qualidade e a coerência das respostas."
else:
    conclusao_rouge_ft = "O modelo com fine-tuning apresentou coerência e fluidez inferior ao esperado."
    conclusao_rouge_no_ft = "O modelo sem fine-tuning apresentou coerência e fluidez inferior ao esperado."
    sugestao_rouge = "Ajustar o conjunto de dados de treinamento ou os hiperparâmetros para melhorar a coerência e fluidez do texto gerado."
table_data.append(["ROUGE-L F1", conclusao_rouge_ft, conclusao_rouge_no_ft, sugestao_rouge])


# Análise de BERTScore F1
if float(results_fine_tuned['BERTScore F1']) > float(results_no_fine_tuning['BERTScore F1']):
    conclusao_bertscore_ft = "O modelo com fine-tuning consegue gerar textos semanticamente semelhantes às referências."
    conclusao_bertscore_no_ft = "O modelo sem fine-tuning apresentou menor capacidade de gerar textos semanticamente semelhantes às referências em relação ao modelo com fine-tuning."
    sugestao_bertscore = "Manter o fine-tuning para garantir a qualidade da compreensão semântica."
else:
    conclusao_bertscore_ft = "O modelo com fine-tuning apresentou menor capacidade de gerar textos semanticamente semelhantes às referências em relação ao esperado."
    conclusao_bertscore_no_ft = "O modelo sem fine-tuning apresentou menor capacidade de gerar textos semanticamente semelhantes às referências em relação ao esperado."
    sugestao_bertscore = "Considerar ajustar o conjunto de dados de treinamento, aumentar o número de épocas ou explorar diferentes técnicas de treinamento para melhorar a compreensão semântica."
table_data.append(["BERTScore F1", conclusao_bertscore_ft, conclusao_bertscore_no_ft, sugestao_bertscore])

# Análise de Diversidade Léxica
if float(results_fine_tuned['Diversidade Léxica (Pred)']) > float(results_no_fine_tuning['Diversidade Léxica (Pred)']):
    conclusao_diversidade_ft = "O modelo com fine-tuning apresenta maior diversidade léxica."
    conclusao_diversidade_no_ft = "O modelo sem fine-tuning apresenta menor diversidade léxica em relação ao modelo com fine-tuning."
    sugestao_diversidade = "Verificar se a maior diversidade léxica é desejável e adequada ao contexto do problema. Se necessário, ajustar o modelo com fine-tuning para gerar respostas mais similares às referências."
elif float(results_fine_tuned['Diversidade Léxica (Pred)']) < float(results_no_fine_tuning['Diversidade Léxica (Pred)']):
    conclusao_diversidade_ft = "O modelo com fine-tuning apresenta menor diversidade léxica."
    conclusao_diversidade_no_ft = "O modelo sem fine-tuning apresenta maior diversidade léxica em relação ao modelo com fine-tuning."
    sugestao_diversidade = "Considerar aumentar o tamanho do conjunto de dados ou ajustar os hiperparâmetros para melhorar a capacidade do modelo com fine-tuning de gerar textos mais diversos."
else:
    conclusao_diversidade_ft = "O modelo com fine-tuning apresenta similaridade na diversidade léxica."
    conclusao_diversidade_no_ft = "O modelo sem fine-tuning apresenta similaridade na diversidade léxica."
    sugestao_diversidade = "Monitorar a diversidade léxica para identificar possíveis mudanças ou problemas."
table_data.append(["Diversidade Léxica", conclusao_diversidade_ft, conclusao_diversidade_no_ft, sugestao_diversidade])

# Análise de Comprimento Médio
if float(results_fine_tuned['Comprimento Médio (Pred)']) > float(results_no_fine_tuning['Comprimento Médio (Pred)']):
    conclusao_comprimento_ft = "O modelo com fine-tuning tende a gerar respostas mais longas."
    conclusao_comprimento_no_ft = "O modelo sem fine-tuning tende a gerar respostas mais curtas em relação ao modelo com fine-tuning."
    sugestao_comprimento = "Considerar ajustar os hiperparâmetros de geração, como max_new_tokens, para controlar o comprimento das respostas no modelo com fine-tuning."
elif float(results_fine_tuned['Comprimento Médio (Pred)']) < float(results_no_fine_tuning['Comprimento Médio (Pred)']):
    conclusao_comprimento_ft = "O modelo com fine-tuning tende a gerar respostas mais curtas."
    conclusao_comprimento_no_ft = "O modelo sem fine-tuning tende a gerar respostas mais longas em relação ao modelo com fine-tuning."
    sugestao_comprimento = "Ajustar os hiperparâmetros de geração ou o treinamento para gerar textos mais completos e detalhados no modelo com fine-tuning."
else:
    conclusao_comprimento_ft = "O modelo com fine-tuning apresenta similaridade no comprimento médio das respostas."
    conclusao_comprimento_no_ft = "O modelo sem fine-tuning apresenta similaridade no comprimento médio das respostas."
    sugestao_comprimento = "Monitorar o comprimento médio das respostas para identificar possíveis mudanças ou problemas."
table_data.append(["Comprimento Médio", conclusao_comprimento_ft, conclusao_comprimento_no_ft, sugestao_comprimento])


# Imprimir a tabela
print(tabulate(table_data, headers="firstrow", tablefmt="grid"))


+--------------------+----------------------------------------------------------------------------------------------------------------------------------------+----------------------------------------------------------------------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Métrica            | Conclusão (Com Fine-tuning)                                                                                                            | Conclusão (Sem Fine-tuning)                                                                                                            | Sugestões de Melhoria                                                                                                                                                    |
| BLEU Score         | O modelo com fine-tuning apresentou simil

# Resumo da Avaliação do Modelo com e sem Fine-tuning

Este documento resume os resultados da avaliação de um modelo de linguagem, comparando o desempenho com e sem fine-tuning.

** Métricas Utilizadas:**

* **BLEU Score:** Mede a similaridade entre o texto gerado e a referência. Um valor mais alto indica maior similaridade.
* **ROUGE-L F1:** Avalia a qualidade da sumarização, considerando a sobreposição de n-gramas entre o texto gerado e a referência.
* **BERTScore F1:** Mede a similaridade semântica entre o texto gerado e a referência.
* **Diversidade Léxica:** Mede a variedade de palavras usadas no texto gerado.
* **Comprimento Médio:** Calcula o comprimento médio das respostas geradas.


### **Comparativo**


| Métrica | Modelo com Fine-tuning | Modelo sem Fine-tuning | Conclusão | Sugestões de Melhoria |
|---|---|---|---|---|
| BLEU Score | Demonstrou melhor similaridade com as referências. | Apresentou menor similaridade com as referências. | Fine-tuning aprimora a similaridade do texto. | Manter fine-tuning e otimizar BLEU Score. |
| ROUGE-L F1 | Demonstrou melhor coerência e fluidez na geração de texto. | Apresentou menor coerência e fluidez. | Fine-tuning melhora a qualidade e a coerência das respostas. | Manter fine-tuning para garantir coerência. |
| BERTScore F1 | Demonstrou maior capacidade de gerar textos semanticamente semelhantes às referências. | Apresentou menor capacidade de gerar textos semanticamente semelhantes às referências. | Fine-tuning melhora a compreensão semântica. | Manter fine-tuning e garantir a qualidade da compreensão semântica. |
| Diversidade Léxica | Apresentou maior diversidade léxica. | Apresentou menor diversidade léxica. | Fine-tuning aumenta a diversidade léxica. | Avaliar se a maior diversidade é adequada e otimizar o modelo. |
| Comprimento Médio | Pode gerar respostas mais longas. | Pode gerar respostas mais curtas. | Fine-tuning influência no comprimento das respostas. | Ajustar hiperparâmetros de geração para controlar comprimento das respostas. |


### **Conclusões**


- O modelo com fine-tuning demonstrou desempenho superior em diversas métricas, incluindo BLEU Score, ROUGE-L F1 e BERTScore F1, indicando uma maior capacidade de gerar texto similar, coerente e semanticamente próximo às referências.
- A diversidade léxica também foi maior no modelo com fine-tuning.  

### **Sugestões de Melhorias**

* Manter o fine-tuning para otimizar a qualidade da geração de texto.
* Explorar estratégias para otimizar ainda mais o BLEU Score.
* Ajustar conjunto de dados de treinamento e hiperparâmetros para melhorar a coerência e a fluidez do texto gerado.
* Ajustar conjunto de dados de treinamento, aumentar épocas e explorar diferentes técnicas de treinamento para melhorar a compreensão semântica.
* Avaliar e otimizar a diversidade léxica.
* Ajustar hiperparâmetros de geração para controlar o comprimento das respostas.