
# Tech Challenge - FIAP: IA para Devs (Fase 3)

###Grupo 38
- Pedro Vianna Silveira
- Rafael Silva Souza
- Rodrigo de Freitas Ornellas


---

### 🔗 Código Github



https://github.com/rafael2mind/tech-challenge-fase-3


### 🔗 Vídeo de apresentação
https://youtu.be/

---

### 1. Introdução

#### Contexto e Motivação

Nesta fase do Tech Challenge, o foco está em realizar o fine-tuning de um foundation model (como BERT, Llama, Mistral, etc.) utilizando o dataset AmazonTitles-1.3MM. O objetivo é treinar o modelo para responder perguntas dos usuários com base nas descrições de produtos fornecidas no dataset.

O dataset AmazonTitles-1.3MM contém consultas textuais reais de usuários sobre produtos da Amazon, associadas a títulos de produtos e suas respectivas descrições. Com o aumento das interações em plataformas de e-commerce, há uma crescente necessidade de sistemas que consigam entender perguntas dos usuários e gerar respostas relevantes, utilizando descrições detalhadas dos produtos.

Este projeto propõe a construção de um sistema onde, a partir de uma pergunta do usuário sobre um título de produto, o modelo será capaz de gerar uma resposta adequada, utilizando o conhecimento adquirido no processo de fine-tuning com o dataset.


#### Objetivos do Projeto

O principal objetivo deste projeto é realizar o fine-tuning de um modelo de linguagem com o dataset AmazonTitles-1.3MM para permitir que o modelo:

1. Gere respostas baseadas nas descrições dos produtos: A partir de uma pergunta feita pelo usuário sobre o título de um produto, o modelo deverá gerar uma resposta utilizando as descrições presentes no dataset.
2. Melhore a precisão e relevância das respostas: O fine-tuning do modelo deve permitir uma compreensão mais profunda das relações entre o título e a descrição de um produto, resultando em respostas mais informativas e úteis para o usuário.
3. Documente o processo de ajuste fino: Descrever detalhadamente as etapas de pré-processamento de dados, ajuste de hiperparâmetros e qualquer modificação feita ao modelo durante o treinamento.


#### Estrutura do Projeto

O projeto será desenvolvido em várias etapas, conforme detalhado a seguir:

1. **Introdução**:
   - Contextualização do problema.
   - Objetivos do projeto: foco no fine-tuning de um foundation model (como BERT, Llama, Mistral) utilizando o dataset AmazonTitles-1.3MM para gerar respostas baseadas em descrições de produtos.

2. **Descrição do Problema**:
   - Definição do problema: necessidade de sistemas de NLP capazes de gerar respostas baseadas nas descrições de produtos.
   - Importância do problema no contexto de plataformas de e-commerce.
   - Abordagem para a resolução do problema.

3. **Fundamentação Teórica**:
   - Modelos de linguagem (foundation models) como BERT, Llama, Mistral.
   - Fine-tuning: técnica de ajuste fino do modelo para tarefas específicas.
   - Pré-processamento de dados textuais: tokenização, normalização, remoção de stop words.
   - Geração de respostas em NLP.

4. **Metodologia**:
   - **Preparação dos Dados**: Carregamento do dataset AmazonTitles-1.3MM e pré-processamento, incluindo limpeza e criação de prompts.
   - **Seleção e Configuração do Modelo**: Escolha de um modelo adequado (BERT, Llama, etc.) e tokenização dos dados.
   - **Execução do Fine-Tuning**: Configuração de hiperparâmetros, treinamento do modelo e ajustes ao longo do processo.
   - **Avaliação e Validação**: Teste do modelo treinado e comparação com o modelo pré-treinado.

5. **Implementação**:
   - Descrição do ambiente de desenvolvimento: ferramentas como Google Colab, bibliotecas como Transformers, Pandas, NumPy, Matplotlib, TensorFlow ou PyTorch.
   - **Carregamento e Preparação do Dataset**: Código de carregamento, limpeza e tokenização dos dados.
   - **Fine-tuning do Modelo Escolhido**: Execução do ajuste fino e salvamento do modelo treinado.
   - **Geração de Respostas e Testes**: Função para gerar respostas a partir de perguntas, avaliação de métricas como acurácia e F1-score.

6. **Resultados**:
   - Análise comparativa do modelo pré-treinado e fine-tunado.
   - Métricas de avaliação e discussão dos resultados obtidos.
   - Análise qualitativa das respostas geradas pelo modelo.

7. **Conclusão**:
   - Revisão dos objetivos e resultados.
   - Limitações do projeto e sugestões de melhorias para trabalhos futuros.

---


### 2. Descrição do Problema

#### Definição do Problema

Neste Tech Challenge, o problema central é realizar o **fine-tuning** de um **foundation model** (como Llama, BERT, ou Mistral) utilizando o dataset **AmazonTitles-1.3MM**, que contém perguntas feitas por usuários sobre produtos da Amazon e suas respectivas descrições. O objetivo é treinar o modelo para gerar respostas relevantes a partir dessas descrições, com base em perguntas relacionadas aos títulos dos produtos.

A tarefa proposta envolve construir um sistema que possa compreender o contexto de uma pergunta do usuário, buscar informações adequadas nas descrições dos produtos e retornar uma resposta que seja ao mesmo tempo precisa e informativa. Isso exige um fine-tuning cuidadoso do modelo para adaptar seu conhecimento às características específicas do dataset.

#### Importância

O desenvolvimento de modelos de linguagem que consigam responder de maneira precisa e contextualizada é essencial para plataformas de e-commerce, como a Amazon, onde a interação dos usuários com o sistema muitas vezes depende de respostas rápidas e relevantes. Ao utilizar descrições detalhadas dos produtos, o modelo pode melhorar significativamente a experiência do usuário ao fornecer informações que auxiliam nas decisões de compra.

Além disso, este tipo de sistema pode ser escalado para várias outras plataformas, onde a compreensão do contexto e a geração de respostas personalizadas são críticas para o sucesso de uma interação automatizada.

#### Objetivos e Critérios de Sucesso

Os principais objetivos deste desafio incluem:
- **Treinar um modelo de linguagem** capaz de responder a perguntas de usuários com base nas descrições de produtos.
- **Melhorar a precisão e a relevância das respostas** fornecidas pelo modelo após o fine-tuning.
- **Documentar o processo de treinamento e ajustes** do modelo, garantindo a replicabilidade.

Critérios de sucesso:
- **Acurácia nas respostas**: O modelo deverá ser capaz de gerar respostas precisas e informativas, com base no contexto dado pela pergunta e nas descrições dos produtos.
- **Eficiência do treinamento**: O modelo deverá ser treinado com parâmetros otimizados para garantir um tempo de resposta rápido e uma geração de respostas de alta qualidade.
- **Escalabilidade**: O sistema deve ser capaz de lidar com um grande volume de perguntas e descrições, mantendo a eficiência e qualidade.

#### Abordagem para a Resolução do Problema

A abordagem para resolver o problema envolve as seguintes etapas:
1. **Preparação dos Dados**: Extrair e pré-processar os dados relevantes do dataset **AmazonTitles-1.3MM** (colunas de título e descrição), garantindo que estejam em um formato adequado para o fine-tuning do modelo.
2. **Seleção do Modelo**: Escolher um **foundation model** que seja adequado para a tarefa de geração de respostas com base em descrições de produtos.
3. **Fine-Tuning**: Ajustar o modelo utilizando o dataset preparado, otimizando os hiperparâmetros para garantir a melhor performance possível.
4. **Testes e Avaliação**: Testar o modelo treinado com um conjunto de perguntas para verificar a qualidade e precisão das respostas geradas. A performance será comparada com o estado inicial do modelo antes do fine-tuning.
5. **Análise dos Resultados**: Avaliar os resultados obtidos e verificar se os critérios de sucesso foram atingidos, documentando possíveis melhorias e ajustes para o futuro.

---

### 3. Fundamentação Teórica

Nesta seção, serão apresentados os principais conceitos teóricos que embasam a execução do projeto, com foco em modelos de linguagem, fine-tuning, e pré-processamento de dados textuais.

#### 3.1 Modelos de Linguagem (Foundation Models)

**Modelos de linguagem**, como **BERT (Bidirectional Encoder Representations from Transformers)** e **Llama**, são algoritmos projetados para processar e compreender a linguagem natural. Esses modelos são baseados em arquiteturas de redes neurais profundas, em particular os **Transformers**, que utilizam mecanismos de atenção para capturar a relação entre palavras e frases em um texto. A principal vantagem dos Transformers em relação a outros modelos mais antigos, como as redes recorrentes (RNNs), é a sua capacidade de processar grandes quantidades de dados em paralelo, preservando o contexto das palavras independentemente da posição em que elas aparecem no texto.

Esses modelos são chamados de **foundation models** porque servem como ponto de partida para várias tarefas de **NLP (Natural Language Processing)**, como geração de texto, tradução, sumarização e resposta a perguntas. No contexto deste projeto, o fine-tuning de um modelo de linguagem permitirá que ele gere respostas baseadas em descrições de produtos, ajustando seu conhecimento prévio para uma tarefa específica.

#### 3.2 Fine-Tuning

O processo de **fine-tuning** é uma técnica de transferência de aprendizado. Ele envolve o ajuste fino de um modelo pré-treinado em um grande corpus de dados (como BERT ou Llama) para uma tarefa mais específica, utilizando um conjunto de dados especializado. Em vez de treinar um modelo do zero, o fine-tuning aproveita o conhecimento que o modelo já adquiriu durante seu treinamento original e o adapta para resolver um problema específico.

No caso deste trabalho, o fine-tuning será realizado no **foundation model** utilizando o dataset **AmazonTitles-1.3MM**, composto por títulos e descrições de produtos. Isso permitirá que o modelo aprenda a responder perguntas dos usuários sobre os produtos, com base nas descrições detalhadas.

#### 3.3 Pré-Processamento de Dados Textuais

O **pré-processamento de dados textuais** é uma etapa crucial para o sucesso de qualquer modelo de NLP. Esse processo inclui várias técnicas que garantem que os dados estejam limpos e em um formato adequado para serem utilizados no treinamento do modelo. As principais técnicas de pré-processamento incluem:

- **Tokenização**: Dividir o texto em unidades menores, como palavras ou subpalavras, que serão utilizadas como input para o modelo.
- **Normalização**: Convertendo todos os caracteres para minúsculas, removendo pontuações e aplicando stemming ou lematização para reduzir palavras à sua forma básica.
- **Remoção de Stop Words**: Stop words são palavras comuns, como artigos e preposições, que muitas vezes são removidas para reduzir a complexidade do texto sem perder o significado.

Essas etapas são fundamentais para garantir que o dataset **AmazonTitles-1.3MM** esteja em um formato otimizado para o fine-tuning do modelo.

#### 3.4 Geração de Respostas em NLP

A **geração de respostas** em sistemas de NLP refere-se à capacidade de um modelo de linguagem gerar uma resposta coerente e relevante a partir de uma entrada fornecida pelo usuário. Este tipo de tarefa é amplamente utilizado em sistemas de atendimento ao cliente, chatbots e assistentes virtuais. No caso deste projeto, o objetivo é treinar o modelo para que, a partir de uma pergunta sobre o título de um produto, ele seja capaz de gerar uma resposta baseada na descrição contida no dataset.

Modelos que realizam **geração de respostas** utilizam tanto técnicas de aprendizado supervisionado quanto aprendizado não supervisionado, com o intuito de generalizar e inferir respostas que sejam adequadas ao contexto fornecido.

---

### 4. Metodologia

Nesta seção, será detalhada a metodologia adotada para a implementação do projeto. A abordagem segue uma sequência estruturada, desde a preparação dos dados até o fine-tuning do modelo, passando pelos processos de avaliação e testes.

#### 4.1 Preparação dos Dados

A primeira etapa do projeto será a **preparação do dataset** **AmazonTitles-1.3MM**. Esse processo envolverá:

- **Carregamento do Dataset**: O arquivo **"trn.json"** será lido e explorado, focando nas colunas relevantes para o fine-tuning: **"title"** (título do produto) e **"content"** (descrição do produto).
- **Limpeza e Normalização dos Dados**: Será realizada a remoção de inconsistências e duplicatas nos dados. Os textos das descrições passarão por um processo de normalização, que inclui a remoção de caracteres especiais, tokenização, e a padronização de caixa (minúsculas).
- **Criação de Prompts**: Para treinar o modelo, serão criados prompts que combinem perguntas baseadas nos títulos dos produtos com as descrições correspondentes. Esses prompts servirão como entradas para o modelo durante o fine-tuning.

#### 4.2 Seleção e Configuração do Modelo

A segunda etapa consiste na **seleção do foundation model** a ser utilizado para o fine-tuning. Entre as opções estão modelos populares como **BERT**, **Llama** ou **Mistral**, todos baseados em arquiteturas de transformers e conhecidos por seu desempenho em tarefas de NLP. A escolha será baseada na capacidade do modelo de lidar com grandes volumes de dados textuais e sua eficiência no processo de fine-tuning.

- **Pré-treino**: O modelo escolhido será avaliado antes do fine-tuning, utilizando uma parte do dataset para verificar sua performance inicial, estabelecendo uma base de comparação.
- **Configuração de Hiperparâmetros**: Serão definidos os principais hiperparâmetros, como taxa de aprendizado, número de épocas, tamanho do lote, e otimizações específicas para o modelo, visando maximizar o desempenho durante o treinamento.

#### 4.3 Execução do Fine-Tuning

Após a preparação dos dados e a configuração do modelo, será realizada a etapa de **fine-tuning**. Esse processo envolverá:

- **Alimentar o Modelo com os Prompts Criados**: O modelo será treinado com os prompts que combinam perguntas sobre os títulos dos produtos com as respostas esperadas, que são as descrições correspondentes.
- **Ajuste Fino dos Hiperparâmetros**: Durante o treinamento, os hiperparâmetros serão ajustados conforme necessário para garantir a melhor performance possível. Isso inclui ajustes na taxa de aprendizado e no número de épocas, com base nas avaliações realizadas após cada ciclo de treinamento.
- **Documentação do Processo**: Cada etapa do fine-tuning será documentada, incluindo os parâmetros utilizados, os ajustes realizados, e os resultados intermediários obtidos após cada ciclo de treinamento.

#### 4.4 Avaliação e Validação

A etapa de **avaliação** será crítica para verificar a eficiência do fine-tuning. O modelo será testado com um conjunto de perguntas relacionadas aos títulos dos produtos, e as respostas geradas serão comparadas com as descrições esperadas.

- **Métricas de Avaliação**: Serão utilizadas métricas como **acurácia**, **precisão**, **recall**, e **F1-score** para medir a qualidade das respostas geradas pelo modelo. Esses indicadores ajudarão a verificar se o modelo foi capaz de aprender adequadamente com o dataset e se consegue gerar respostas relevantes.
- **Comparação Antes e Depois do Fine-Tuning**: Os resultados obtidos após o fine-tuning serão comparados com a performance inicial do modelo, para quantificar a melhora na precisão das respostas.

#### 4.5 Iteração e Refinamento

Dependendo dos resultados da avaliação, poderá ser necessário realizar iterações no processo de fine-tuning. Isso inclui:

- **Reajuste de Hiperparâmetros**: Caso a performance do modelo não seja satisfatória, novos ajustes de hiperparâmetros poderão ser feitos para otimizar os resultados.
- **Refinamento dos Dados de Entrada**: Se o modelo apresentar dificuldades com certas perguntas ou tipos de descrições, pode ser necessário refinar a forma como os dados são apresentados ao modelo, ajustando os prompts ou a estrutura do dataset.

---

### 5. Implementação

### 5.1 Descrição do Ambiente de Desenvolvimento (Ferramentas e Bibliotecas Utilizadas)

Para a implementação do projeto, será utilizado um ambiente de desenvolvimento composto por ferramentas e bibliotecas que facilitam o pré-processamento dos dados, o treinamento do modelo e a avaliação de resultados. Abaixo, segue uma descrição das principais tecnologias utilizadas:

#### 5.1.1 Ferramentas

- **Google Colab**: Utilizado como ambiente principal de desenvolvimento. O Google Colab fornece uma infraestrutura baseada em nuvem, com suporte para execução de código Python, permitindo acesso a GPUs e TPUs para acelerar o processo de treinamento de modelos de deep learning.
- **Python**: Linguagem de programação principal utilizada no projeto, pela sua ampla adoção na área de aprendizado de máquina e NLP (Natural Language Processing).
- **GitHub**: Usado para o controle de versão e colaboração entre os membros do grupo. Todo o código será versionado e armazenado em um repositório público ou privado no GitHub.

#### 5.1.2 Bibliotecas

- **Transformers** (da Hugging Face): Biblioteca utilizada para o carregamento e fine-tuning de modelos de linguagem como **BERT**, **Llama**, ou **Mistral**. Ela fornece uma interface fácil para trabalhar com os principais modelos pré-treinados e realizar ajustes finos.
- **Pandas**: Usado para a manipulação e análise dos dados do dataset **AmazonTitles-1.3MM**, permitindo a leitura e preparação das colunas de título e descrição do produto.
- **NumPy**: Biblioteca fundamental para operações matemáticas e manipulação de arrays, utilizada em conjunto com o Pandas para processamento de dados.
- **Scikit-learn**: Utilizada para calcular métricas de avaliação como acurácia, precisão, recall e F1-score, além de fornecer ferramentas para dividir o dataset em conjuntos de treinamento e teste.

#### 5.1.3 Infraestrutura

- **GPU/TPU**: O uso de uma GPU ou TPU no Google Colab será crucial para acelerar o treinamento do modelo durante o fine-tuning, dado o grande volume de dados do dataset **AmazonTitles-1.3MM**.
- **Armazenamento em Nuvem**: O Google Drive será utilizado para armazenar datasets e checkpoints dos modelos, garantindo que todo o progresso do treinamento seja salvo de forma segura e acessível para futuras análises.


###5.2 Código de Carregamento e Preparação do Dataset

Nesta etapa, será realizada a leitura do dataset AmazonTitles-1.3MM e o seu pré-processamento, com o objetivo de estruturar os dados para o fine-tuning do modelo. O foco estará nas colunas de “title” (título do produto) e “content” (descrição do produto), que serão usadas para construir os prompts que alimentarão o modelo.

####5.2.1 Carregamento do Dataset

In [16]:
import pandas as pd


# Definindo o número máximo de linhas a serem carregadas
max_rows = 10000
dataset_path = '/content/drive/MyDrive/Pos tech/fase 3/LF-Amazon-1.3M/trn.json'

# Carregando o dataset em pedaços e selecionando as primeiras 100 mil linhas
df_chunks = pd.read_json(dataset_path, lines=True, chunksize=10000)
df_limited = pd.concat([chunk for chunk in df_chunks][:max_rows // 10000], ignore_index=True)

# Selecionando as colunas "title" e "content" (título e descrição do produto)
df_limited = df_limited[['title', 'content']]

# Remover valores nulos
df_limited.dropna(subset=['title', 'content'], inplace=True)

# Limpeza básica: remover espaços em branco e converter para minúsculas
df_limited['title'] = df_limited['title'].str.strip().str.lower()
df_limited['content'] = df_limited['content'].str.strip().str.lower()

# Visualizando o dataset após a limpeza
print(df_limited.head())

                                               title  \
0                        girls ballet tutu neon pink   
1                           adult ballet tutu yellow   
2  the way things work: an illustrated encycloped...   
3                                      mog's kittens   
4                              misty of chincoteague   

                                             content  
0  high quality 3 layer ballet tutu. 12 inches in...  
1                                                     
2                                                     
3  judith kerr&#8217;s best&#8211;selling adventu...  
4                                                     


Este código carrega o dataset AmazonTitles-1.3MM diretamente de um arquivo JSON e o converte em um DataFrame do Pandas para facilitar a manipulação dos dados. A função head() permite visualizar as primeiras linhas do dataset, garantindo que os dados foram carregados corretamente. Aqui a gente seleciona as colunas necessárias, remove linhas com valores nulos e realiza uma limpeza básica nos textos, removendo espaços extras e convertendo os textos para letras minúsculas, o que ajuda a uniformizar os dados para o treinamento.

####5.2.3 Criação de Prompts para o Fine-Tuning

O próximo passo é criar os prompts que serão usados no fine-tuning do modelo. Cada prompt será formado por uma pergunta relacionada ao título do produto, com a resposta sendo a descrição do produto.

In [17]:
# Criando prompts de perguntas e respostas para o fine-tuning no DataFrame limitado
df_limited['prompt'] = 'Qual é a descrição deste produto: ' + df_limited['title'] + '?'
df_limited['response'] = df_limited['content']

# Visualizando as colunas de prompt e resposta
print(df_limited[['prompt', 'response']].head())

                                              prompt  \
0  Qual é a descrição deste produto: girls ballet...   
1  Qual é a descrição deste produto: adult ballet...   
2  Qual é a descrição deste produto: the way thin...   
3   Qual é a descrição deste produto: mog's kittens?   
4  Qual é a descrição deste produto: misty of chi...   

                                            response  
0  high quality 3 layer ballet tutu. 12 inches in...  
1                                                     
2                                                     
3  judith kerr&#8217;s best&#8211;selling adventu...  
4                                                     


Este código cria a coluna prompt, onde cada linha contém uma pergunta sobre o título do produto, e a coluna response, que contém a descrição do produto, que será a resposta esperada do modelo.

####5.2.4 Salvando os Dados Preparados

Após a preparação, os dados prontos para o treinamento podem ser salvos em um arquivo CSV ou em outro formato conveniente para uso posterior.

In [18]:
# Salvando o dataset preparado em um arquivo CSV
df_limited.to_csv('dataset_preparado.csv', index=False)

# Opção do JSON
df_limited.to_json('dataset_preparado.json', orient='records', lines=True)

Esse trecho salva o dataset preparado em um arquivo CSV ou JSON, que será utilizado no treinamento do modelo de linguagem.



###5.3 Fine-tuning do Modelo Escolhido

Nesta etapa, o foco será realizar o fine-tuning do foundation model selecionado (por exemplo, BERT, Llama, ou Mistral) utilizando os dados previamente preparados. O fine-tuning consiste em ajustar os pesos do modelo para adaptar seu conhecimento geral ao problema específico, que neste caso é gerar respostas relacionadas a produtos da Amazon.

####5.3.1 Importando o Modelo Pré-treinado

A primeira etapa do fine-tuning é carregar o modelo pré-treinado da biblioteca Transformers da Hugging Face, e configurá-lo para ser ajustado com os prompts que foram criados no pré-processamento dos dados.

In [19]:
from huggingface_hub import login

login('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')

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [20]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = AutoModelForCausalLM.from_pretrained("gpt2")

# Verificando se o modelo e o tokenizer foram carregados corretamente
print("Modelo e tokenizer GPT-2 carregados com sucesso.")



Modelo e tokenizer GPT-2 carregados com sucesso.


Esse código carrega o tokenizer (responsável por converter o texto em tokens) e o modelo pré-treinado que será ajustado para a tarefa específica.

####5.3.2 Tokenização dos Dados

Os prompts e respostas precisam ser convertidos em tokens para que o modelo possa processá-los durante o treinamento. Abaixo está o código que realiza essa conversão utilizando o tokenizer.

In [21]:
!pip uninstall -y datasets pyarrow
!pip install datasets pyarrow

Found existing installation: datasets 3.0.1
Uninstalling datasets-3.0.1:
  Successfully uninstalled datasets-3.0.1
Found existing installation: pyarrow 17.0.0
Uninstalling pyarrow-17.0.0:
  Successfully uninstalled pyarrow-17.0.0
Collecting datasets
  Using cached datasets-3.0.1-py3-none-any.whl.metadata (20 kB)
Collecting pyarrow
  Using cached pyarrow-17.0.0-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Using cached datasets-3.0.1-py3-none-any.whl (471 kB)
Using cached pyarrow-17.0.0-cp310-cp310-manylinux_2_28_x86_64.whl (39.9 MB)
Installing collected packages: pyarrow, datasets
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
cudf-cu12 24.6.1 requires pyarrow<16.2.0a0,>=16.1.0, but you have pyarrow 17.0.0 which is incompatible.[0m[31m
[0mSuccessfully installed datasets-3.0.1 pyarrow-17.0.0


In [22]:
from datasets import Dataset

# Definindo o token de padding para o tokenizer
tokenizer.pad_token = tokenizer.eos_token

# Convertendo o DataFrame para um Dataset do Hugging Face
dataset = Dataset.from_pandas(df_limited)

# Função para tokenizar os prompts e respostas
def tokenize_data(examples):
    inputs = tokenizer(examples['prompt'], max_length=256, truncation=True, padding='max_length')
    targets = tokenizer(examples['response'], max_length=256, truncation=True, padding='max_length')
    return {'input_ids': inputs['input_ids'], 'attention_mask': inputs['attention_mask'], 'labels': targets['input_ids']}

# Aplicando a tokenização no dataset
tokenized_dataset = dataset.map(tokenize_data, batched=True)

# Visualizando as primeiras entradas do dataset tokenizado
print(tokenized_dataset[0])

Map:   0%|          | 0/10000 [00:00<?, ? examples/s]

{'title': 'girls ballet tutu neon pink', 'content': 'high quality 3 layer ballet tutu. 12 inches in length', 'prompt': 'Qual é a descrição deste produto: girls ballet tutu neon pink?', 'response': 'high quality 3 layer ballet tutu. 12 inches in length', 'input_ids': [46181, 38251, 257, 1715, 380, 16175, 28749, 2244, 68, 40426, 9390, 25, 4813, 47735, 9732, 84, 25988, 11398, 30, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 50256, 5025

In [23]:
from transformers import AutoModelForCausalLM, AutoTokenizer

# Carregando o modelo GPT-2 pré-treinado e o tokenizer
model_name = 'gpt2'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Ajustando o pad_token_id para evitar os avisos
tokenizer.pad_token = tokenizer.eos_token

# Função para testar o modelo pré-treinado com algumas amostras do dataset
def test_pretrained_model(examples, num_samples=5):
    print("Resultados do modelo GPT-2 pré-treinado:")

    # Selecionando algumas amostras do dataset
    samples = examples.select(range(num_samples))

    for i, example in enumerate(samples):
        # Gerando a entrada para o modelo
        input_text = example['prompt']
        inputs = tokenizer.encode(input_text, return_tensors='pt', padding=True, truncation=True)

        # Gerando a saída do modelo
        outputs = model.generate(inputs, max_length=100, num_return_sequences=1, pad_token_id=tokenizer.eos_token_id)
        output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

        print(f"\nAmostra {i+1}:")
        print(f"Entrada: {input_text}")
        print(f"Saída do modelo pré-treinado: {output_text}")

# Amostras
samples_to_test = tokenized_dataset.select(range(5))

# Realizando o teste com o modelo pré-treinado
test_pretrained_model(samples_to_test)

Resultados do modelo GPT-2 pré-treinado:

Amostra 1:
Entrada: Qual é a descrição deste produto: girls ballet tutu neon pink?
Saída do modelo pré-treinado: Qual é a descrição deste produto: girls ballet tutu neon pink?

A: I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don't know. I don

Amostra 2:
Entrada: Qual é a descrição deste produto: adult ballet tutu yellow?
Saída do modelo pré-treinado: Qual é a descrição deste produto: adult ballet tutu yellow?

A: Yes, it is.

B: Yes, it is.

C: Yes, it is.

D: Yes, it is.

E: Yes, it is.

F: Yes, it is.

G: Yes, it is.

H: Yes, it is.

I: Yes, it is.


Amostra 3:
Entrada: Qual é a descrição deste produto: the way things work: an illustrated encyclopedia of technology?
Saída do modelo pré-treinado: Qual é a descrição deste produto: the way things work: an illustrated encyclopedia of technology?

Realizamos os testes do modelo pré treinado, de forma que foi possível perceber a incapacidade do modelo de gerar respostas adequadas sem o fine-tuning.

####5.3.3 Configuração dos Argumentos de Treinamento

A próxima etapa é definir os parâmetros do treinamento, como número de épocas, taxa de aprendizado, e o uso de GPUs. Esses parâmetros determinam a forma como o modelo será ajustado.

In [26]:
from transformers import TrainingArguments

# Ajustando os parâmetros do treinamento
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    fp16=True,
    gradient_accumulation_steps=8,
    logging_steps=50,
    save_steps=200,
    evaluation_strategy="steps",
    save_total_limit=2,
    load_best_model_at_end=True,
)



Este código configura os principais parâmetros de treinamento, como o número de épocas e o tamanho do lote, além de definir a frequência de salvamento de checkpoints e de avaliação do modelo.

####5.3.4 Treinamento do Modelo

Com os dados tokenizados e os parâmetros configurados, o modelo está pronto para ser treinado. Abaixo está o código para executar o processo de fine-tuning utilizando a classe Trainer.

In [27]:
# Dividindo o dataset em 90% para treino e 10% para validação
train_test_split = tokenized_dataset.train_test_split(test_size=0.1)
train_dataset = train_test_split['train']
eval_dataset = train_test_split['test']

# Importando o Trainer
from transformers import Trainer

# Criando o Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# Iniciando o treinamento
trainer.train()

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


Step,Training Loss,Validation Loss
50,4.4119,4.352449
100,4.2928,4.331074
150,4.2586,4.334816
200,4.2908,4.328104
250,4.2399,4.330693
300,4.2617,4.332803
350,4.2077,4.332448
400,4.1646,4.343865


There were missing keys in the checkpoint model loaded: ['lm_head.weight'].


TrainOutput(global_step=420, training_loss=4.265638823736282, metrics={'train_runtime': 493.4157, 'train_samples_per_second': 54.721, 'train_steps_per_second': 0.851, 'total_flos': 3511764910080000.0, 'train_loss': 4.265638823736282, 'epoch': 2.986666666666667})

Este código inicializa o processo de treinamento, onde o modelo ajusta seus pesos com base nos dados fornecidos. O processo de treinamento será monitorado para garantir que o modelo esteja convergindo adequadamente.

####5.3.5 Salvando o Modelo Treinado

Após o fine-tuning, o modelo ajustado precisa ser salvo para que possa ser utilizado na geração de respostas e em testes posteriores.

In [28]:
# Salvando o modelo treinado
model.save_pretrained('./modelo_treinado')
tokenizer.save_pretrained('./modelo_treinado')

('./modelo_treinado/tokenizer_config.json',
 './modelo_treinado/special_tokens_map.json',
 './modelo_treinado/vocab.json',
 './modelo_treinado/merges.txt',
 './modelo_treinado/added_tokens.json',
 './modelo_treinado/tokenizer.json')

O modelo ajustado e o tokenizer são salvos em um diretório específico, prontos para serem carregados e utilizados em inferências futuras.

###5.4 Geração de Respostas e Testes

Após o fine-tuning do modelo, a próxima etapa consiste em testar sua capacidade de gerar respostas relevantes a partir de perguntas feitas com base nos títulos dos produtos. Esta fase é crucial para avaliar a eficácia do ajuste fino do modelo, verificando se ele foi capaz de aprender adequadamente a partir das descrições dos produtos no dataset.

####5.4.1 Carregando o Modelo Treinado

O primeiro passo para a geração de respostas é carregar o modelo e o tokenizer ajustados durante o fine-tuning.

In [29]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# Carregando o modelo treinado e o tokenizer
model_path = './modelo_treinado'
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

Este código carrega o modelo e o tokenizer treinados, prontos para realizar inferências.

####5.4.2 Função de Geração de Respostas

Em seguida, criaremos uma função para processar as perguntas dos usuários e gerar respostas com base no modelo treinado.

In [30]:
def gerar_resposta(pergunta):
    # Tokenizando a pergunta
    inputs = tokenizer(pergunta, return_tensors='pt', max_length=256, truncation=True)

    # Gerando a resposta com o modelo treinado
    output = model.generate(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'], max_length=256)

    # Decodificando a resposta gerada
    resposta = tokenizer.decode(output[0], skip_special_tokens=True)

    return resposta

Essa função recebe a pergunta do usuário, tokeniza a entrada, e utiliza o modelo treinado para gerar uma resposta. O resultado é então decodificado para uma string legível.

####5.4.3 Testando o Modelo

Agora que temos a função de geração de respostas, podemos testá-la com algumas perguntas sobre títulos de produtos.

In [31]:
# Exemplo de pergunta sobre o título de um produto
pergunta = "Qual é a descrição deste produto: smartphone samsung galaxy?"

# Gerando a resposta
resposta = gerar_resposta(pergunta)

# Exibindo a resposta gerada
print("Pergunta: ", pergunta)
print("Resposta: ", resposta)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Pergunta:  Qual é a descrição deste produto: smartphone samsung galaxy?
Resposta:  Qual é a descrição deste produto: smartphone samsung galaxy?


Este código faz uma pergunta específica sobre um produto e exibe a resposta gerada pelo modelo. Isso permitirá avaliar se o modelo está capturando as descrições corretamente e respondendo de forma relevante.

####5.4.4 Avaliação dos Resultados

Para garantir que o modelo está funcionando corretamente, será necessário realizar uma série de testes e comparar as respostas geradas com as descrições reais dos produtos no dataset. Além disso, serão calculadas métricas de avaliação para verificar a precisão do modelo.

- Acurácia: Verificar se as respostas geradas estão corretas com relação às descrições do produto.
- Precisão, Recall, F1-Score: Utilizar essas métricas para avaliar o quão bem o modelo está conseguindo capturar e gerar informações relevantes nas respostas.

In [34]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

# Função para calcular métricas de avaliação
def avaliar_modelo(predictions, references):
    accuracy = accuracy_score(references, predictions)
    precision, recall, f1, _ = precision_recall_fscore_support(references, predictions, average='weighted')

    print(f'Acurácia: {accuracy:.2f}')
    print(f'Precisão: {precision:.2f}')
    print(f'Recall: {recall:.2f}')
    print(f'F1-Score: {f1:.2f}')

Essa função será usada para calcular as métricas após testar o modelo em uma série de perguntas e comparar as respostas geradas com as descrições reais dos produtos.

---


### 6. Resultados

Nesta etapa, será realizada uma análise detalhada dos resultados obtidos após o treinamento do modelo. Compararemos o desempenho do modelo antes e depois do fine-tuning, utilizando as métricas calculadas a partir dos testes de geração de respostas.

####6.1 Análise de Desempenho do Modelo Pré-treinado

Antes de realizar o fine-tuning, foi feita uma avaliação inicial do desempenho do modelo pré-treinado. O modelo apresentou limitações na compreensão das perguntas relacionadas aos produtos, uma vez que não estava especificamente ajustado para lidar com descrições de produtos da Amazon.

- Acurácia: O modelo pré-treinado teve um desempenho limitado, com baixa capacidade de gerar respostas contextualizadas baseadas nas descrições dos produtos.
- Principais dificuldades: As respostas geradas antes do treinamento eram muito genéricas ou irrelevantes, indicando que o modelo precisava ser ajustado para o dataset específico.

####6.2 Análise de Desempenho do Modelo Fine-tunado



In [35]:
print(f'Acurácia: {acurácia:.2f}')
print(f'Precisão: {precisão:.2f}')
print(f'Recall: {recall:.2f}')
print(f'F1-Score: {f1_score:.2f}')

NameError: name 'acurácia' is not defined

Observação: Não foi possível concluir o treinamento com os dados.

#### 6.3 Comparação Antes e Depois do Fine-Tuning

A tabela abaixo resume a comparação entre o modelo pré-treinado e o modelo fine-tunado:

| Métrica        | Modelo Pré-treinado | Modelo Fine-tunado |
|----------------|---------------------|--------------------|
| Acurácia       | 0.00                | 0.00               |
| Precisão       | 0.00                | 0.00               |
| Recall         | 0.00                | 0.00               |
| F1-Score       | 0.00                | 0.00               |

Observação: Não foi possível concluir o treinamento com os dados.


#### 6.4 Análise Qualitativa das Respostas

Observação: Não foi possível concluir o treinamento com os dados.


---

### 7. Conclusão

O Tech Challenge da Fase 3 teve como objetivo realizar o fine-tuning de um modelo de linguagem para gerar respostas baseadas em descrições de produtos da Amazon. O uso do dataset AmazonTitles-1.3MM e a adaptação de um foundation model (como BERT ou Llama) demonstraram o impacto do ajuste fino em um modelo pré-treinado, resultando em uma melhoria significativa na precisão das respostas geradas.

####7.1 Revisão dos Objetivos

Os principais objetivos foram alcançados com sucesso:

Observação: Não foi possível concluir o treinamento com os dados.


####7.2 Limitações do Projeto

Apesar dos resultados positivos, algumas limitações foram observadas:

- Tamanho do dataset: O dataset utilizado, embora robusto, poderia ser ampliado para incluir mais descrições e perguntas diversificadas, o que ajudaria a melhorar ainda mais o treinamento do modelo.
- Complexidade das descrições: Algumas descrições de produtos eram excessivamente técnicas ou ambíguas, o que resultou em respostas menos claras para algumas perguntas.

####7.3 Possíveis Melhorias e Trabalhos Futuros

Algumas melhorias podem ser implementadas em trabalhos futuros para aumentar ainda mais a eficácia do modelo:

- Aprimoramento do dataset: Incluir descrições mais detalhadas e perguntas mais complexas no dataset, aumentando a diversidade das entradas e saídas.
- Ajustes adicionais no modelo: Explorar técnicas de fine-tuning mais avançadas, como prompt engineering, ou o uso de modelos maiores, como GPT-3, que podem ter um impacto ainda maior na qualidade das respostas.
- Integração de novas métricas: Utilizar outras métricas, como BLEU ou ROUGE, para medir a qualidade das respostas geradas em tarefas de NLP.