# Jupyter Notebook: Tech Challenge - Fine-Tuning a Foundation Model

### Este notebook implementa o Tech Challenge da fase, que consiste em realizar o fine-tuning de um modelo foundational (neste caso, BERT) utilizando o dataset "AmazonTitles-1.3MM". O objetivo é treinar o modelo para responder perguntas dos usuários com base nos títulos e descrições de produtos do dataset.

# Bibliotecas Necessárias
### Primeiro, instalamos e importamos as bibliotecas que serão usadas.

In [None]:
!pip install transformers datasets pandas torch

## 1. Escolha e Download do Dataset

In [None]:
import pandas as pd
import json
from datasets import Dataset
from transformers import BertTokenizer, BertForQuestionAnswering, Trainer, TrainingArguments
import torch


# O dataset "AmazonTitles-1.3MM" contém consultas textuais de usuários e títulos/descrições de produtos da Amazon.
# Vamos carregar o arquivo `trn.json` conforme especificado.

# Carregar o arquivo JSON
dataset_path = "LF-Amazon-1.3M/trn.json"  # Substitua pelo caminho correto
with open(dataset_path, 'r', encoding='utf-8') as f:
    data = [json.loads(line) for line in f]

# Converter para DataFrame para facilitar manipulação
df = pd.DataFrame(data)

# Filtrar colunas relevantes: "title" e "content" (descrição)
df = df[['title', 'content']]
print("Amostra do dataset:")
print(df.head())



## 2. Preparação do Dataset

In [None]:
# Vamos limpar os dados e preparar os prompts para o fine-tuning. Para o modelo de Question Answering (QA), 
# precisamos de um formato com contexto (descrição), pergunta e resposta.
# vamos simular perguntas baseadas no título e usar a descrição como contexto.

# Exemplo de função para criar perguntas simuladas
def create_qa_pairs(row):
    question = f"What is the description of the product '{row['title']}'?"
    answer = row['content'][:512]  # Limitar a 512 caracteres para BERT
    return {'question': question, 'context': row['content'], 'answer': answer}

# Aplicar a função ao dataset
qa_data = df.apply(create_qa_pairs, axis=1).tolist()

# Converter para o formato esperado pelo Hugging Face Datasets
qa_dataset = Dataset.from_list(qa_data)
print("Amostra do dataset preparado:")
print(qa_dataset[0])

# Dividir em treino e validação
qa_dataset = qa_dataset.train_test_split(test_size=0.1)

## 3. Chamada do Foundation Model

In [None]:
# Vamos usar o BERT para Question Answering. Primeiro, testamos o modelo pré-treinado antes do fine-tuning.

# Carregar o tokenizador e o modelo
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForQuestionAnswering.from_pretrained('bert-base-uncased')

# Função para tokenizar os dados
def preprocess_function(examples):
    encodings = tokenizer(
        examples['question'],
        examples['context'],
        truncation=True,
        padding='max_length',
        max_length=512,
        return_tensors='pt'
    )
    # Para simplificar, assumimos que a resposta está no início do contexto (ajuste conforme necessário)
    encodings['start_positions'] = [0] * len(examples['answer'])
    encodings['end_positions'] = [min(len(answer.split()), 512) for answer in examples['answer']]
    return encodings

# Aplicar pré-processamento
tokenized_dataset = qa_dataset.map(preprocess_function, batched=True)

# Teste antes do fine-tuning
sample = tokenized_dataset['train'][0]
inputs = {key: torch.tensor(val).unsqueeze(0) for key, val in sample.items() if key in ['input_ids', 'attention_mask', 'token_type_ids']}
outputs = model(**inputs)
print("Exemplo de saída antes do fine-tuning:")
print(tokenizer.decode(outputs.start_logits.argmax().item()), tokenizer.decode(outputs.end_logits.argmax().item()))


## 4. Execução do Fine-Tuning

In [None]:
# Agora, realizamos o fine-tuning do modelo com o dataset preparado.

# Configurar argumentos de treinamento
training_args = TrainingArguments(
    output_dir='./results',
    evaluation_strategy='epoch',
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=10,
)

# Inicializar o Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset['train'],
    eval_dataset=tokenized_dataset['test'],
)

# Treinar o modelo
trainer.train()

# Salvar o modelo treinado
model.save_pretrained('./fine_tuned_bert')
tokenizer.save_pretrained('./fine_tuned_bert')



## 5. Geração de Respostas

In [None]:
# Configuramos o modelo treinado para responder perguntas dos usuários.

# Função para gerar respostas
def generate_answer(question, context):
    inputs = tokenizer(question, context, return_tensors='pt', truncation=True, max_length=512)
    outputs = model(**inputs)
    start_idx = outputs.start_logits.argmax()
    end_idx = outputs.end_logits.argmax()
    answer = tokenizer.decode(inputs['input_ids'][0][start_idx:end_idx+1])
    return answer

# Exemplo de uso
sample_question = "What is the description of the product 'Wireless Mouse'?"
sample_context = df['content'].iloc[0]  # Usar uma descrição do dataset
response = generate_answer(sample_question, sample_context)
print(f"Pergunta: {sample_question}")
print(f"Resposta: {response}")



## Conclusão

In [None]:

# Este notebook detalha o processo de:
# 1. Seleção e preparação do dataset AmazonTitles-1.3MM.
# 2. Fine-tuning do modelo BERT para QA.
# 3. Geração de respostas a partir de perguntas dos usuários.
