## Ajuste Fino de um Modelo de IA Generativa para Tarefas de Pergunta e Respostas.

Neste notebook, irei trabalhar com dados extraídos do site oficial da Secretaria de Estado de Desenvolvimento Social de Goiás, com o objetivo de ajustar um modelo pré-treinado para lidar com perguntas e respostas relacionadas aos programas e benefícios oferecidos pela secretária. Para se adequar com a nossa necessidade, o modelo passará por um processo de ajuste fino. Primeiramente, iremos realizar um ajuste fino (Fine Tune, em inglês) total, onde todas as camadas do modelo pré-treinado serão modificadas, e depois apresentaremos o método PEFT (Ajuste Fino Eficiente de Parâmetros) que gasta menos recursos computacionais, e modifica apenas algumas camadas do modelo, conseguindo assim que ele retenha o conhecimento que já tem e evite o esquecimento catastrófico. Ao final, avaliaremos a precisão dos  dois modelos ajustados e determinaremos sua adequação para as tarefas definidas.

##### Baixando bibliotecas necessárias:

- transformers : A bibilioteca Transformers pode ser entendida como uma ferramenta poderosa para trabalhar com Processamento de Linguagem Natural 
- Datasets :  A biblioteca Datasets, também desenvolvida pela Hugging Face, é uma coleção de conjuntos de dados prontos para uso em uma variedade de tarefas de processamento de linguagem natural (PLN) e aprendizado de máquina (ML).
- Evaluate: Com essa biblioteca você ganha acesso a dezenas de métodos de avaliação para diferentes modelos, o que fdacilita a acilita a avaliação de modelos de machine learning e datasets.


In [1]:
#baixando arquivos necessários

!pip install transformers datasets evaluate pandas
!pip install accelerate -U
!pip install transformers[torch]



In [2]:
#importando as funções importantes para o fione-tune
from transformers import AutoTokenizer, pipeline, AutoModelForPreTraining, Trainer, TrainingArguments, DataCollatorForLanguageModeling
from datasets import load_dataset, Dataset
import pandas as pd
import json

##### Escolhendo o modelo
é importante escolher qual modelo pre treinaido você quer escolher.

iremos usar o bloom

In [3]:
#Escolhendo o modelo para realizar 
model_name = "bigscience/bloom-560m"
model = AutoModelForPreTraining.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

##### Preparando os dados

Quando vamos realizar um Fine-Tune, antes de qualquer coisa, precisamos preparar os dados que serão utilizados para realizar o ajuste do modelo.

Os dados utilizados neste algoritmo foram criados com base nos beneficios oferecidos pela Secretaria de Estado de Desenvolvimento Social de Goiás. Essas informações podem ser consultadas neste [link]("https://goias.gov.br/social/#").

O arquivo na extensão .json que foi utilizado está disponivel para download neste [link]().

Extrai as informações do arquivo e atribui á um dicionario

Etiquetei cada prompt com o nome do programa correspondente para melhorar a identificação do programa que se refere cada pergunta

In [4]:
data_file = {"train": "treino.csv", "test":'teste.csv'}
dataSetCompleto = load_dataset("csv", data_files=data_file)

#atribuindo a variavel dados de tewste e de treino

print(dataSetCompleto)

treino = dataSetCompleto['train']
teste = dataSetCompleto['test']

DatasetDict({
    train: Dataset({
        features: ['pergunta', 'resposta'],
        num_rows: 2120
    })
    test: Dataset({
        features: ['pergunta', 'resposta'],
        num_rows: 531
    })
})


In [5]:
print(treino)

Dataset({
    features: ['pergunta', 'resposta'],
    num_rows: 2120
})


In [6]:
#Aqui criamos uma função para facilitar a tokenização

def tokenizar(dados):
    sequencia = dados["pergunta"] + " " + dados["resposta"]
    return tokenizer(sequencia, truncation=True, padding="max_length", max_length=526)

#fale sobre o mecanimo de atenção e sobre usar tokenização conjunta ou não

In [7]:
#Falar do que cada coisa faz --> map
dataset_teste = teste.map(tokenizar)
dataset_treino = treino.map(tokenizar)

In [8]:
print(dataset_teste)

Dataset({
    features: ['pergunta', 'resposta', 'input_ids', 'attention_mask'],
    num_rows: 531
})


In [None]:
print(dataset_teste['pergunta'][0])
print(dataset_teste['input_ids'][0])

In [None]:
x = tokenizer.decode(dataset_teste['input_ids'][0])
print(x)

In [None]:
#configurarndo parametros de treino

training_args = TrainingArguments(
    output_dir='./modeloBloomAjustado',
    evaluation_strategy='epoch',
    save_strategy='epoch',
    num_train_epochs=3,
)

In [None]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset_treino,
    eval_dataset=dataset_teste,
    compute_metrics=compute_metrics,
)

In [None]:
trainer.train()