## Ajuste Fino de um Modelo de IA Generativa para Tarefas de Pergunta e Respostas.

Neste notebook, irei trabalhar com dados extraídos do site oficial da Secretaria de Estado de Desenvolvimento Social de Goiás, com o objetivo de ajustar um modelo pré-treinado para lidar com perguntas e respostas relacionadas aos programas e benefícios oferecidos pela secretária. Para se adequar com a nossa necessidade, o modelo passará por um processo de ajuste fino. Primeiramente, iremos realizar um ajuste fino (Fine Tune, em inglês) total, onde todas as camadas do modelo pré-treinado serão modificadas, e depois apresentaremos o método PEFT (Ajuste Fino Eficiente de Parâmetros) que gasta menos recursos computacionais, e modifica apenas algumas camadas do modelo, conseguindo assim que ele retenha o conhecimento que já tem e evite o esquecimento catastrófico. Ao final, avaliaremos a precisão dos  dois modelos ajustados e determinaremos sua adequação para as tarefas definidas.

##### Baixando bibliotecas necessárias:

- transformers : A bibilioteca Transformers pode ser entendida como uma ferramenta poderosa para trabalhar com Processamento de Linguagem Natural 
- Datasets :  A biblioteca Datasets, também desenvolvida pela Hugging Face, é uma coleção de conjuntos de dados prontos para uso em uma variedade de tarefas de processamento de linguagem natural (PLN) e aprendizado de máquina (ML).
- Evaluate: Com essa biblioteca você ganha acesso a dezenas de métodos de avaliação para diferentes modelos, o que fdacilita a acilita a avaliação de modelos de machine learning e datasets.


In [1]:
#baixando arquivos necessários

!pip install transformers datasets evaluate



In [2]:
#importando as funções importantes para o fione-tune
from transformers import AutoTokenizer, pipeline, AutoModelForPreTraining, Trainer, TrainingArguments, DataCollatorForLanguageModeling
from datasets import load_dataset

##### Preparando os dados

Quando vamos realizar um Fine-Tune, antes de qualquer coisa, precisamos preparar os dados que serão utilizados para realizar o ajuste do modelo.

Os dados utilizados neste algoritmo foram criados com base nos beneficios oferecidos pela Secretaria de Estado de Desemvolvimento Social de Goiás. Essas informações podem ser consultadas neste [link]("https://goias.gov.br/social/#").

O arquivo na extensão .json que foi utilizado está disponivel para download neste [link]().

Extrai as informações do arquivo e atribui á um dicionario, onde será convertido para um dataset que será dividido em uma parte para treino e outra para teste.

Etiquetei cada prompt com o nome do programa correspondente para melhorar a identificação do programa que se refere cada pergunta

In [48]:
import json

dataset_por_programa = {}

# Carregar o arquivo JSON
with open('relacionados3.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

# Percorrer cada programa no arquivo JSON
for programa, lista_perguntas_respostas in data.items():
    # Criar uma entrada para o programa no dicionário
    dataset_por_programa[programa] = []
    # Percorrer cada item (dicionário) etiquetar lista de prompts e completions
    for item in lista_perguntas_respostas:
        dataset_por_programa[programa].append({'prompt': f"{programa} : {item['prompt']}", 'completion': item['completion']})


In [49]:
print(dataset_por_programa)

{'Programa de Água e Energia': [{'prompt': 'Programa de Água e Energia : Pode explicar o que é o Programa de Água e Energia?', 'completion': ['É um programa destinado a auxiliar no pagamento das tarifas de energia elétrica, água tratada e coleta de esgotamento sanitário.', 'Trata-se de um auxílio voltado para custear as despesas com energia elétrica, água tratada e coleta de esgoto.', 'Consiste em um suporte financeiro direcionado para ajudar nos gastos relacionados à energia elétrica, água tratada e coleta de esgoto.', 'O Auxílio destina-se a subsidiar as despesas com energia elétrica, água tratada e coleta de esgoto sanitário.', 'Este programa tem como objetivo oferecer assistência financeira para despesas como energia elétrica, água tratada e coleta de esgoto.', 'Trata-se de um suporte financeiro destinado especificamente para custear as tarifas de energia elétrica, água tratada e coleta de esgoto.', 'O Auxílio visa auxiliar os cidadãos no pagamento das contas de energia elétrica, á

Neste código, estamos iterando sobre o dicionário e extraindo as perguntas e respostas para cada programa. Em seguida, estruturamos essas perguntas e respostas em pares e os adicionamos à lista perguntas_respostas.

In [50]:
perguntas_respostas = []

for programa, lista_perguntas in dataset_por_programa.items():
    for pergunta_resposta in lista_perguntas:
        pergunta = pergunta_resposta["prompt"]
        respostas = pergunta_resposta["completion"]
        for resposta in respostas:
            # Adiciona o par pergunta-resposta à lista
            perguntas_respostas.append((pergunta, resposta))

print(perguntas_respostas[:5])  # Exibe os primeiros 5 pares pergunta-resposta

[('Programa de Água e Energia : Pode explicar o que é o Programa de Água e Energia?', 'É um programa destinado a auxiliar no pagamento das tarifas de energia elétrica, água tratada e coleta de esgotamento sanitário.'), ('Programa de Água e Energia : Pode explicar o que é o Programa de Água e Energia?', 'Trata-se de um auxílio voltado para custear as despesas com energia elétrica, água tratada e coleta de esgoto.'), ('Programa de Água e Energia : Pode explicar o que é o Programa de Água e Energia?', 'Consiste em um suporte financeiro direcionado para ajudar nos gastos relacionados à energia elétrica, água tratada e coleta de esgoto.'), ('Programa de Água e Energia : Pode explicar o que é o Programa de Água e Energia?', 'O Auxílio destina-se a subsidiar as despesas com energia elétrica, água tratada e coleta de esgoto sanitário.'), ('Programa de Água e Energia : Pode explicar o que é o Programa de Água e Energia?', 'Este programa tem como objetivo oferecer assistência financeira para des

### Testando fazer com um arquivo .csv

In [51]:
!pip install pandas
import pandas as pd

df = pd.DataFrame(perguntas_respostas, columns=['pergunta', 'resposta'])



In [52]:
df.to_csv("dataset.csv", index=False)

In [53]:
dataset = load_dataset("csv", data_files = 'dataset.csv')

Generating train split: 0 examples [00:00, ? examples/s]

  return pd.read_csv(xopen(filepath_or_buffer, "rb", download_config=download_config), **kwargs)


In [54]:
dataset

DatasetDict({
    train: Dataset({
        features: ['pergunta', 'resposta'],
        num_rows: 2651
    })
})