<a href="https://colab.research.google.com/github/HamiltonLROliveira/ciencia_dados_puc_rj/blob/main/mvp_finetuning_llm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP da disciplina Machine Learning & Analytics
# Hamilton Luiz Rodrigues de Oliveira

# Descrição do Problema

O projeto surgiu da real necessidade de ter de extrair informações em documentos sigilosos descritos em texto livre para realização das atividades de um órgão público federal. Entre as informações passíveis de extração estão: pessoas jurídicas, pessoas físicas, país, estado, cidade, além de informações inerentes ao texto, como assunto de que trata e elaboração de um resumo.


# Solução Proposta

A solução proposta consiste na utilização de um modelo de inteligência artificial, Large Language Model(LLM), para a extração das informações desejadas.

Considerando que as informações devem ser extraídas de documentos sigilosos foi descartada a possibilidade de utilização de solução de llm fornecida por terceiros, como ChatGPT, por exemplo, uma vez que seria necessária a realização de upload no ambiente dos respectivos fornecedores.

Propos-se então a realização de fine tuning numa LLM, pré-treinada, para a extração das informações. Esta tem sido uma prática recorrente na indústria e na academia, qual seja, a adaptação de llms menores para realizar atividades específicas. Tal abordagem torna possível que organizações que não disponham de vultosos recursos financeiros e computacionais possam treinar seus próprios modelos, reduzindo, assim, sua dependência tecnológica dos grandes fornecedores. A título de comparação, a llm utilizada neste projeto possui 7 bilhões de parâmetros, ao passo que o ChatGPT possui mais de 175 bilhões de parâmetros.


# Geração do Dataset

Em virutde da ausência de dados rotulados para a realização do treinamento, foi utilizado o ChatGPT para a geração do dataset que será submetido à llm. Os textos são provenientes de um banco de dados de notícias de diversos veículos de comunicação, em lingua portuguesa, alimentado a partir de um processo diário de webscraping, o qual está fora do escopo deste projeto. Considerando que as notícias são de domínio público não há, portanto, restrições para utilização do ChatGPT para a tarefa de geração do dataset. Desta forma, utilizaremos os dados extraídos pelo ChatGPT como refência para a avaliação da qualidade da extração da llm.


As informações extraídas dos textos de notícias, por meio do ChatGPT, foram:

  1. Resumo: Um breve resumo do texto;
  2. Transacao_comercial (S/N): O texto trata de transação comercial?
  3. Atividade_ilegal (S/N): O texto trata de atididade ilegal?
  4. Mensagem_positiva (S/N): A mensagem do texto é positiva ou negativa?
  5. Link_publicacao: Apresenta o link de publicação do veículo de comunicação;
  6. Paises: A lista de países presentes no texto;
  7. Estados: A lista de estados presentes no texto;
  8. Cidades: A lista de cidades presentes no texto;
  9. Pessoas juridicas:

    9.1 A lista de pessoas juridicas presentes no texto;

    9.2 Um resumo do que o texto descreve de cada pessoa jurídica;

    9.3 O tipo de cada pessoa jurídica, empresa, órgão público, etc
    
  10. Pessoas físicas:

    10.1 A lista de pessoas físicas presentes no texto;
    
    10.1 Um resumo do que o texto descreve de cada pessoa física

Conforme descrito a seguir, foram desenvolvidos três prompts para a obtenção dos dados:\
  1. pessoas jurídicas;\
  2. pessoas físicas; e\
  3. Metadados do texto.



In [None]:
prompt_pessoa_juridica = f"""

    Pessoa jurídica é uma construção legal que permite a grupos de pessoas, sejam elas físicas ou outras entidades, atuar como uma única entidade, com direitos e obrigações próprias.
    Este conceito é fundamental no mundo dos negócios e do direito, pois fornece um meio para que organizações funcionem de maneira eficaz e sejam responsabilizadas.
    As características chave de uma pessoa jurídica incluem: Criação Legal e Reconhecimento: Uma pessoa jurídica é criada através de processos legais e
    reconhecida pelas leis de um país ou jurisdição. Este processo varia dependendo da forma e do propósito da organização, podendo incluir a inscrição em um registro oficial,
    a emissão de um estatuto social, entre outros.

    Capacidade para Exercer Direitos e Obrigações: Uma vez criada, a pessoa jurídica tem a capacidade de exercer direitos e assumir obrigações.
    Isso significa que ela pode possuir propriedades, contratar funcionários, entrar em contratos, tomar empréstimos, e realizar outras atividades comerciais como qualquer indivíduo.

    Responsabilidade Legal Separada: Uma característica importante da pessoa jurídica é a separação entre a entidade e seus membros ou acionistas.
    Isso significa que os membros da pessoa jurídica geralmente não são pessoalmente responsáveis pelas dívidas ou obrigações legais da entidade.
    Esta separação protege os ativos pessoais dos indivíduos em caso de problemas legais ou financeiros da entidade.
    Tipos de Pessoas Jurídicas: Existem vários tipos de pessoas jurídicas, cada uma com suas próprias regras e regulamentos. Estes incluem corporações, associações,
    fundações, entidades governamentais e organizações sem fins lucrativos. Cada tipo tem características específicas quanto à estrutura, tributação e governança.

    Tributação: As pessoas jurídicas são geralmente sujeitas a um regime tributário próprio, que pode diferir significativamente da tributação de pessoas físicas.
    As regras tributárias variam de acordo com a jurisdição e o tipo da pessoa jurídica.

    Perpetuidade: Ao contrário das pessoas físicas, uma pessoa jurídica pode continuar a existir independentemente das mudanças em seus membros ou proprietários.
    Isso oferece estabilidade e continuidade nos negócios e nas operações da entidade.

    Em resumo, a pessoa jurídica é uma ferramenta legal essencial para a organização e operação de uma ampla gama de atividades comerciais e não comerciais,
    fornecendo um meio para que as entidades atuem e sejam reconhecidas de forma coletiva perante a lei.

    Em relação aos tipos de pessoas jurídicas, qualifique as como empresas, órgãos públicos, partidos políticos sindicatos/associações, ou outras

    Com base nos conceitos acima, para o texto a seguir, responda a seguinte pergunta:
    Quais são os nomes de pessoas jurídicas mencionadas neste texto de notícia, incluindo nomes de países, organismos internacionais,
    órgãos publicos, empresas comerciais, ministérios, sindicatos ou quaisquer outras entidades.
    Em hipóstese nenhuma capture nomes de pessoas físicas.

    As informações a serem extraídas são o nome da pessoa jurídica e um resumo do que o texto aborda sobre a pessoa jurídica.
    A saída deve ser formatada em JSON com os seguintes campos: Nome, tipo_pessoa, Resumo_referente_a_pessoa.


    ```text```
    """

prompt_pessoa_fisica = f"""

    Pessoa física pode ser conceituada como um ser humano individual. No contexto legal e contábil,
    o termo "pessoa física" é usado para se referir a um indivíduo em contraste a uma "pessoa jurídica",
    que é uma entidade legal, como uma empresa, organização sem fins lucrativos ou governo.
    Pessoas físicas têm identidades únicas, direitos e responsabilidades legais. Elas podem possuir bens, assinar contratos,
    realizar transações financeiras, pagar impostos e participar de atividades sociais e econômicas. No sistema legal,
    as pessoas físicas têm direitos e proteções fundamentais, como liberdade de expressão,
    direito à propriedade e acesso ao devido processo legal em caso de litígios.

    Considerando que pessoas físicas devem ser identificadas individualmente, não descreva na mesma linha mais de uma pessoa física.
    Sendo assim, utilize uma linha de saída para cada pessoa física. Por exemplo, na frase: "João e Maria foram ao supermercado", aparecem duas pessoas físicas,
    João e Maria, deve-se utilizar uma linha para especificar as informações de João e outra linha para especificar as informações de Maria
    ou seja, devem ser descritas individualmente uma linha para cada pessoa física. Reforçando, apenas uma pessoa deve ser descrita por linha.
    Outro exemplo, na frase 'Luíza Benamor e João Leme, analistas da consultoria Tendências, que mantiveram a estimativa de alta de 5,1% para o IPCA no ano'
    Luíza Benamor é uma pessoa física e João Leme é outra pessoa física e devem ser descritos separadamente.
    Retire todos os caracters como acento, til e cedilha, substituindo pelas mesm

    Com base nos conceitos acima, para o texto a seguir, responda a seguinte pergunta:
    Quais são os nomes de pessoas físicas mencionadas neste texto de notícia, excluindo nomes de países, organismos internacionais,
    órgãos publicos, pessoas juridicas, ministérios, sindicatos ou quaisquer outras entidades.
    As informações a serem extraídas são o nome da pessoa física e um resumo do que o texto aborda sobre a pessoa física.

    A saída deve ser formatada em JSON com os seguintes campos: Nome, Resumo_referente_a_pessoa.

    ```text```
    """

prompt_resumo = f"""

    Uma transação comercial é um processo em que ocorre a compra e venda de bens ou serviços entre duas partes, \
    geralmente envolvendo a troca de dinheiro. Essas transações podem ocorrer entre empresas (B2B), entre empresas e consumidores (B2C) \
    ou entre consumidores (C2C). Elas são fundamentais para a economia, pois permitem a transferência de recursos e a geração de receita. \
    As transações comerciais podem ser realizadas de forma presencial, por telefone, online ou por meio de plataformas digitais. \
    Elas envolvem negociação, acordo de preço, entrega do produto ou serviço e pagamento. Além disso, as transações comerciais estão sujeitas a regulamentações legais
    e contratuais para garantir a proteção dos direitos e interesses das partes envolvidas.

    Uma atividade ilegal refere-se a qualquer ação, prática ou comportamento que vá contra as leis, \
    regulamentos e normas estabelecidas pelo ordenamento jurídico brasileiro. Essas atividades são consideradas ilegais \
    porque violam as leis do país e podem resultar em consequências legais, incluindo sanções penais, civis e administrativas, \
    dependendo da natureza da infração e das leis aplicáveis.
    As atividades ilegais no Brasil podem abranger uma ampla gama de comportamentos, como por exemplo: \
    Roubo, Furto, Extorsão, Dano, Apropriação indébita, Estelionato, Receptação, Corrupção, Concussão, \
    Peculato, Prevaricação, Lavagem de dinheiro, Advocacia administrativa, Sonegação fiscal, Crime contra o sistema financeiro, Fraudes em licitações
    Por favor, não transcreva esse texto no resumo mas sim como instruções para elaboração do resumo do texto.

    Com base nos conceitos acima, considere que você é um assistente e deve realizar as tarefas a seguir:

    1 - Fazer um resumo do texto;
    2 - Identificar se o texto trata de transação comercial, com respostas Sim ou Não;
    3 - Informe se o texto trata de atividade ilegal, com respostas Sim ou Não;
    4 - Informe se o texto trás uma mensagem positiva ou negativa, com respostas Sim ou Nâo;
    5 - Extraia o link de publicação que se encontra no texto.

    Os dados de saída devem ser no formato JSON, com os seguintes campos: resumo, transacao_comercial, atividade_ilegal, mensagem_positiva, link_publicacao
    substiuindo os valores True para Sim e False para Não.

    ```text```
    """

Como resultado da aplicação dos prompts ao ChatGPT, foram gerados três arquivos JSON, um para cada chamada à API. No total, foram submetidas 5.196 notícias, que resultou nos resultados descritos a seguir:

In [None]:
#As notícias selecionadas são lidas do arquivo noticias.txt e carregadas no dataframe df_noticias

import pandas as pd
import matplotlib.pyplot as plt
noticias_dir = '/content/drive/MyDrive/data/noticias_processadas/'
df_noticias = pd.read_csv(noticias_dir + 'noticias.txt')
df_noticias['DatPublicacaoMateria'] = pd.to_datetime(df_noticias['DatPublicacaoMateria'])
df_noticias

In [None]:
#Neste gráfico são apresentadas as notícias distribuídas por ano. Pode-se observar que as notícias estão ordenadas por ano, tendo notícias de 2003 a 2024.

df = df_noticias[['DatPublicacaoMateria']]
df_eixos = df.groupby(df['DatPublicacaoMateria'].dt.to_period('Y')).count()
df_eixos.columns = ["Qtde"]
df_eixos.index=df_eixos.index.to_series().astype(str)
anos = df_eixos.index.to_list()
df_eixos = df_eixos.reset_index(drop=True)
df_eixos.insert(0, "Ano", anos)
df_eixos_ordem_qtde = df_eixos.sort_values(["Ano"] , ascending=True)

fig, ax = plt.subplots(figsize = (15,6))
plt.style.use("ggplot")
plt.rc("axes", facecolor="#D3D3D3", grid = True)
plt.rc("grid", color="#FFFFFF")
plt.tight_layout()
plt.bar(df_eixos_ordem_qtde["Ano"], df_eixos_ordem_qtde["Qtde"], color='#6688AA')
ax.bar_label(ax.containers[0])
plt.yscale('log')
plt.title("Quantidade de noticias por ano")
plt.xlabel("Ano")
plt.ylabel("Quantidade de noticias");
plt.show()

In [None]:
#Neste gráfico são apresentadas as notícias distribuídas por ano. Pode-se observar que as notícias estão ordenadas por quantidade de notícias por ano, sendo que 2024 é o ano com maior
#número de notícias, 4.394, e os anos de 2007 e 2012, os anos com menor número de notícias, 01, cada.

df = df_noticias[['DatPublicacaoMateria']]
df_eixos = df.groupby(df['DatPublicacaoMateria'].dt.to_period('Y')).count()
df_eixos.columns = ["Qtde"]
df_eixos.index=df_eixos.index.to_series().astype(str)
anos = df_eixos.index.to_list()
df_eixos = df_eixos.reset_index(drop=True)
df_eixos.insert(0, "Ano", anos)
df_eixos_ordem_qtde = df_eixos.sort_values(["Qtde"] , ascending=False)

fig, ax = plt.subplots(figsize = (15,6))
plt.style.use("ggplot")
plt.rc("axes", facecolor="#D3D3D3", grid = True)
plt.rc("grid", color="#FFFFFF")
plt.tight_layout()
plt.bar(df_eixos_ordem_qtde["Ano"], df_eixos_ordem_qtde["Qtde"], color='#6688AA')
ax.bar_label(ax.containers[0])
plt.yscale('log')
plt.title("Quantidade de noticias por ano")
plt.xlabel("Ano")
plt.ylabel("Quantidade de noticias");
plt.show()

Considerando a complexidade do projeto e o extensão do processo necessário para extração e tratamento de todas as informações desejadas, no contexto deste MVP, abordaremos a extração apenas da pessoas jurídicas citadas no texto, bem como seus respectivos tipos. Deste modo, abordaremos a seguir apenas às informações referentes à captura de pessoas jurídicas, ignorando, portanto, aos demais dados extraídos dos textos.

In [None]:
#Carrega o arquivo com todos os tipos capturados pelo ChatGPT
import pandas as pd
path = '/content/drive/MyDrive/data/noticias_processadas/'
df_tipos_pj = pd.read_csv(path + 'tipo_pj.csv')
df_tipos_pj

In [None]:
#Apresenta o número total diferentes tipos capturados pelo ChatGPT

len(df_tipos_pj['tipo_pessoa'].unique())

Considerando a grande quantidade de diferentes tipos, 763, com um número elevado de inconsistências nos tipos capturados pelo ChaGPT foi necessária a realização de um tratamento de seleção e agregação nos dados capturados de forma a tornar possível a geração do dataset para treinar a llm.

Desta forma, foram identificados e tratados apenas sete tipos iniciais, que são: empresa, órgão público, partido político, associação/entidade de classe e fundação.

Considerando, ainda, a demora no processamento do fine tuning realizado no cluster, dada a grande quantidade de dados, optou-se por mais um refinamento, que consistiu na obtenção das 200 notícias de cada tipo, com maior número de ocorrência de captura de pessoas jurídicas, tendo se obtido um total de 935 notícias, conforme descrito no gráfico à seguir. Esse é o dataset que está sendo utilizado neste MVP.

In [None]:
#Função utilizada para carga do dataset.

import json
def ler_arquivo(path):
    for root, dirs, files in os.walk(path):
        for ff in files:
            if ff.lower().endswith(".json"):
                yield os.path.join(root, ff)

In [None]:
#Variável que define a quantidade de exemplos que serão utilizados para treinamento. O dataset tem um número máximo de 935exemplos, o que demanda aproximadamente 11m, rodando na placa GPU A100.
#Ela é utilizada na chamada da função ler_arquivo() que carrega o dataset da pasta: '/content/drive/MyDrive/data/ds_llm2gov_input'
#Para poder testar todo o ciclo do fine tuning pode-se definir um valor baixo para teste, como 10 exemplos, o que permite a execução de todo o processo em poucos minutos.

num_exemplos = 935

In [None]:
#Chamada da função que lê os arquivos do diretório e carrega na memória utilizando a lib datasets, do Hugginface
#Embaralhar a amostra de treino e guardar na pasta

import os
ds_path = '/content/drive/MyDrive/data/ds_llm2gov_input/'
conteudos = []
for arquivo in list(ler_arquivo(ds_path))[:num_exemplos]:
    with open(arquivo, 'r') as f:
        conteudos.append(json.load(f))

df_ner = pd.DataFrame(conteudos)

In [None]:
df_ner

Percebeu-se, no entanto, que utilizar todos esses dados para a realização do fine tuning na llm não seria uma tarefa trivial, motivo pelo qual decidiu-se pela realização primeiramente da captura de pessoas jurídicas, para então prosseguir com a extração dos demais dados capturados na interação com o ChatGPT. Diante dessa limitação, este MVP trata apenas da caputura de pessoas jurídicas e seus respectivos tipos.

In [None]:
#Adiante, é apresentado um detalhamento dos dados que será utilizados no fine tuning.

print(df_ner['texto'][0]) #Texto da notícia na primeira posição do dataframe

In [None]:
#As pessoas jurídicas capturadas nessa notícia foram: TRIBUNAL DE CONTAS DA UNIAO, MINISTERIO DA GESTAO E INOVACAO EM SERVICOS PUBLICOS, BANCO DO BRASIL, CAIXA ECONOMICA FEDERAL, CORREIOS,
#CODEVASF e PETROBRAS, conforme se observa a seguir.
#Observa-se que o Banco Nacional de Desenvolvimento Econômico e Social (BNDES), embora conste do texto, não foi capturado pelo ChatGPT, configurando numa inconsistência.

df_ner['pessoas_juridicas'][0]

In [None]:
#Construção e apresentação do gráfico com os cinco tipos de pessoas jurídicas selecionados para a realização do fine tuning.

tipo_pessoa_ls = []
for index, row in df_ner.iterrows():
  #print(row['pessoas_juridicas'])
  for item in row['pessoas_juridicas']:
    if item['TP_PESSOA'] not in ['PAIS', 'CIDADE','ESTADO']:
      #print(item['TP_PESSOA'])
      tipo_pessoa_ls.append(item['TP_PESSOA'])

df_tp = pd.DataFrame({'Tipo':tipo_pessoa_ls})
df_tp

df_eixos =  df_tp.groupby(['Tipo']).size().to_frame()
df_eixos.columns = ["Qtde"]
tipos = df_eixos.index.to_list()
df_eixos = df_eixos.reset_index(drop=True)
df_eixos.insert(0, "TP_Pessoas", tipos)
df_eixos_ordem_qtde = df_eixos.sort_values(["Qtde"] , ascending=True)

fig, ax = plt.subplots(figsize = (12,4))
plt.style.use("ggplot")
plt.rc("axes", facecolor="#D3D3D3", grid = True)
plt.rc("grid", color="#FFFFFF")
plt.tight_layout()
plt.barh(df_eixos_ordem_qtde["TP_Pessoas"], df_eixos_ordem_qtde["Qtde"], color='#6688AA')
ax.bar_label(ax.containers[0])
plt.xscale('log')
plt.title("Tipos de pessoas jurídicas")
plt.ylabel("Tipos")
plt.xlabel("Quantidade");
plt.show()

In [None]:
#Transforma o dataframe utilizando a biblioteca Datasets, do Hugginface.
!pip install datasets

In [None]:
import datasets
ds_ner = datasets.Dataset.from_pandas(df_ner)

In [None]:
ds_ner

In [None]:
########################################
# bibliotecas
########################################
!pip install -q accelerate transformers evaluate peft trl sentencepiece bitsandbytes flash-attn torch

In [None]:
########################################
# imports
########################################
import gc
import json
import pdb
import os
import random
import re
import sys
import traceback
import warnings

from pathlib import Path
from pprint import pprint

import accelerate
import bitsandbytes
from datasets import load_dataset

import evaluate
import flash_attn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import torch
import tqdm
import transformers
import trl


from peft import get_peft_model
from peft import LoraConfig
from peft import PeftConfig
from peft import PeftModelForCausalLM
from peft import prepare_model_for_kbit_training
from transformers import AutoModelForCausalLM
from transformers import AutoTokenizer
from transformers import BitsAndBytesConfig
from transformers import DataCollatorForLanguageModeling
from transformers import default_data_collator
from transformers import GenerationConfig
from transformers import pipeline
from transformers import Trainer
from transformers import TrainingArguments
from transformers import StoppingCriteria
from transformers import StoppingCriteriaList
from trl import SFTTrainer
from trl import DataCollatorForCompletionOnlyLM
import datetime

In [None]:
########################################
# config
########################################
SEED = 42
random.seed(SEED)
np.random.seed(SEED)
transformers.set_seed(SEED)

print('torch', torch.__version__)
print('transformers', transformers.__version__)
print('datasets', datasets.__version__)
print('evaluate', evaluate.__version__)
print('bitsandbytes', bitsandbytes.__version__)
print('flash_attn', flash_attn.__version__)
print('accelerate', accelerate.__version__)

In [None]:
#Variável utilizada para definir o valor do parâmetro  max_seq_length, da classe SFTTrainer, que será explicada mais à frente. Este parâmetro determina o tamanho da sentença que será utilizada no treinamento.
#A limitação desse parâmetro afeta bastante o resultado final do treinamento, a título de exemplo, executando esse notebook num cluster linux é possível definir o parâmetro em 8000, o que possibilita
#um melhor resultado do modelo após a realização do fine-tuning. Em que pese a limitação do tamanho em virtude da pouca memória disponível, o treinamento do modelo com um valor máximo de 2000
#já permite obter uma melhora do modelo na caputura das entidades, conforme será demonstrado ao longo da aplicação.
#Utilizada em conjunto com FINETUNING_PATH define onde o modelo tunado será armazenado

#Definindo 100 tokens consome no máximo 7.8GB - Executa em 20 minutos numa Placa T4 que possui GPU com 15GB. O teste de inferência já não funciona numa T4 pois consome mais que 15GB de RAM do sistema
#Definindo 256 tokens consome no máximo 10GB - Executa em 20 minutos numa Placa T4 que possui GPU com 15GB. O teste de inferência já não funciona numa T4 pois consome mais que 15GB de RAM do sistema
#Definindo 2048 tokens-consome no máximo 35GB  - Executa em 10 minutos numa Placa A100 que possui GPU com 40GB - Inferência funciona sem problemas, consome alguns poucos minutos

SENTENCE_MAX_LENGTH = 256

In [None]:
#Foi aplicado um fine tuning no odelo original fernandosola/bluearara-7B?
#Variável que define o modelo base que será utilizado para o fine tuning disponível na plataforma Hugginface. A biblioteca dataset, do Hugginface procura na plataforma de acordo com o nome para realizar
#o upload, mas também funciona com cache. Ou seja, se o modelo já estiver downloaded, ela utiliza o modelo que já está salvo, ao invés de realizar o download. Essa é a opção que estamos utilizando e a variável
#que define o diretório do modelo downloaded é HF_CACHE_DIR, que será descrita adiante.

BASE_MODEL = 'fernandosola/bluearara-7B-instruct'
#BASE_MODEL = '/content/drive/MyDrive/data/Llm2GovBR-Mistral-v0.1-7B-Instruct-sharded-500M-plus-pad'

In [None]:
#Define o diretório onde será gravado o modelo resultado do fine-tuning. Considerando a possibilidade de ocorrência de problemas no ambiente no momento da execução pelos professores estou deixando um modelo tunado
#no diretório /content/drive/MyDrive/data/model/mistral2govbr_ner' gerado com o parâmetro max_seq_lengthe fixado em 2000.
#O modelo novo que será gerado na execução realizada pelos professor vai ser gravado no diretório com o sufixo '_novo'

FINETUNING_PATH = f'/content/drive/MyDrive/data/model/mistral2govbr_ner_' + str(SENTENCE_MAX_LENGTH) + '/'

In [None]:
#Variável que define a pasta cache do Hugginface

HF_CACHE_DIR = '/content/drive/MyDrive/data/hfcache/models/'

In [None]:
#Chamada da função que lê os arquivos do diretório e carrega na memória utilizando a lib datasets, do Hugginface
#Embaralhar a amostra de treino e guardar na pasta

conteudos = []
for arquivo in list(ler_arquivo(ds_path))[:num_exemplos]:
    with open(arquivo, 'r') as f:
        conteudos.append(json.load(f))

ds_ner = pd.DataFrame(conteudos)
ds_ner = datasets.Dataset.from_pandas(ds_ner)

# Tokenizer

A partir desse ponto iniciam-se efetivamente os procedimentos para a realização do fine tuning do modelo. O modelo que será utilizado como base é o modelo bluearara-7B-instruct, disponível também na plataforma Hugginface. Vale ressaltar que o bluearara-7B-instruct é resultado de um fine tuning no modelo bluearara-7B, com um dataset com aproximadamente 34 mil instruções, de modo que o modelo reusultante tivesse mais facilidade para realizar tarefas atráves de instruções.

In [None]:
#A classe AutoTokenizer é uma classe genérica que retorna o tokenizador do modelo pré-treinado 'fernandosola/bluearara-7B-instruct' passado como parâmetro, em BASE_MODEL

tokenizer = AutoTokenizer.from_pretrained(

    #modelo base pré-treinado, fernandosola/bluearara-7B-instruct
    BASE_MODEL,

    #Indica se deve ser carregada a versão rápida do tokenizador(True) ou se deve ser utilizada a versão em Python(False)
    use_fast=False,

    #token que permite acessar o modelo
    token='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'
)

In [None]:
if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '<PAD>'})
tokenizer.padding_side = 'right'

In [None]:
#Chamada ao tokenizador instanciado

tokenizer.tokenize("teste")

In [None]:
#Adição do token especial

if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '<PAD>'})
tokenizer.padding_side = 'right'

In [None]:
# gc.collect()
# torch.cuda.empty_cache()

In [None]:
#Carga do modelo base fernandosola/bluearara-7B-instruct que será utilizado no fine tuning

model = AutoModelForCausalLM.from_pretrained(  #Classe da biblioteca Transformers que instancia o modelo descrito em BASE_MODEL

  #modelo base pré-treinado, fernandosola/bluearara-7B-instruct
  BASE_MODEL,

  #Quantização é uma técnica que permite a redução dos custos computacionais e de memória por meio da redução da precisão dos pesos.
  quantization_config=BitsAndBytesConfig(

        #Configura a quantização para 4 bits
        load_in_4bit=True,

        #Habilita a quantização aninhada
        bnb_4bit_use_double_quant=True,

        #Define o tipo de dado da quantização para nf4
        bnb_4bit_quant_type="nf4",
    ),

    #Possibilita o treinamento distribuído do modelo
    device_map="auto",

    #Permite ou não a carga de modelos customizados
    trust_remote_code=False,

    #Diretório utilizado como cache dos arquivos de vocabulário do tokenizador
    cache_dir=HF_CACHE_DIR,

    #Força ou não o download dos arquivos de vocabulário sobrescrevendo os arquivos existentes
    force_download=False,

    #Deleta ou não arquivos incompletos
    resume_download=True,

    #token para acesso ao modelo na plataforma Hugginface
    token='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',
)


In [None]:
#Variável que aponta para o modelo base instanciado

model

# Fine tuning

In [None]:
#Adiciona um elemento ao vocabulário do tokenizador por conta do token pad

model.resize_token_embeddings(model.config.vocab_size + 1)
model.config.use_cache = False

In [None]:
#

generation_args = {
    'pad_token_id': tokenizer.pad_token_id,
    'eos_token_id': tokenizer.eos_token_id,
    'bos_token_id': tokenizer.bos_token_id,
    'do_sample': False,
    'num_beams': 1,
    #'temperature': 0,
}


In [None]:
#Pipelines é um método para instanciar modelos para realizar inferência. A realização do teste de inferência no modelo base não tem utilidade para a realização do fine tuning.
#Estou realizando esse procedimento com o intuito de pode comparar a qualidade da resposta do modelo base com a qualidade da resposta do modelo após o fine tuning.

pipe = pipeline(task='conversational', model=model, tokenizer=tokenizer)

In [None]:
#Teste de inferência no modelo base
pergunta = '''\
Identifique e extraia as informações de nomes de pessoas jurídicas mencionadas no texto, incluindo nomes de órgãos publicos, \
empresas, partidos políticos, associações, sindicatos ou quaisquer outras entidades. Não extraia nomes de pessoas físicas.\
O resultado deve ser apresentado em forma de lista de pessas jurídicas conforme o exemplo abaixo:

### Exemplo

Petrobrás é uma empresa. José da Silva é uma pessoa física.

Pessoas Jurídicas: Petrobrás|Empresa

Faça o mesmo para o seguinte texto:

No fervilhante cenário político e econômico do Brasil, onde as decisões do Supremo Tribunal Federal e as políticas do Ministério da Economia \
têm repercussões que ecoam por todo o país, é comum observar figuras proeminentes como Maria Silva, CEO da renomada empresa de tecnologia \
Innovatech, buscando navegar entre os interesses corporativos e as demandas sociais. Enquanto isso, José Santos, um respeitado advogado, \
se destaca por sua atuação na defesa dos direitos individuais em meio às controvérsias jurídicas que frequentemente alcançam os tribunais \
superiores. Nas salas de reuniões, executivos como Ana Oliveira e Carlos Almeida da Vale Energia negociam estratégias de expansão \
e investimentos diante das flutuações do mercado global, enquanto o Ministério da Saúde, liderado pelo Ministro Pedro Lima, enfrenta desafios \
sem precedentes na gestão da saúde pública, especialmente em tempos de crise como a pandemia de COVID-19.
'''

output = pipe([
    {'role': 'user', 'content': pergunta},
], **generation_args)

print(output.messages[-1]['content'])

Conforme descrito acima, a resposta ao teste de inferência do modelo base foi:

Pessoas Jurídicas:

Innovatech|Empresa\
Advogado: José Santos\
Executivos: Ana Oliveira, Carlos Almeida\
Ministério da Saúde: Pedro Lima

O modelo acerta para a empresa Innovatech e erra em todas as demais, capturando pessoas físicas e jurídicas de forma incorreta.

A resposta correta seria:

Pessoas jurídicas:

Supremo Tribunal Federal | Órgão Público\
Ministério da Economia | Órgão público\
Innovatech | Empresa\
Vale Energia | Empresa\
Ministério da Saúde | Órgão público


Após a realização do fine tuning faremos o mesmo teste de inferência no modelo resultante.

In [None]:
#Parameter-Efficient Fine-Tuning (PEFT) permite a adaptação de modelos pré-treinados para aplicações específicas sem que seja necessário ajustar todos os parâmetros do modelo base.
#PEFT faz uso da técnica Low-Rank Adaptation of Large Language Models (LoRA)

peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=['q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj'],
    bias="none",
    task_type="CAUSAL_LM",
)

In [None]:
ta = TrainingArguments(
    report_to="none",
    output_dir=FINETUNING_PATH,
    overwrite_output_dir=True,
    num_train_epochs=1,
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    gradient_accumulation_steps=10,
    bf16=False,
    fp16=True,
    eval_steps=10,
    learning_rate=1e-5,
    weight_decay=0.01,
    evaluation_strategy="steps",
    save_steps=10,
    save_total_limit=3,
    logging_steps=1,
    logging_first_step=True,
    # load_best_model_at_end=False,
    # metric_for_best_model="eval_loss",
    seed=SEED,
)

In [None]:
#Adiciona os tokens especiais [INST] e [/INST]. Veremos mais adiante que estes tokens serão utilizados para delimitar o ponto na sentença onde se localizam a instrução/pergunta
#juntamente com o texto da notícia e o rótulo/resposta do exemplo, que vem a ser as pessoas jurídicas presentes no texto com seus tipos a serem capturados.

instruction_template = tokenizer.encode('[INST]', add_special_tokens=False)
response_template = tokenizer.encode('[/INST]', add_special_tokens=False)

In [None]:
def to_template(x):
    pergunta = f'''\
Identifique e extraia as informações de nomes de pessoas jurídicas mencionadas no texto, incluindo nomes de órgãos publicos, \
empresas, partidos políticos, associações, sindicatos ou quaisquer outras entidades. Não extraia nomes de pessoas físicas.\
O resultado deve ser apresentado em forma de lista de pessas jurídicas conforme o exemplo abaixo:

### Exemplo

Petrobrás é uma empresa. José da Silva é uma pessoa física.

Pessoas Jurídicas: Petrobrás|Empresa

Faça o mesmo para o seguinte texto:

<texto>
{x['texto']}
</texto>
'''

    if not x.get('pessoas_juridicas'):
        x['pessoas_juridicas'] = []

    resposta = f'''\
Pessoas Juridicas: {';'.join(f"{t['Nome']}|{t['TP_PESSOA']}" for t in x['pessoas_juridicas'])}
'''

    messages = [
       {"role": "user", "content": pergunta},
       {"role": "assistant", "content": resposta},
    ]
    return {'text': tokenizer.apply_chat_template(messages, tokenize=False)}


for item in ds_ner:
  try:
      print(to_template(item))
      break
  except:
      print(item)
      to_template(item)
      break

In [None]:
ds = ds_ner.map(to_template)
ds = ds.train_test_split(.01, seed=SEED)

In [None]:
#Com todos os campos  'resumo', 'transacao_comercial', 'atividade_ilegal', ....
ds

In [None]:
#from huggingface_hub import notebook_login
#notebook_login()

In [None]:
dc = DataCollatorForCompletionOnlyLM(
    response_template=response_template,
    instruction_template=instruction_template,
    tokenizer=tokenizer,
    mlm=False,
)

def preprocess_logits_for_metrics(logits, labels):
    if isinstance(logits, tuple):
        logits = logits[0]
    return logits.argmax(dim=-1)

def compute_metrics(eval_preds):
    preds, labels = eval_preds
    me = {'bleu':0}
    return me

trainer = SFTTrainer(
    model=model,
    args=ta,
    tokenizer=tokenizer,
    train_dataset=ds['train'],
    eval_dataset=ds['test'],
    dataset_text_field='text',
    peft_config=peft_config,
    max_seq_length=SENTENCE_MAX_LENGTH,
    packing=False,
    # preprocess_logits_for_metrics=preprocess_logits_for_metrics,
    # compute_metrics=compute_metrics,
    # data_collator=dc,
)

trainer.train()
trainer.save_model(FINETUNING_PATH)

# del(tokenizer)
# del(model)
# del(trainer)

# gc.collect()
# torch.cuda.empty_cache()

# Testes de Inferência

##Inferência no modelo gerado com 256 tokens

In [None]:
#Variável que define o diretório onde se encontra o modelo já tunado e que será carregado para a realização de testes de inferência. Estou deixando apontando para o modelo que já realizei o texto
#com max_seq_lengthe fixado em 2048.

#Aqui define apenas o diretório onde o modelo para teste de inferência será carregado, 256 ou 2048
SENTENCE_MAX_LENGTH = 100

PEFT_MODEL = f'/content/drive/MyDrive/data/model/mistral2govbr_ner_' + str(SENTENCE_MAX_LENGTH) + '/'

In [None]:
 #Teste de inferência no modelo tunado
print('Carregando o modelo de ' + PEFT_MODEL)

 model = AutoModelForCausalLM.from_pretrained(
     pretrained_model_name_or_path='fernandosola/bluearara-7B-instruct',
     # load_in_4bit=True,
     # quantization_config=BitsAndBytesConfig(
     #     load_in_4bit=True,
     #     bnb_4bit_compute_dtype=torch.float16,
     #     bnb_4bit_use_double_quant=True,
     #     bnb_4bit_quant_type="nf4",
     # ),
     # torch_dtype=torch.bfloat16,
     cache_dir=HF_CACHE_DIR,
     force_download=False,
     resume_download=False,
     token='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'
 )


 tokenizer = AutoTokenizer.from_pretrained(
     PEFT_MODEL,
     use_fast=False,
     cache_dir=HF_CACHE_DIR,
     token='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'
 )


peft_model = PeftModelForCausalLM.from_pretrained(
    model=model,
    model_id=PEFT_MODEL,
    #model_id=PEFT_COMPLETE_MODEL,
    is_trainable=False,
    cache_dir=HF_CACHE_DIR,
    #torch_dtype=torch.bfloat16,
)

gc.collect()
torch.cuda.empty_cache()

In [None]:
peft_model

In [None]:
generation_args = {
    'pad_token_id': tokenizer.pad_token_id,
    'eos_token_id': tokenizer.eos_token_id,
    'bos_token_id': tokenizer.bos_token_id,
    'do_sample': True,
    'num_beams': 1,
    'temperature': 0.25,
}

pipe = pipeline(task='conversational', model=peft_model, tokenizer=tokenizer)

In [None]:
pergunta = '''\
Identifique e extraia as informações de nomes de pessoas jurídicas mencionadas no texto, incluindo nomes de órgãos publicos, \
empresas, partidos políticos, associações, sindicatos ou quaisquer outras entidades. Não extraia nomes de pessoas físicas.\
O resultado deve ser apresentado em forma de lista de pessas jurídicas conforme o exemplo abaixo:

### Exemplo

Petrobrás é uma empresa. José da Silva é uma pessoa física.

Pessoas Jurídicas: Petrobrás|Empresa

Faça o mesmo para o seguinte texto:

No fervilhante cenário político e econômico do Brasil, onde as decisões do Supremo Tribunal Federal e as políticas do Ministério da Economia \
têm repercussões que ecoam por todo o país, é comum observar figuras proeminentes como Maria Silva, CEO da renomada empresa de tecnologia \
Innovatech, buscando navegar entre os interesses corporativos e as demandas sociais. Enquanto isso, José Santos, um respeitado advogado, \
se destaca por sua atuação na defesa dos direitos individuais em meio às controvérsias jurídicas que frequentemente alcançam os tribunais \
superiores. Nas salas de reuniões, executivos como Ana Oliveira e Carlos Almeida da Vale Energia negociam estratégias de expansão \
e investimentos diante das flutuações do mercado global, enquanto o Ministério da Saúde, liderado pelo Ministro Pedro Lima, enfrenta desafios \
sem precedentes na gestão da saúde pública, especialmente em tempos de crise como a pandemia de COVID-19.
'''

output = pipe([
    {'role': 'user', 'content': pergunta},
], **generation_args)

print(output.messages[-1]['content'])

## Inferência no modelo gerado com 2048 tokens

In [None]:
#Variável que define o diretório onde se encontra o modelo já tunado e que será carregado para a realização de testes de inferência. Estou deixando apontando para o modelo que já realizei o texto
#com max_seq_lengthe fixado em 2048.

#Aqui define apenas o diretório onde o modelo para teste de inferência será carregado, 256 ou 2048
SENTENCE_MAX_LENGTH = 2048

PEFT_MODEL = f'/content/drive/MyDrive/data/model/mistral2govbr_ner_' + str(SENTENCE_MAX_LENGTH) + '/'

In [None]:
#Teste de inferência no modelo tunado
print('Carregando o modelo de ' + PEFT_MODEL)

model = AutoModelForCausalLM.from_pretrained(
     pretrained_model_name_or_path='fernandosola/bluearara-7B-instruct',
     # load_in_4bit=True,
     # quantization_config=BitsAndBytesConfig(
     #     load_in_4bit=True,
     #     bnb_4bit_compute_dtype=torch.float16,
     #     bnb_4bit_use_double_quant=True,
     #     bnb_4bit_quant_type="nf4",
     # ),
     # torch_dtype=torch.bfloat16,
     cache_dir=HF_CACHE_DIR,
     force_download=False,
     resume_download=False,
     token='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'
 )


tokenizer = AutoTokenizer.from_pretrained(
     PEFT_MODEL,
     use_fast=False,
     cache_dir=HF_CACHE_DIR,
     token='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'
 )


peft_model = PeftModelForCausalLM.from_pretrained(
    model=model,
    model_id=PEFT_MODEL,
    #model_id=PEFT_COMPLETE_MODEL,
    is_trainable=False,
    cache_dir=HF_CACHE_DIR,
    #torch_dtype=torch.bfloat16,
)

gc.collect()
torch.cuda.empty_cache()

In [None]:
peft_model

In [None]:
generation_args = {
    'pad_token_id': tokenizer.pad_token_id,
    'eos_token_id': tokenizer.eos_token_id,
    'bos_token_id': tokenizer.bos_token_id,
    'do_sample': True,
    'num_beams': 1,
    'temperature': 0.25,
}

pipe = pipeline(task='conversational', model=peft_model, tokenizer=tokenizer)

In [None]:
pergunta = '''\
Identifique e extraia as informações de nomes de pessoas jurídicas mencionadas no texto, incluindo nomes de órgãos publicos, \
empresas, partidos políticos, associações, sindicatos ou quaisquer outras entidades. Não extraia nomes de pessoas físicas.\
O resultado deve ser apresentado em forma de lista de pessas jurídicas conforme o exemplo abaixo:

### Exemplo

Petrobrás é uma empresa. José da Silva é uma pessoa física.

Pessoas Jurídicas: Petrobrás|Empresa

Faça o mesmo para o seguinte texto:

No fervilhante cenário político e econômico do Brasil, onde as decisões do Supremo Tribunal Federal e as políticas do Ministério da Economia \
têm repercussões que ecoam por todo o país, é comum observar figuras proeminentes como Maria Silva, CEO da renomada empresa de tecnologia \
Innovatech, buscando navegar entre os interesses corporativos e as demandas sociais. Enquanto isso, José Santos, um respeitado advogado, \
se destaca por sua atuação na defesa dos direitos individuais em meio às controvérsias jurídicas que frequentemente alcançam os tribunais \
superiores. Nas salas de reuniões, executivos como Ana Oliveira e Carlos Almeida da Vale Energia negociam estratégias de expansão \
e investimentos diante das flutuações do mercado global, enquanto o Ministério da Saúde, liderado pelo Ministro Pedro Lima, enfrenta desafios \
sem precedentes na gestão da saúde pública, especialmente em tempos de crise como a pandemia de COVID-19.
'''

output = pipe([
    {'role': 'user', 'content': pergunta},
], **generation_args)

print(output.messages[-1]['content'])