## Sobre o Workshop LeanDL-HPC 2025

https://sites.labic.icmc.usp.br/leandl2025/

O LeanDL-HPC 20225 se propõe a explorar e difundir técnicas que permitam **tornar o Deep Learning mais eficiente e escalável no contexto de HPC**, especialmente quando os modelos ultrapassam os recursos típicos dessas infraestruturas. Entre os tópicos em foco estão:

* **Distilação e compressão de modelos**.
* **Quantização**, **pruning**, **cálculos esparços** e **afinamento eficiente de parâmetros**.
* **Otimização de pipelines de inferência** e **deploy consciente de memória/computação**.
* Treinamento e ajuste de LLMs (Modelos de Linguagem de Grande Porte) em sistemas HPC.
* Uso de **arquiteturas leves** como GNNs e CNNs para aplicações científicas.
* Estratégias de **Green AI** e eficiência energética em DL para HPC ([Labic][1]).



## Este Notebook e o Desafio

Este notebook apresenta **detalhes sobre um dataset** preparado especialmente para um **challenge do workshop LeanDL-HPC 2025**.

O uso deste conjunto de dados é **opcional** e voltado a participantes que desejam trabalhar em uma **tarefa específica** proposta pelo evento.

O desafio envolve **mapear uma amostra teses e dissertações de 2023 para temas estratégicos predefinidos de cada UF**, explorando diferentes níveis de aderência (**BAIXA**, **MÉDIA**, **ALTA**) e, quando possível, apresentando justificativas.

Além de servir como recurso de exploração inicial, o notebook pode apoiar na preparação de soluções para submissão no workshop, alinhadas aos objetivos do LeanDL-HPC 2025.


# LEANDL 2025 — Template de Leitura de Dados e Guia do Desafio

Este notebook apresenta:
- A leitura de **dois arquivos Parquet**:
  - `leandl_oesnpg_dicionario.parquet`: **dicionário de dados** contendo a descrição dos campos.
  - `leandl_oesnpg_dados.parquet`: **dados** contendo amostras de **teses e dissertações de 2023**.
- Um **resumo técnico do desafio**.
- Diretrizes e sugestões de **abordagens de baixo custo** (classificação tradicional, BERT, GNNs, e LLMs até 14B).
- Referências para **medir custo computacional** e **pegada de carbono**.
- Observações importantes sobre a **publicidade** das soluções.



## Desafio: Mapeamento de Teses e Dissertações em Temas Estratégicos da UF

O objetivo é **mapear** cada produção acadêmica (tese/dissertação) para **temas estratégicos predefinidos** do seu estado (UF).

**Observações**:
- Uma mesma produção pode estar associada a **mais de um tema** dentro da mesma UF.
- O mapeamento deve considerar **níveis de aderência**: **BAIXA**, **MÉDIA** e **ALTA**.
- A **justificativa do mapeamento** é **relevante** (explica a decisão) e **bem-vinda**, mas **não é obrigatória**.



## Leitura dos Arquivos Parquet

Abaixo, o código para carregar os dois arquivos:
- `leandl_oesnpg_dicionario.parquet` (dicionário de dados);
- `leandl_oesnpg_dados.parquet` (dados principais).


In [1]:
!pip install codecarbon # reiniciar apos instalar este pacote se você estiver em um notebook



In [2]:
import pandas as pd

#baixando os arquivos (instalar o pacote gdown)
# !gdown 12H957uf6mK-1X_ztT9hgFS1slpN2j-Wh
# !gdown 1-QXkqH8HzLcV2JCA4Nm9G5rQhorYKJVe

# Ajuste os caminhos se necessário
path_dict = "leandl_oesnpg_dicionario.parquet"
path_data = "leandl_oesnpg_dados.parquet"

# Leitura usando pandas (requer pyarrow ou fastparquet)
dicionario_df = pd.read_parquet(path_dict)
dados_df = pd.read_parquet(path_data)

print("Dimensões do dicionário:", dicionario_df.shape)
print("Dimensões dos dados:", dados_df.shape)




Dimensões do dicionário: (25, 2)
Dimensões dos dados: (42046, 25)


In [3]:
dicionario_df

Unnamed: 0,campo,descricao
0,hash_id,Identificador único (hash) para a produção aca...
1,tema_id,Identificador numérico único do tema estratégico.
2,tema,Nome do tema estratégico definido por uma Unid...
3,palavras_chave,Lista de palavras-chave associadas ao tema est...
4,uf_tema_info,Unidade da Federação (UF) responsável pela def...
5,uf_pesquisador,Unidade da Federação (UF) da instituição de ví...
6,nome_programa,Nome do programa de pós-graduação ao qual a pr...
7,sigla_entidade_ensino,Sigla oficial da instituição de ensino respons...
8,nome_producao,Título completo da tese ou dissertação.
9,nome_subtipo_producao,"Tipo de produção acadêmica, como tese (doutora..."


In [4]:
dados_df.head()

Unnamed: 0,hash_id,tema_id,tema,palavras_chave,uf_tema_info,uf_pesquisador,nome_programa,sigla_entidade_ensino,nome_producao,nome_subtipo_producao,...,descricao_abstract,descricao_keyword,data_titulacao,nome_grau_academico,nome_grande_area_conhecimento,nome_area_conhecimento,nome_subarea_conhecimento,nome_especialidade,modelo_nivel,modelo_explicacao
0,ce4025a58d1cff3d346e96af2e8f2d0185caeaddd78c1b...,1,Agronegócio e Tecnologias de Informação e Comu...,"[agroindústria, assistência técnica e extensão...",ACRE,ACRE,ENSINO DE CIÊNCIAS E MATEMÁTICA,UFAC,AS TECNOLOGIAS DIGITAIS DA INFORMAÇÃO E COMUNI...,DISSERTAÇÃO,...,"THE RESEARCH, DESCRIBED IN THE PRESENT WORK, I...",INFORMATION AND COMMUNICATION TECHNOLOGIES;COM...,2023-10-18 00:00:00,MESTRADO PROFISSIONAL,MULTIDISCIPLINAR,ENSINO,ENSINO DE CIÊNCIAS E MATEMÁTICA,NÃO SE APLICA,BAIXA,A afinidade entre os dados do pesquisador e o ...
1,55982d77d62446fb9f76ae636c99c36d77d5e233ce4863...,1,Agronegócio e Tecnologias de Informação e Comu...,"[agroindústria, assistência técnica e extensão...",ACRE,ACRE,EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA,IFAC,O CURRÍCULO INTEGRADO DO INSTITUTO FEDERAL DO ...,DISSERTAÇÃO,...,THIS STUDY INVESTIGATED THE CURRICULUM OF INTE...,INTEGRATED SECONDARY EDUCATIO;CURRICULAR ORGAN...,2023-09-29 00:00:00,MESTRADO PROFISSIONAL,MULTIDISCIPLINAR,ENSINO,NÃO SE APLICA,NÃO SE APLICA,MEDIA,A afinidade entre os dados do pesquisador e o ...
2,1f7615b9be49f80d289ba7c99eb64a5f8dc387a23518a6...,3,Biodiversidade e Biotecnologia,"[biodiversidade, bioeconomia, biotecnologia, c...",ACRE,ACRE,CIÊNCIAS DA SAÚDE NA AMAZÔNIA OCIDENTAL,UFAC,TENDÊNCIA TEMPORAL E DISTRIBUIÇÃO ESPACIAL DAS...,DISSERTAÇÃO,...,"THE ANALYZES IN THE BIOMES: AMAZON, CAATINGA, ...",EPIDEMIOLOGY;LEISHMANIA;PRAIS-WINSTEN,2023-03-21 00:00:00,MESTRADO,CIÊNCIAS DA SAÚDE,MEDICINA,ANATOMIA PATOLÓGICA E PATOLOGIA CLÍNICA,NÃO SE APLICA,BAIXA,Os dados do pesquisador(a) estão focados na an...
3,3773fcb7084d294753146c9580750eca9b2348b78cc4aa...,3,Biodiversidade e Biotecnologia,"[biodiversidade, bioeconomia, biotecnologia, c...",ACRE,ACRE,GEOGRAFIA,UFAC,MODELAGEM DE BIOMASSA FLORESTAL E CÁLCULO DE C...,DISSERTAÇÃO,...,DURING THE LAST FEW DECADES TROPICAL FORESTS H...,GEDI;REMOTE SENSING;FOREST;MAPPING;BIOMASS;CARBON,2023-08-25 00:00:00,MESTRADO,CIÊNCIAS HUMANAS,GEOGRAFIA,NÃO SE APLICA,NÃO SE APLICA,MEDIA,"A dissertação do pesquisador foca na ""modelage..."
4,07dae75eae08bbf1828e779c70c9d283965fe58880d02f...,3,Biodiversidade e Biotecnologia,"[biodiversidade, bioeconomia, biotecnologia, c...",ACRE,ACRE,CIÊNCIAS AMBIENTAIS,UFAC,ANÁLISE SOCIOECONÔMICA E AMBIENTAL DA CADEIA P...,DISSERTAÇÃO,...,THE AMAZON BIOME HOLDS A PROMINENT POSITION IN...,BURITI;NON-TIMBER FOREST PRODUCTS;COOPERATIVIS...,2023-01-30 00:00:00,MESTRADO,MULTIDISCIPLINAR,CIÊNCIAS AMBIENTAIS,NÃO SE APLICA,NÃO SE APLICA,ALTA,Os dados do pesquisador mostram uma clara afin...


## Relação de Temas e suas Palavras-Chave

In [5]:
import numpy as np
import pandas as pd

def to_fset(x):
    if isinstance(x, (list, tuple, np.ndarray)):
        return frozenset(x)
    if pd.isna(x):
        return frozenset()
    return frozenset([x])

df_temas = (
    dados_df.assign(palavras_chave=dados_df["palavras_chave"].apply(to_fset))
            [["tema_id", "tema", "uf_tema_info", "palavras_chave"]]
            .drop_duplicates()
)

df_temas

Unnamed: 0,tema_id,tema,uf_tema_info,palavras_chave
0,1,Agronegócio e Tecnologias de Informação e Comu...,ACRE,"(desenvolvimento sustentável, cadeias produtiv..."
2,3,Biodiversidade e Biotecnologia,ACRE,"(desenvolvimento sustentável, cadeias produtiv..."
6,4,"Bioeconomia: cadeias produtivas prioritárias, ...",ACRE,"(bioeconomia na amazônia sul ocidental, desenv..."
7,5,Desenvolvimento Regional da Tríplice Divisa Am...,ACRE,"(desenvolvimento sustentável, infraestrutura, ..."
26,6,Desenvolvimento Regional: integração Estado-Mu...,ACRE,"(infraestrutura, pesquisa, políticas públicas,..."
...,...,...,...,...
24724,176,Desenvolvimento Sustentável em Óleo e Gás: pes...,MARANHÃO,"(fomento à pesquisa, parcerias estratégicas, r..."
36512,375,Mineração Responsável e Legal,RONDÔNIA,"(desenvolvimento sustentável, recursos naturai..."
36558,382,Agroindústria: processamento e valor agregado,RORAIMA,"(desenvolvimento sustentável, processamento ag..."
36626,397,Relações Internacionais Transfronteiriças e Po...,RORAIMA,"(desenvolvimento sustentável, migração, segura..."



## Níveis de Aderência (BAIXA, MÉDIA, ALTA)

Atribua **níveis de aderência** que reflitam o grau de correspondência entre o **tema estratégico**
e o **conteúdo** da produção (título, resumo, palavras-chave, etc.).

Sugestão de interpretação:
- **ALTA**: forte coerência semântica e conceitual; termos-chave do tema presentes de forma central no trabalho.
- **MÉDIA**: relação indireta ou parcial; termos aparecem com relevância moderada ou secundária.
- **BAIXA**: relação fraca; termos aparecem superficialmente ou em contextos distintos do tema.

Caso produza **explicações** (ex.: `modelo_explicacao`), procure referenciar **trechos** e **termos** que sustentem a decisão.



## Abordagens de Baixo Custo Recomendadas

### 1) Classificadores tradicionais / BERT (binário: **ALTO** vs **NÃO-ALTO**)
- **Embeddings** de título + resumo (ex.: SBERT, sentence-transformers).
- **Similaridade** com descrições dos temas (cosine similarity).
- **k-NN** ou **regressão logística** (binário) para decidir se é **ALTO** ou **NÃO-ALTO**.
- **Fine-tuning BERT** com amostras rotuladas (quando disponíveis), restringindo o problema a **ALTO** vs **NÃO-ALTO** para reduzir custo.

### 2) LLMs até **14B** de parâmetros (com ou sem fine-tuning)
- **Zero-shot** e **few-shot** com **avaliação sistemática de prompts**.
- **Quantização** (ex.: 4-bit) para reduzir memória/latência.
- **Instruções** claras: definir o papel do modelo, a rubrica de decisão (BAIXA/MÉDIA/ALTA) e pedidos de explicação concisa.
- **Auto-avaliação** de confiança e calibragem (ex.: pedir ao modelo que dê um nível e uma justificativa, depois verificar consistência).

### 3) Estratégias baseadas em grafos
- Modelagem de **grafos de similaridade** entre produções e temas.
- **GNNs** (Graph Neural Networks) para propagar sinais de rótulo e robustecer decisões.
- Uso de **k-NN em embeddings** para construir arestas e explorar **comunidades** temáticas.



## Avaliação

As soluções submetidas devem vir com uma **descrição técnica** (preferencialmente um artigo submtido na main track do workshop LeanDL) cobrindo:
1. **Acurácia do mapeamento** por nível (BAIXA/MÉDIA/ALTA) ou na formulação binária (ALTO vs NÃO-ALTO).
2. **Custo computacional**: **tempo** e **memória** consumidos durante inferência/treinamento.
3. (Opcional) **Matriz de confusão** e análises de erro para interpretar decisões.

OBS: quem preferir apresentar em formato de poster, deve submeter apenas um abstract detalhando sua solução e uma cópia do código.

### Medindo Pegada de Carbono
Sugestão: utilizar a biblioteca **codecarbon**.
- Instalação e instruções: https://mlco2.github.io/codecarbon/installation.html



## Observações Finais

- **Origem dos dados**: todas as informações são públicas, obtidas do Portal de Transparência da CAPES e do Observatório da Pós-Graduação da CAPES, com foco em **amostras de teses e dissertações defendidas em 2023**.
- **Publicidade das soluções**: as soluções propostas devem ser **públicas** para garantir a **avaliação** por membros do comitê científico do LeanDL-HPC 2025.


# Exemplo simplificado (apenas para ilustração)

Vamos carregar um modelo de linguagem.

In [6]:
# from transformers import AutoModelForCausalLM, AutoTokenizer

# model_name = "Qwen/Qwen3-4B"

# # load the tokenizer and the model
# tokenizer = AutoTokenizer.from_pretrained(model_name)
# model = AutoModelForCausalLM.from_pretrained(
#     model_name,
#     torch_dtype="auto",
#     device_map="auto"
# )

Usando ZeroShot para classificar em algum tema estratégico!

In [7]:
# from codecarbon import EmissionsTracker # para calcular emissões de CO2
# tracker = EmissionsTracker()
# tracker.start()

# # este é um prompt apenas ilustrativo!
# prompt = """Você é um avaliador de aderência temática.
# Classifique a afinidade entre uma produção acadêmica (título e resumo)
# e um TEMA ESTRATÉGICO.

# TÍTULO: Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models

# PALAVRAS-CHAVE:
# - Heterogeneous networks
# - Language models
# - Opinion mining
# - Representation learning
# - Unified embedding space

# RESUMO:
# Data representation through graphs is essential for analyzing complex relationships in fields like computer science and biology. In real-world scenarios, relationships between vertices do not always follow a uniform pattern, creating the need for heterogeneous graphs representing different types of vertices and various relationships in complex systems. However, heterogeneous graphs come with challenges. Due to the diversity of vertices and types of relationships, the inherent complexity of these structures makes understanding and analyzing them more complex than homogeneous graphs. To address this challenge, several machine learning models specific to heterogeneous graphs have been developed to comprehend the semantics of relationships between entities. Text representation in heterogeneous graphs is also challenging due to the lack of structure in textual data, which can lead to information loss. Additionally, heterogeneous graphs struggle to capture detailed semantic information in texts as they are primarily designed to represent formal structures and structural relationships. Resolving textual ambiguities is also complex for heterogeneous graphs, requiring a deep understanding of textual context. While language models excel at text comprehension, they may not be suitable for representing complex entities and relationships in real-world systems. Accurately identifying entities mentioned in texts and their relationships with real-world entities can be challenging. The integration of heterogeneous graphs and language models offers a promising solution. It combines the structural knowledge of heterogeneous graphs with the textual understanding of language models, resulting in embeddings that incorporate both the structural complexity of graphs and natural language text understanding. This approach can enhance performance in natural language processing, recommendation, and information retrieval tasks. This doctoral thesis focuses on overcoming the limitations of heterogeneous graphs in representing semantic information in texts. The proposal is to combine heterogeneous graphs with language models, leveraging the advantages of both approaches. While graphs represent structures and relationships, language models specialize in efficiently understanding and generating text. The underlying hypothesis is that this combination will result in richer data representations, improving performance in complex data analyses. This thesis introduces a two-stage approach that combines label propagation techniques and language model embeddings to generate vector representations of vertices in heterogeneous graphs. In this approach, the EPHG-CR (Embedding Propagation for Heterogeneous Graphs with Class Refinement) method is proposed, which differentiates itself by considering not only edge weights but also vertex relevance to task classes, bringing vertices with the same class closer together, taking into account the graphs topology. This approach was compared with a language model in the aspect-based sentiment analysis task, showing competitive results and, in some cases, slight superiority. Furthermore, the article explores applications of auxiliary vertex embeddings in other tasks, demonstrating another advantage of the approach.

# Responda, qual o NÍVEL DE AFINIDADE (ALTA, MÉDIA ou BAIXA) com o tema estratégico: "Ciência de Dados e Inteligência Artificial" ?

# CRITÉRIOS GERAIS:
# - ALTA: o tema é central na pesquisa; forte coerência semântica.
# - MÉDIA: relação parcial/indireta ou secundária ao tema.
# - BAIXA: relação fraca ou tangencial; tema não é foco do trabalho.

# RESPOSTA:
# """

# # https://huggingface.co/Qwen/Qwen3-4B
# messages = [
#     {"role": "user", "content": prompt}
# ]
# text = tokenizer.apply_chat_template(
#     messages,
#     tokenize=False,
#     add_generation_prompt=True,
#     enable_thinking=True
# )

# model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# # conduct text completion
# generated_ids = model.generate(
#     **model_inputs,
#     max_new_tokens=32768
# )
# output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# # parsing thinking content
# try:
#     # rindex finding 151668 (</think>)
#     index = len(output_ids) - output_ids[::-1].index(151668)
# except ValueError:
#     index = 0

# thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
# content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

# print("[LLM OUTPUT] thinking content:", thinking_content)
# print("[LLM OUTPUT] content:", content)


# emissions: float = tracker.stop()
# print("\n\nTotal de emissões (detalhes em emissions.csv): ",emissions)


In [8]:
# dados_df.columns

In [9]:
# for line, x in df_temas.iterrows():
#     processed_key_words = '\n- '.join(x['palavras_chave'])
#     print(f"{line}))){x['tema_id']} - {x['tema']}: {processed_key_words}")

In [10]:
df_temas

Unnamed: 0,tema_id,tema,uf_tema_info,palavras_chave
0,1,Agronegócio e Tecnologias de Informação e Comu...,ACRE,"(desenvolvimento sustentável, cadeias produtiv..."
2,3,Biodiversidade e Biotecnologia,ACRE,"(desenvolvimento sustentável, cadeias produtiv..."
6,4,"Bioeconomia: cadeias produtivas prioritárias, ...",ACRE,"(bioeconomia na amazônia sul ocidental, desenv..."
7,5,Desenvolvimento Regional da Tríplice Divisa Am...,ACRE,"(desenvolvimento sustentável, infraestrutura, ..."
26,6,Desenvolvimento Regional: integração Estado-Mu...,ACRE,"(infraestrutura, pesquisa, políticas públicas,..."
...,...,...,...,...
24724,176,Desenvolvimento Sustentável em Óleo e Gás: pes...,MARANHÃO,"(fomento à pesquisa, parcerias estratégicas, r..."
36512,375,Mineração Responsável e Legal,RONDÔNIA,"(desenvolvimento sustentável, recursos naturai..."
36558,382,Agroindústria: processamento e valor agregado,RORAIMA,"(desenvolvimento sustentável, processamento ag..."
36626,397,Relações Internacionais Transfronteiriças e Po...,RORAIMA,"(desenvolvimento sustentável, migração, segura..."


In [11]:
dados_df.head()

Unnamed: 0,hash_id,tema_id,tema,palavras_chave,uf_tema_info,uf_pesquisador,nome_programa,sigla_entidade_ensino,nome_producao,nome_subtipo_producao,...,descricao_abstract,descricao_keyword,data_titulacao,nome_grau_academico,nome_grande_area_conhecimento,nome_area_conhecimento,nome_subarea_conhecimento,nome_especialidade,modelo_nivel,modelo_explicacao
0,ce4025a58d1cff3d346e96af2e8f2d0185caeaddd78c1b...,1,Agronegócio e Tecnologias de Informação e Comu...,"[agroindústria, assistência técnica e extensão...",ACRE,ACRE,ENSINO DE CIÊNCIAS E MATEMÁTICA,UFAC,AS TECNOLOGIAS DIGITAIS DA INFORMAÇÃO E COMUNI...,DISSERTAÇÃO,...,"THE RESEARCH, DESCRIBED IN THE PRESENT WORK, I...",INFORMATION AND COMMUNICATION TECHNOLOGIES;COM...,2023-10-18 00:00:00,MESTRADO PROFISSIONAL,MULTIDISCIPLINAR,ENSINO,ENSINO DE CIÊNCIAS E MATEMÁTICA,NÃO SE APLICA,BAIXA,A afinidade entre os dados do pesquisador e o ...
1,55982d77d62446fb9f76ae636c99c36d77d5e233ce4863...,1,Agronegócio e Tecnologias de Informação e Comu...,"[agroindústria, assistência técnica e extensão...",ACRE,ACRE,EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA,IFAC,O CURRÍCULO INTEGRADO DO INSTITUTO FEDERAL DO ...,DISSERTAÇÃO,...,THIS STUDY INVESTIGATED THE CURRICULUM OF INTE...,INTEGRATED SECONDARY EDUCATIO;CURRICULAR ORGAN...,2023-09-29 00:00:00,MESTRADO PROFISSIONAL,MULTIDISCIPLINAR,ENSINO,NÃO SE APLICA,NÃO SE APLICA,MEDIA,A afinidade entre os dados do pesquisador e o ...
2,1f7615b9be49f80d289ba7c99eb64a5f8dc387a23518a6...,3,Biodiversidade e Biotecnologia,"[biodiversidade, bioeconomia, biotecnologia, c...",ACRE,ACRE,CIÊNCIAS DA SAÚDE NA AMAZÔNIA OCIDENTAL,UFAC,TENDÊNCIA TEMPORAL E DISTRIBUIÇÃO ESPACIAL DAS...,DISSERTAÇÃO,...,"THE ANALYZES IN THE BIOMES: AMAZON, CAATINGA, ...",EPIDEMIOLOGY;LEISHMANIA;PRAIS-WINSTEN,2023-03-21 00:00:00,MESTRADO,CIÊNCIAS DA SAÚDE,MEDICINA,ANATOMIA PATOLÓGICA E PATOLOGIA CLÍNICA,NÃO SE APLICA,BAIXA,Os dados do pesquisador(a) estão focados na an...
3,3773fcb7084d294753146c9580750eca9b2348b78cc4aa...,3,Biodiversidade e Biotecnologia,"[biodiversidade, bioeconomia, biotecnologia, c...",ACRE,ACRE,GEOGRAFIA,UFAC,MODELAGEM DE BIOMASSA FLORESTAL E CÁLCULO DE C...,DISSERTAÇÃO,...,DURING THE LAST FEW DECADES TROPICAL FORESTS H...,GEDI;REMOTE SENSING;FOREST;MAPPING;BIOMASS;CARBON,2023-08-25 00:00:00,MESTRADO,CIÊNCIAS HUMANAS,GEOGRAFIA,NÃO SE APLICA,NÃO SE APLICA,MEDIA,"A dissertação do pesquisador foca na ""modelage..."
4,07dae75eae08bbf1828e779c70c9d283965fe58880d02f...,3,Biodiversidade e Biotecnologia,"[biodiversidade, bioeconomia, biotecnologia, c...",ACRE,ACRE,CIÊNCIAS AMBIENTAIS,UFAC,ANÁLISE SOCIOECONÔMICA E AMBIENTAL DA CADEIA P...,DISSERTAÇÃO,...,THE AMAZON BIOME HOLDS A PROMINENT POSITION IN...,BURITI;NON-TIMBER FOREST PRODUCTS;COOPERATIVIS...,2023-01-30 00:00:00,MESTRADO,MULTIDISCIPLINAR,CIÊNCIAS AMBIENTAIS,NÃO SE APLICA,NÃO SE APLICA,ALTA,Os dados do pesquisador mostram uma clara afin...


In [12]:
# import os
# import pandas as pd
# import torch
# from datasets import Dataset
# from transformers import (
#     AutoTokenizer, AutoModelForCausalLM,
#     BitsAndBytesConfig, Trainer, TrainingArguments, DataCollatorForSeq2Seq
# )
# from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

# # ------------------
# # Configurações
# # ------------------
# MODEL_NAME = os.environ.get("BASE_MODEL", "Qwen/Qwen2-1.5B-Instruct")
# # CSV_PATH   = os.environ.get("CSV_PATH", "dataset.csv")
# OUTPUT_DIR = os.environ.get("OUTPUT_DIR", "./qlora-aderencia-classes")
# SEED       = int(os.environ.get("SEED", "42"))

# LABELS = ["BAIXA", "MÉDIA", "ALTA"]


# PROMPT_TMPL = prompt = """Você é um avaliador de aderência temática.
# Classifique a afinidade entre uma produção acadêmica (título e resumo)
# e um TEMA ESTRATÉGICO.

# TÍTULO: {title}

# PALAVRAS-CHAVE:
# {keywords}

# RESUMO:
# {abstract}

# Responda, qual o NÍVEL DE AFINIDADE (ALTA, MÉDIA ou BAIXA) com o tema estratégico: "{category}" ?

# CRITÉRIOS GERAIS:
# - ALTA: o tema é central na pesquisa; forte coerência semântica.
# - MÉDIA: relação parcial/indireta ou secundária ao tema.
# - BAIXA: relação fraca ou tangencial; tema não é foco do trabalho.

# RESPOSTA:
# """

# # ------------------
# # Tokenizer
# # ------------------
# tok = AutoTokenizer.from_pretrained(MODEL_NAME)
# if tok.pad_token is None:
#     tok.pad_token = tok.eos_token


# # Index(['hash_id', 'tema_id', 'tema', 'palavras_chave', 'uf_tema_info',
# #        'uf_pesquisador', 'nome_programa', 'sigla_entidade_ensino',
# #        'nome_producao', 'nome_subtipo_producao', 'nome_area_concentracao',
# #        'nome_linha_pesquisa', 'nome_projeto', 'descricao_palavra_chave',
# #        'descricao_resumo', 'descricao_abstract', 'descricao_keyword',
# #        'data_titulacao', 'nome_grau_academico',
# #        'nome_grande_area_conhecimento', 'nome_area_conhecimento',
# #        'nome_subarea_conhecimento', 'nome_especialidade', 'modelo_nivel',
# #        'modelo_explicacao'],
# #       dtype='object')

# # ------------------
# # Função de pré-processamento
# # ------------------
# def preprocess(examples):
#     input_ids_list, labels_list = [], []

#     for cat, title, abs_, kw, label in zip(
#         examples["tema"], examples["nome_producao"], examples["descricao_abstract"],
#         examples["descricao_keyword"], examples["modelo_nivel"]
#     ):
#         # print( 'cat', cat, 'title', title, 'abs', abs_, 'kw', kw, 'label', label, flush=True)
#         processed_key_words = '\n- '.join(kw.split(';'))
#         gold = str(label).strip().upper()
#         if gold == "MEDIA": 
#             gold = "MÉDIA"
#         assert gold in LABELS, f"Rótulo inválido: {gold}"

#         # prompt sem rótulo
#         prompt = PROMPT_TMPL.format(
#             category=cat, title=title, abstract=abs_, keywords=processed_key_words
#         ) + " "

#         # tokeniza prompt
#         enc_prompt = tok(prompt, add_special_tokens=False)
#         input_ids = enc_prompt["input_ids"]

#         # tokeniza rótulo
#         enc_label = tok(" " + gold, add_special_tokens=False)
#         label_ids = enc_label["input_ids"]

#         # entrada completa = prompt + label
#         full_input = input_ids + label_ids

#         # labels = -100 para o prompt, valor real nos tokens do rótulo
#         labels_mask = [-100] * len(input_ids) + label_ids

#         input_ids_list.append(full_input)
#         labels_list.append(labels_mask)

#     return {"input_ids": input_ids_list, "labels": labels_list}

# # ------------------
# # Dataset
# # ------------------
# # df = pd.read_csv(CSV_PATH)
# # for col in ["title","abstract","keywords","category","label"]:
# #     if col not in df.columns:
# #         raise ValueError(f"Coluna obrigatória ausente no CSV: {col}")

# ds = Dataset.from_pandas(dados_df[~dados_df.modelo_nivel.isnull()])
# splits = ds.train_test_split(test_size=0.1, seed=SEED)
# train_ds = splits["train"].map(preprocess, batched=True, remove_columns=ds.column_names)
# eval_ds  = splits["test"].map(preprocess, batched=True, remove_columns=ds.column_names)

# # ------------------
# # Modelo com QLoRA
# # ------------------
# bnb_config = BitsAndBytesConfig(
#     load_in_4bit=True,
#     bnb_4bit_use_double_quant=True,
#     bnb_4bit_quant_type="nf4",
#     bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
# )

# model = AutoModelForCausalLM.from_pretrained(
#     MODEL_NAME,
#     quantization_config=bnb_config,
#     device_map="auto",
#     trust_remote_code=True
# )
# model = prepare_model_for_kbit_training(model)

# lora_config = LoraConfig(
#     r=64, lora_alpha=16, lora_dropout=0.05,
#     bias="none",
#     task_type="CAUSAL_LM",
#     target_modules=["q_proj","k_proj","v_proj","o_proj","up_proj","down_proj","gate_proj"],
# )
# model = get_peft_model(model, lora_config)

# # ------------------
# # Treinamento
# # ------------------
# # args = TrainingArguments(
# #     output_dir=OUTPUT_DIR,
# #     num_train_epochs=3,
# #     per_device_train_batch_size=4,
# #     per_device_eval_batch_size=4,
# #     gradient_accumulation_steps=4,
# #     learning_rate=2e-4,
# #     warmup_ratio=0.03,
# #     logging_steps=20,
# #     evaluation_strategy="epoch",
# #     save_strategy="epoch",
# #     save_total_limit=2,
# #     bf16=torch.cuda.is_available(),
# #     optim="paged_adamw_32bit",
# #     seed=SEED,
# #     report_to="none"
# # )

# args = TrainingArguments(
#     output_dir=OUTPUT_DIR,
#     num_train_epochs=3,
#     per_device_train_batch_size=4,
#     per_device_eval_batch_size=4,
#     gradient_accumulation_steps=4,
#     learning_rate=2e-4,
#     warmup_ratio=0.03,
#     logging_steps=20,
#     eval_strategy="epoch",         # <-- nome novo
#     save_strategy="epoch",
#     save_total_limit=2,
#     bf16=torch.cuda.is_available(),
#     optim="paged_adamw_32bit",
#     seed=SEED,
#     report_to="none",
#     # device="cuda"
# )


# collator = DataCollatorForSeq2Seq(tokenizer=tok, model=model, padding=True)

# trainer = Trainer(
#     model=model,
#     args=args,
#     train_dataset=train_ds,
#     eval_dataset=eval_ds,
#     tokenizer=tok,
#     data_collator=collator,
# )

# trainer.train()

# trainer.save_model(OUTPUT_DIR)
# tok.save_pretrained(OUTPUT_DIR)

# print("Treino finalizado. Modelo salvo em", OUTPUT_DIR)


In [13]:

# ------------------
# Função de pré-processamento
# ------------------
# def preprocess(examples):
#     input_ids_list, labels_list = [], []

#     for cat, title, abs_, kw, label in zip(
#         examples["tema"], examples["nome_producao"], examples["descricao_abstract"],
#         examples["descricao_keyword"], examples["modelo_nivel"]
#     ):
#         # print( 'cat', cat, 'title', title, 'abs', abs_, 'kw', kw, 'label', label, flush=True)
#         processed_key_words = '\n- '.join(kw.split(';'))
#         gold = str(label).strip().upper()
#         if gold == "MEDIA": 
#             gold = "MÉDIA"
#         assert gold in LABELS, f"Rótulo inválido: {gold}"

#         # prompt sem rótulo
#         prompt = PROMPT_TMPL.format(
#             category=cat, title=title, abstract=abs_, keywords=processed_key_words
#         ) + " "

#         # tokeniza prompt
#         enc_prompt = tok(prompt, add_special_tokens=False)
#         input_ids = enc_prompt["input_ids"]

#         # tokeniza rótulo
#         enc_label = tok(" " + gold, add_special_tokens=False)
#         label_ids = enc_label["input_ids"]

#         # entrada completa = prompt + label
#         full_input = input_ids + label_ids

#         # labels = -100 para o prompt, valor real nos tokens do rótulo
#         labels_mask = [-100] * len(input_ids) + label_ids

#         input_ids_list.append(full_input)
#         labels_list.append(labels_mask)

#     return {"input_ids": input_ids_list, "labels": labels_list}

# def preprocess(examples):
#     input_ids_list, labels_list = [], []

#     print( 'Total:', len(examples))
#     print( 'tema', examples["tema"], 'producao', examples["nome_producao"], 'abstrac', examples["descricao_abstract"],
#         'keywords', examples["descricao_keyword"], 'modelo nivel', examples["modelo_nivel"], flush=True )
#     for cat, title, abs_, kw, label in zip(
#         examples["tema"], examples["nome_producao"], examples["descricao_abstract"],
#         examples["descricao_keyword"], examples["modelo_nivel"]
#     ):
#         print( 'cat', cat, 'title', title, 'abs', abs_, 'kw', kw, 'label', label, flush=True)
#         processed_key_words = '\n- '.join(kw.split(';'))
#         gold = str(label).strip().upper()
#         if gold == "MEDIA": 
#             gold = "MÉDIA"
#         assert gold in LABELS, f"Rótulo inválido: {gold}"

#         prompt = PROMPT_TMPL.format(
#             category=cat, title=title, abstract=abs_, keywords=processed_key_words
#         ) + " "

#         # tokeniza prompt
#         enc_prompt = tok(prompt, add_special_tokens=False, truncation=True, max_length=512)
#         input_ids = enc_prompt["input_ids"]

#         enc_label = tok(" " + gold, add_special_tokens=False, truncation=True, max_length=10)
#         label_ids = enc_label["input_ids"]

#         # entrada completa = prompt + label
#         full_input = input_ids + label_ids

#         # labels = -100 para o prompt, valor real nos tokens do rótulo
#         labels_mask = [-100] * len(input_ids) + label_ids

#         input_ids_list.append(full_input)
#         labels_list.append(labels_mask)

#     return {"input_ids": input_ids_list, "labels": labels_list}


# def preprocess(example):
#     # monta o texto de entrada (já é uma string única por exemplo)

#     processed_key_words = '\n- '.join(example["descricao_keyword"].split(';'))
#     gold = str(label).strip().upper()
#     if gold == "MEDIA": 
#         gold = "MÉDIA"
#     assert gold in LABELS, f"Rótulo inválido: {gold}"

#     prompt = PROMPT_TMPL.format(
#         category=example["tema"], title=example["nome_producao"], abstract=example["descricao_abstract"], keywords=processed_key_words
#     ) + " "


#     # tokenização com truncation
#     inputs = tok(
#         prompt,
#         truncation=True,
#         max_length=512,
#         padding="max_length"  # ou remova se preferir padding dinâmico no collator
#     )

#     # converte o label de string -> id
#     # label = label2id[example["modelo_nivel"]]

#     label = tok( gold, add_special_tokens=False, truncation=True, max_length=10)

#     return {
#         "input_ids": inputs["input_ids"],
#         "attention_mask": inputs["attention_mask"],
#         "labels": label
#     }


# # ------------------
# # Função de pré-processamento
# # ------------------
# def preprocess(example):
#     processed_key_words = '\n- '.join(example["descricao_keyword"].split(';'))
#     gold = str(example["modelo_nivel"]).strip().upper()
#     if gold == "MEDIA": 
#         gold = "MÉDIA"
#     assert gold in LABELS

#     prompt = PROMPT_TMPL.format(
#         category=example["tema"], 
#         title=example["nome_producao"], 
#         abstract=example["descricao_abstract"], 
#         keywords=processed_key_words
#     ) + " "

#     input_ids = tok(prompt, add_special_tokens=False)["input_ids"]
#     label_ids = tok(gold, add_special_tokens=False)["input_ids"]

#     full_input = input_ids + label_ids
#     labels_mask = [-100] * len(input_ids) + label_ids  # -100 para prompt, label real no fim

#     return {
#         "input_ids": full_input,
#         "attention_mask": [1] * len(full_input),
#         "labels": labels_mask,   # lista de ints
#     }



In [14]:
# # ------------------
# # Modelo com QLoRA
# # ------------------

# MODEL_NAME = "meta-llama/Meta-Llama-3-8B"
# OUTPUT_DIR = os.environ.get("OUTPUT_DIR", "./qlora-aderencia-classes")
# SEED = int(os.environ.get("SEED", "42"))

# bnb_config = BitsAndBytesConfig(
#     load_in_4bit=True,
#     bnb_4bit_use_double_quant=True,
#     bnb_4bit_quant_type="nf4",
#     bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
# )



# model = AutoModelForCausalLM.from_pretrained(
#     MODEL_NAME,
#     quantization_config=bnb_config,
#     device_map="auto",
#     trust_remote_code=True
# )

In [15]:
# import os
# import pandas as pd
# import torch
# from datasets import Dataset
# from transformers import (
#     AutoTokenizer, AutoModelForCausalLM,
#     BitsAndBytesConfig, Trainer, TrainingArguments, DataCollatorWithPadding,
#     DataCollatorForLanguageModeling, DataCollatorForSeq2Seq
# )
# from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
# from transformers import EarlyStoppingCallback


# os.environ["TOKENIZERS_PARALLELISM"] = "false"
# torch.utils.checkpoint.use_reentrant = False

# # ------------------
# # Configurações
# # ------------------
# # MODEL_NAME = os.environ.get("BASE_MODEL", "Qwen/Qwen2-1.5B-Instruct")
# MODEL_NAME = "meta-llama/Meta-Llama-3-8B"
# OUTPUT_DIR = os.environ.get("OUTPUT_DIR", "./qlora-aderencia-classes")
# SEED = int(os.environ.get("SEED", "42"))

# LABELS = ["BAIXA", "MÉDIA", "ALTA"]

# PROMPT_TMPL = """You are a thematic relevance evaluator.  
# Classify how related an academic work (title and abstract) is to a STRATEGIC THEME.

# TITLE: {title}

# KEYWORDS:
# {keywords}

# ABSTRACT:
# {abstract}

# Answer with a number 0, 1, or 2 for the RELEVANCE LEVEL (2 - HIGH, 1 - MEDIUM, 0 - LOW) to the strategic theme: "{category}".

# GENERAL CRITERIA:
# - HIGH (2): theme is central; strong semantic coherence.
# - MEDIUM (1): partial/indirect relation; secondary focus.
# - LOW (0): weak or tangential relation; not the main focus.

# ANSWER: """

# # ------------------
# # Tokenizer
# # ------------------
# tok = AutoTokenizer.from_pretrained(MODEL_NAME)
# if tok.pad_token is None:
#     tok.pad_token = tok.eos_token

# def preprocess(example, max_input_length=512, max_label_length=16):
#     """
#     Preprocessa cada exemplo para treinar o modelo causal LM com QLoRA.
    
#     max_input_length: truncamento do prompt
#     max_label_length: truncamento da resposta (label)
#     """
#     # Processa palavras-chave
#     processed_key_words = '\n- '.join(example["descricao_keyword"].split(';'))

#     # Normaliza label
#     gold = str(example["modelo_nivel"]).strip().upper()
#     if gold == "MEDIA":
#         gold = "MÉDIA"
#     assert gold in LABELS

#     gold = str(LABELS.index(gold))  # converte para índice numérico (0, 1, 2)

#     # Cria prompt
#     prompt = PROMPT_TMPL.format(
#         category=example["tema"],
#         title=example["nome_producao"],
#         abstract=example["descricao_abstract"],
#         keywords=processed_key_words
#     ) + " "

#     # Tokeniza com truncamento
#     input_enc = tok(
#         prompt,
#         add_special_tokens=False,
#         truncation=True,
#         max_length=max_input_length
#     )
#     label_enc = tok(
#         gold,
#         add_special_tokens=False,
#         truncation=True,
#         max_length=max_label_length
#     )

#     input_ids = input_enc["input_ids"]
#     label_ids = label_enc["input_ids"]

#     # Concatena prompt + label
#     full_input = input_ids + label_ids

#     # Cria labels com -100 para o prompt
#     labels_mask = [-100] * len(input_ids) + label_ids

#     return {
#         "input_ids": full_input,
#         "attention_mask": [1] * len(full_input),
#         "labels": labels_mask
#     }


# # ------------------
# # Dataset
# # ------------------
# # ds = Dataset.from_pandas(dados_df[~dados_df.modelo_nivel.isnull()])
# # splits = ds.train_test_split(test_size=0.1, seed=SEED)
# # train_ds = splits["train"].map(preprocess, remove_columns=ds.column_names)
# # eval_ds  = splits["test"].map(preprocess, remove_columns=ds.column_names)

# ds = Dataset.from_pandas(dados_df[~dados_df.modelo_nivel.isnull()])
# splits = ds.train_test_split(test_size=0.1, seed=SEED)
# train_ds = splits["train"].map(preprocess, batched=False, remove_columns=ds.column_names)
# eval_ds  = splits["test"].map(preprocess, batched=False, remove_columns=ds.column_names)

# # ------------------
# # Modelo com QLoRA
# # ------------------
# bnb_config = BitsAndBytesConfig(
#     load_in_4bit=True,
#     bnb_4bit_use_double_quant=True,
#     bnb_4bit_quant_type="nf4",
#     bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
# )

# model = AutoModelForCausalLM.from_pretrained(
#     MODEL_NAME,
#     quantization_config=bnb_config,
#     device_map="auto",
#     trust_remote_code=True
# )
# model = prepare_model_for_kbit_training(model)

# lora_config = LoraConfig(
#     r=64,
#     lora_alpha=16,
#     lora_dropout=0.05,
#     bias="none",
#     task_type="CAUSAL_LM",
#     target_modules=["q_proj","v_proj", "k_proj","o_proj"],  # otimizado
# )
# model = get_peft_model(model, lora_config)

# # ------------------
# # Treinamento
# # ------------------
# args = TrainingArguments(
#     output_dir=OUTPUT_DIR,
#     num_train_epochs=10,               # pode aumentar, o early stopping vai parar se necessário
#     per_device_train_batch_size=4,
#     per_device_eval_batch_size=4,
#     gradient_accumulation_steps=16,
#     learning_rate=2e-4,
#     warmup_ratio=0.03,
#     logging_steps=20,
#     eval_strategy="epoch",             # avalia ao final de cada época
#     save_strategy="epoch",
#     save_total_limit=2,
#     bf16=torch.cuda.is_available(),
#     optim="paged_adamw_32bit",
#     seed=SEED,
#     report_to="none",
#     dataloader_num_workers=1,
#     load_best_model_at_end=True,       # salva o melhor modelo baseado na loss
#     metric_for_best_model="loss",      # monitora a loss de validação
#     greater_is_better=False            # menor loss é melhor
# )


# # collator = DataCollatorForLanguageModeling(tokenizer=tok, mlm=False)
# # collator = DataCollatorForLanguageModeling(
# #     tokenizer=tok,
# #     mlm=False,
# #     pad_to_multiple_of=None  # opcional, pode deixar None
# # )

# collator = DataCollatorForSeq2Seq(tokenizer=tok, padding=True)

# trainer = Trainer(
#     model=model,
#     args=args,
#     train_dataset=train_ds,
#     eval_dataset=eval_ds,
#     tokenizer=tok,
#     data_collator=collator,
#     callbacks=[EarlyStoppingCallback(early_stopping_patience=2)]  # 2 épocas sem melhora
# )

# trainer.train()

# trainer.save_model(OUTPUT_DIR)
# tok.save_pretrained(OUTPUT_DIR)

# print("Treino finalizado. Modelo salvo em", OUTPUT_DIR)


In [16]:
# import os
# import pandas as pd
# import torch
# from datasets import Dataset
# from transformers import (
#     AutoTokenizer, AutoModelForCausalLM, AutoModel,
#     BitsAndBytesConfig, Trainer, TrainingArguments, DataCollatorWithPadding,
#     DataCollatorForLanguageModeling, DataCollatorForSeq2Seq, 
# )
# from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
# from transformers import EarlyStoppingCallback
# import torch.nn as nn


# # ------------------
# # Configurações
# # ------------------
# MODEL_NAME = "meta-llama/Meta-Llama-3-8B"
# OUTPUT_DIR = "./qlora-aderencia-classes"
# SEED = 42
# LABELS = ["BAIXA", "MÉDIA", "ALTA"]

# torch.manual_seed(SEED)
# os.environ["TOKENIZERS_PARALLELISM"] = "false"
# torch.utils.checkpoint.use_reentrant = False

# # ------------------
# # Prompt simplificado em inglês
# # ------------------
# PROMPT_TMPL = """You are a thematic relevance evaluator.
# Classify how related an academic work (title and abstract) is to a strategic theme.

# TITLE: {title}
# KEYWORDS: {keywords}
# ABSTRACT: {abstract}

# Answer with a number 0, 1, or 2 for RELEVANCE LEVEL (2-HIGH, 1-MEDIUM, 0-LOW) to the strategic theme: "{category}".

# ANSWER: """

# # ------------------
# # Tokenizer
# # ------------------
# tok = AutoTokenizer.from_pretrained(MODEL_NAME)
# if tok.pad_token is None:
#     tok.pad_token = tok.eos_token

# # ------------------
# # Dataset de exemplo
# # ------------------
# # Substitua 'dados_df' pelo seu DataFrame real
# # dados_df = pd.read_csv("seu_dataset.csv")
# # Aqui apenas um exemplo mínimo
# # dados_df = pd.DataFrame({
# #     "nome_producao": ["Paper 1", "Paper 2"],
# #     "descricao_abstract": ["Abstract 1", "Abstract 2"],
# #     "descricao_keyword": ["k1;k2", "k3;k4"],
# #     "modelo_nivel": ["ALTA", "BAIXA"],
# #     "tema": ["Tema 1", "Tema 2"]
# # })

# # ------------------
# # Função de preprocessamento
# # ------------------
# def preprocess(example, max_input_length=512, max_label_length=16):
#     processed_key_words = '\n- '.join(example["descricao_keyword"].split(';'))
#     gold = str(example["modelo_nivel"]).strip().upper()
#     if gold == "MEDIA":
#         gold = "MÉDIA"
#     assert gold in LABELS
#     gold_idx = LABELS.index(gold)  # 0,1,2

#     prompt = PROMPT_TMPL.format(
#         title=example["nome_producao"],
#         abstract=example["descricao_abstract"],
#         keywords=processed_key_words,
#         category=example["tema"]
#     )

#     # Tokeniza
#     input_enc = tok(prompt, truncation=True, max_length=max_input_length, add_special_tokens=False)
#     label_enc = tok(str(gold_idx), truncation=True, max_length=max_label_length, add_special_tokens=False)

#     input_ids = input_enc["input_ids"]
#     label_ids = label_enc["input_ids"]

#     full_input = input_ids + label_ids
#     labels_mask = [-100] * len(input_ids) + label_ids  # mask prompt

#     return {
#         "input_ids": full_input,
#         "attention_mask": [1] * len(full_input),
#         "labels": labels_mask
#     }

# # ------------------
# # Criação do Dataset
# # ------------------
# ds = Dataset.from_pandas(dados_df[~dados_df.modelo_nivel.isnull()].iloc[:10])
# splits = ds.train_test_split(test_size=0.1, seed=SEED)
# train_ds = splits["train"].map(preprocess, batched=False, remove_columns=ds.column_names)
# eval_ds  = splits["test"].map(preprocess, batched=False, remove_columns=ds.column_names)

# # ------------------
# # Modelo base com quantização 4-bit
# # ------------------
# bnb_config = BitsAndBytesConfig(
#     load_in_4bit=True,
#     bnb_4bit_use_double_quant=True,
#     bnb_4bit_quant_type="nf4",
#     bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
# )

# base_model = AutoModel.from_pretrained(
#     MODEL_NAME,
#     device_map="auto",
#     trust_remote_code=True,
#     quantization_config=bnb_config
# )
# base_model = prepare_model_for_kbit_training(base_model)

# # ------------------
# # LoRA
# # ------------------
# lora_config = LoraConfig(
#     r=16,                  # reduzido para menos parâmetros
#     lora_alpha=16,
#     lora_dropout=0.05,
#     bias="none",
#     task_type="CAUSAL_LM",
#     target_modules=["q_proj","v_proj","k_proj","o_proj"]
# )
# model = get_peft_model(base_model, lora_config)

# # ------------------
# # Classificador last token
# # ------------------
# class LlamaClassifier(nn.Module):
#     def __init__(self, base_model, hidden_size=4096, n_classes=3):
#         super().__init__()
#         self.base = base_model
#         self.classifier = nn.Linear(hidden_size, n_classes)
#     def forward(self, input_ids, attention_mask=None, labels=None):
#         out = self.base(input_ids=input_ids, attention_mask=attention_mask, output_hidden_states=True)
#         last_hidden = out.hidden_states[-1][:, -1, :]  # último token
#         logits = self.classifier(last_hidden)
#         loss = None
#         if labels is not None:
#             loss_fn = nn.CrossEntropyLoss()
#             loss = loss_fn(logits, labels)
#         return {"loss": loss, "logits": logits}

# classifier_model = LlamaClassifier(model, hidden_size=4096, n_classes=3)

# # ------------------
# # Trainer
# # ------------------
# collator = DataCollatorWithPadding(tokenizer=tok, padding=True)

# args = TrainingArguments(
#     output_dir=OUTPUT_DIR,
#     num_train_epochs=10,
#     per_device_train_batch_size=4,
#     per_device_eval_batch_size=4,
#     gradient_accumulation_steps=16,
#     learning_rate=2e-4,
#     warmup_ratio=0.03,
#     logging_steps=20,
#     eval_strategy="epoch",
#     save_strategy="epoch",
#     save_total_limit=2,
#     bf16=torch.cuda.is_available(),
#     optim="paged_adamw_32bit",
#     seed=SEED,
#     report_to="none",
#     dataloader_num_workers=4,
#     load_best_model_at_end=True,
#     metric_for_best_model="loss",
#     greater_is_better=False
# )

# trainer = Trainer(
#     model=classifier_model,
#     args=args,
#     train_dataset=train_ds,
#     eval_dataset=eval_ds,
#     tokenizer=tok,
#     data_collator=collator,
#     callbacks=[EarlyStoppingCallback(early_stopping_patience=2)]
# )

# trainer.train()
# trainer.save_model(OUTPUT_DIR)
# tok.save_pretrained(OUTPUT_DIR)

# print("Treino finalizado. Modelo salvo em", OUTPUT_DIR)


In [17]:
import os
import pandas as pd
import torch
from datasets import Dataset
from transformers import (
    AutoTokenizer, AutoModelForCausalLM,
    BitsAndBytesConfig, Trainer, TrainingArguments,
    DataCollatorForLanguageModeling, EarlyStoppingCallback,
    DataCollatorForSeq2Seq
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

from peft import PeftModel


In [18]:
# ------------------
# Configurações
# ------------------
MODEL_NAME = "meta-llama/Meta-Llama-3-8B"
OUTPUT_DIR = "./qlora-aderencia-classes"
SEED = 42
LABELS = ["BAIXA", "MÉDIA", "ALTA"]

torch.manual_seed(SEED)
os.environ["TOKENIZERS_PARALLELISM"] = "false"
torch.utils.checkpoint.use_reentrant = False

# ------------------
# Prompt
# ------------------
PROMPT_TMPL = """You are a thematic relevance evaluator.
Classify how related an academic work (title and abstract) is to a strategic theme.

TITLE: {title}
KEYWORDS: {keywords}
ABSTRACT: {abstract}

Answer with a number 0, 1, or 2 for RELEVANCE LEVEL (2-HIGH, 1-MEDIUM, 0-LOW) to the strategic theme: "{category}".

ANSWER: """


In [None]:


# ------------------
# Tokenizer
# ------------------
tok = AutoTokenizer.from_pretrained(MODEL_NAME)
if tok.pad_token is None:
    tok.pad_token = tok.eos_token

# ------------------
# Dataset de exemplo
# ------------------
# Substitua 'dados_df' pelo seu DataFrame real
# dados_df = pd.read_csv("seu_dataset.csv")
# Aqui apenas um exemplo mínimo
# dados_df = pd.DataFrame({
#     "nome_producao": ["Paper 1", "Paper 2"],
#     "descricao_abstract": ["Abstract 1", "Abstract 2"],
#     "descricao_keyword": ["k1;k2", "k3;k4"],
#     "modelo_nivel": ["ALTA", "BAIXA"],
#     "tema": ["Tema 1", "Tema 2"]
# })

# ------------------
# Função de preprocessamento
# ------------------
def preprocess(example, max_input_length=512):
    processed_key_words = '\n- '.join(example["descricao_keyword"].split(';'))
    gold = str(example["modelo_nivel"]).strip().upper()
    if gold == "MEDIA":
        gold = "MÉDIA"
    assert gold in LABELS
    gold_idx = LABELS.index(gold)  # 0,1,2

    # Cria prompt
    prompt = PROMPT_TMPL.format(
        title=example["nome_producao"],
        abstract=example["descricao_abstract"],
        keywords=processed_key_words,
        category=example["tema"]
    )

    # Tokeniza prompt
    input_enc = tok(prompt, truncation=True, max_length=max_input_length, add_special_tokens=False)
    input_ids = input_enc["input_ids"]

    # Token do próximo token (classe)
    label_id = tok(str(gold_idx), add_special_tokens=False)["input_ids"][0]

    # labels: -100 no prompt, token da classe no final
    labels = [-100] * len(input_ids) + [label_id]
    input_ids_full = input_ids + [label_id]
    attention_mask = [1] * len(input_ids_full)

    return {
        "input_ids": input_ids_full,
        "attention_mask": attention_mask,
        "labels": labels
    }

# ------------------
# Criação do Dataset
# ------------------
ds = Dataset.from_pandas(dados_df[~dados_df.modelo_nivel.isnull()])
splits = ds.train_test_split(test_size=0.1, seed=SEED)
train_ds = splits["train"].map(preprocess, batched=False, remove_columns=ds.column_names)
eval_ds = splits["test"].map(preprocess, batched=False, remove_columns=ds.column_names)

# ------------------
# Modelo base com quantização 4-bit
# ------------------
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    device_map="auto",
    trust_remote_code=True,
    quantization_config=bnb_config
)
model = prepare_model_for_kbit_training(model)

# ------------------
# LoRA
# ------------------
lora_config = LoraConfig(
    r=16,
    lora_alpha=16,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["q_proj","v_proj","k_proj","o_proj"]
)
model = get_peft_model(model, lora_config)

# ------------------
# Data collator para Causal LM
# ------------------
collator = DataCollatorForSeq2Seq(tokenizer=tok, padding=True)

# ------------------
# TrainingArguments
# ------------------
args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    num_train_epochs=10,
    per_device_train_batch_size=12,
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=3,
    learning_rate=2e-4,
    warmup_ratio=0.03,
    logging_steps=20,
    eval_strategy="epoch",
    save_strategy="epoch",
    save_total_limit=2,
    bf16=torch.cuda.is_available(),
    optim="paged_adamw_32bit",
    seed=SEED,
    report_to="none",
    dataloader_num_workers=4,
    load_best_model_at_end=True,
    metric_for_best_model="loss",
    greater_is_better=False
)

# ------------------
# Trainer
# ------------------
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_ds,
    eval_dataset=eval_ds,
    tokenizer=tok,
    data_collator=collator,
    callbacks=[EarlyStoppingCallback(early_stopping_patience=2)]
)

# ------------------
# Treino
# ------------------
trainer.train()
trainer.save_model(OUTPUT_DIR)
tok.save_pretrained(OUTPUT_DIR)

print("Treino finalizado. Modelo salvo em", OUTPUT_DIR)




In [22]:
checkpoint_dir= os.path.join(OUTPUT_DIR, "checkpoint-4204")  # ajuste conforme necessário
# ------------------
# Modelo base com quantização 4-bit
# ------------------
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    device_map="auto",
    trust_remote_code=True,
    quantization_config=bnb_config
)

# 2️⃣ Aplicar o LoRA / PEFT checkpoint
model = PeftModel.from_pretrained(
    model,
    checkpoint_dir,
    device_map="auto",           # mantém a mesma distribuição
)

tok = AutoTokenizer.from_pretrained(checkpoint_dir)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [23]:
model.device

device(type='cuda', index=0)

In [None]:
trainer.save_model(OUTPUT_DIR)
tok.save_pretrained(OUTPUT_DIR)

print("Treino finalizado. Modelo salvo em", OUTPUT_DIR)

In [None]:
# train_dataset = dados_df.sample(frac=0.8, random_state=17)
# val_dataset = dados_df.drop(train_dataset.index)
# hf_dataset = Dataset(pa.Table.from_pandas(dataset)).train_test_split(test_size=0.2)

In [31]:
# ------------------
# Predict (next token)
# ------------------
import torch
import torch.nn.functional as F

# tokens de interesse
target_tokens = [tok.encode("0", add_special_tokens=False)[0], tok.encode("1", add_special_tokens=False)[0], tok.encode("2", add_special_tokens=False)[0]]

def predict_class(prompt_text):
    # tokeniza
    tokenized = tok(prompt_text, return_tensors="pt")
    input_ids = tokenized.input_ids.cuda()
    attention_mask = tokenized.attention_mask.cuda()

    # forward no modelo (sem generate)
    with torch.no_grad():
        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
        # logits do último token
        last_token_logits = outputs.logits[0, -1, :]
        # softmax para probabilidades
        probs = F.softmax(last_token_logits, dim=-1)

    # pegar probabilidades apenas para os tokens 0,1,2
    target_probs = {tok.decode([t]): probs[t].item() for t in target_tokens}

    # escolher token mais provável
    pred_token = max(target_probs, key=target_probs.get)

    return pred_token, target_probs


# Exemplo
example_prompt = PROMPT_TMPL.format(
    title="Paper 1",
    abstract="Abstract 1",
    keywords="k1\n- k2",
    category="Tema 1"
)
print("Predicted class:", predict_class(example_prompt))

Predicted class: ('0', {'0': 0.48779296875, '1': 0.31005859375, '2': 0.2001953125})


In [None]:
label_str = str('MÉDIA')  # "0", "1", "2"
label_ids = tok(label_str, add_special_tokens=False)["input_ids"]  # deve ser 1 token
print(label_ids)


In [None]:

# # ------------------
# # Inferência via probabilidade restrita
# # ------------------
# # mapeia o primeiro token de cada label
# label_ids = {lab: tok.encode(" " + lab, add_special_tokens=False)[0] for lab in LABELS}

# def classify(title, abstract, keywords, category):
#     prompt = PROMPT_TMPL.format(
#         category=category.upper(), title=title.upper(), abstract=abstract.upper(), keywords=keywords.upper()
#     ) + " "
#     inputs = tok(prompt, return_tensors="pt").to(model.device)

#     with torch.no_grad():
#         out = model(**inputs)
#         logits = out.logits[0, -1]  # última posição

#     sel = {lab: logits[label_ids[lab]].item() for lab in LABELS}
#     probs = torch.softmax(torch.tensor(list(sel.values())), dim=0)
#     probs = {lab: float(p) for lab, p in zip(LABELS, probs)}

#     pred = max(probs, key=probs.get)
#     return pred, probs

# print(classify("Detecção de fraudes", "Propomos um método muito legal!", "fraude;pagamentos;ml", "Segurança de Pagamentos"))


In [None]:
# model.device
print("Dispositivo do modelo:", next(model.parameters()).device)

# Considerações Finais para Participação na Challenge do LeanDL-HPC 2025

* **Como artigo regular:** Se você deseja participar da challenge como **artigo regular** da conferência, submeta seu trabalho na **trilha principal (main track)** da conferência, seguindo as diretrizes do sistema de submissão.

* **Como pôster:** Se você deseja participar da challenge no **formato de pôster**, submeta um **documento de até 2 páginas** descrevendo a solução técnica (objetivo, abordagem, arquitetura/modelos, dados, avaliação e limitações).

> **Observação:** A comissão poderá solicitar, para fins de premiação, que um **novo conjunto de teste** seja executado **antes do evento**, de modo a permitir **comparação justa** entre as soluções.
