<a href="https://colab.research.google.com/github/elainedias16/Data-Mining/blob/main/LeanDL_HPC_Challenge_2025_Atividade.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Sobre o Workshop LeanDL-HPC 2025

https://sites.labic.icmc.usp.br/leandl2025/

O LeanDL-HPC 20225 se propõe a explorar e difundir técnicas que permitam **tornar o Deep Learning mais eficiente e escalável no contexto de HPC**, especialmente quando os modelos ultrapassam os recursos típicos dessas infraestruturas. Entre os tópicos em foco estão:

* **Distilação e compressão de modelos**.
* **Quantização**, **pruning**, **cálculos esparços** e **afinamento eficiente de parâmetros**.
* **Otimização de pipelines de inferência** e **deploy consciente de memória/computação**.
* Treinamento e ajuste de LLMs (Modelos de Linguagem de Grande Porte) em sistemas HPC.
* Uso de **arquiteturas leves** como GNNs e CNNs para aplicações científicas.
* Estratégias de **Green AI** e eficiência energética em DL para HPC.



## Este Notebook e o Desafio

Este notebook apresenta **detalhes sobre um dataset** preparado especialmente para um **challenge do workshop LeanDL-HPC 2025**.

O uso deste conjunto de dados é **opcional** e voltado a participantes que desejam trabalhar em uma **tarefa específica** proposta pelo evento.

O desafio envolve **mapear uma amostra teses e dissertações de 2023 para temas estratégicos predefinidos de cada UF**, explorando diferentes níveis de aderência (**BAIXA**, **MÉDIA**, **ALTA**) e, quando possível, apresentando justificativas.

Além de servir como recurso de exploração inicial, o notebook pode apoiar na preparação de soluções para submissão no workshop, alinhadas aos objetivos do LeanDL-HPC 2025.


# LEANDL 2025 — Template de Leitura de Dados e Guia do Desafio

Este notebook apresenta:
- A leitura de **dois arquivos Parquet**:
  - `leandl_oesnpg_dicionario.parquet`: **dicionário de dados** contendo a descrição dos campos.
  - `leandl_oesnpg_dados.parquet`: **dados** contendo amostras de **teses e dissertações de 2023**.
- Um **resumo técnico do desafio**.
- Diretrizes e sugestões de **abordagens de baixo custo** (classificação tradicional, BERT, GNNs, e LLMs até 14B).
- Referências para **medir custo computacional** e **pegada de carbono**.
- Observações importantes sobre a **publicidade** das soluções.



## Desafio: Mapeamento de Teses e Dissertações em Temas Estratégicos da UF

O objetivo é **mapear** cada produção acadêmica (tese/dissertação) para **temas estratégicos predefinidos** do seu estado (UF).

**Observações**:
- Uma mesma produção pode estar associada a **mais de um tema** dentro da mesma UF.
- O mapeamento deve considerar **níveis de aderência**: **BAIXA**, **MÉDIA** e **ALTA**.
- A **justificativa do mapeamento** é **relevante** (explica a decisão) e **bem-vinda**, mas **não é obrigatória**.



## Leitura dos Arquivos Parquet

Abaixo, o código para carregar os dois arquivos:
- `leandl_oesnpg_dicionario.parquet` (dicionário de dados);
- `leandl_oesnpg_dados.parquet` (dados principais).


In [1]:
!pip install codecarbon # reiniciar apos instalar este pacote se você estiver em um notebook

Collecting codecarbon
  Downloading codecarbon-3.0.5-py3-none-any.whl (278 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m278.0/278.0 KB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25hCollecting py-cpuinfo
  Using cached py_cpuinfo-9.0.0-py3-none-any.whl (22 kB)
Collecting pydantic
  Using cached pydantic-2.11.9-py3-none-any.whl (444 kB)
Collecting prometheus_client
  Downloading prometheus_client-0.23.1-py3-none-any.whl (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.1/61.1 KB[0m [31m30.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting arrow
  Using cached arrow-1.3.0-py3-none-any.whl (66 kB)
Collecting pandas
  Downloading pandas-2.3.3-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m88.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting fief-client[cli]
  Using cached fief_client-0.20.0-py3-none-any.whl (

In [1]:
import pandas as pd

#baixando os arquivos (instalar o pacote gdown)
#!gdown 12H957uf6mK-1X_ztT9hgFS1slpN2j-Wh
#!gdown 1-QXkqH8HzLcV2JCA4Nm9G5rQhorYKJVe

# Ajuste os caminhos se necessário
path_dict = "../elaine/leandl_oesnpg_dicionario.parquet"
path_data = "../elaine/leandl_oesnpg_dados.parquet"

# Leitura usando pandas (requer pyarrow ou fastparquet)
dicionario_df = pd.read_parquet(path_dict)
dados_df = pd.read_parquet(path_data)

print("Dimensões do dicionário:", dicionario_df.shape)
print("Dimensões dos dados:", dados_df.shape)




Dimensões do dicionário: (25, 2)
Dimensões dos dados: (42046, 25)


In [2]:
dicionario_df

Unnamed: 0,campo,descricao
0,hash_id,Identificador único (hash) para a produção aca...
1,tema_id,Identificador numérico único do tema estratégico.
2,tema,Nome do tema estratégico definido por uma Unid...
3,palavras_chave,Lista de palavras-chave associadas ao tema est...
4,uf_tema_info,Unidade da Federação (UF) responsável pela def...
5,uf_pesquisador,Unidade da Federação (UF) da instituição de ví...
6,nome_programa,Nome do programa de pós-graduação ao qual a pr...
7,sigla_entidade_ensino,Sigla oficial da instituição de ensino respons...
8,nome_producao,Título completo da tese ou dissertação.
9,nome_subtipo_producao,"Tipo de produção acadêmica, como tese (doutora..."



## Níveis de Aderência (BAIXA, MÉDIA, ALTA)

Atribua **níveis de aderência** que reflitam o grau de correspondência entre o **tema estratégico**
e o **conteúdo** da produção (título, resumo, palavras-chave, etc.).

Sugestão de interpretação:
- **ALTA**: forte coerência semântica e conceitual; termos-chave do tema presentes de forma central no trabalho.
- **MÉDIA**: relação indireta ou parcial; termos aparecem com relevância moderada ou secundária.
- **BAIXA**: relação fraca; termos aparecem superficialmente ou em contextos distintos do tema.

Caso produza **explicações** (ex.: `modelo_explicacao`), procure referenciar **trechos** e **termos** que sustentem a decisão.



## Abordagens de Baixo Custo Recomendadas

### 1) Classificadores tradicionais / BERT (binário: **ALTO** vs **NÃO-ALTO**)
- **Embeddings** de título + resumo (ex.: SBERT, sentence-transformers).
- **Similaridade** com descrições dos temas (cosine similarity).
- **k-NN** ou **regressão logística** (binário) para decidir se é **ALTO** ou **NÃO-ALTO**.
- **Fine-tuning BERT** com amostras rotuladas (quando disponíveis), restringindo o problema a **ALTO** vs **NÃO-ALTO** para reduzir custo.

### 2) LLMs até **14B** de parâmetros (com ou sem fine-tuning)
- **Zero-shot** e **few-shot** com **avaliação sistemática de prompts**.
- **Quantização** (ex.: 4-bit) para reduzir memória/latência.
- **Instruções** claras: definir o papel do modelo, a rubrica de decisão (BAIXA/MÉDIA/ALTA) e pedidos de explicação concisa.
- **Auto-avaliação** de confiança e calibragem (ex.: pedir ao modelo que dê um nível e uma justificativa, depois verificar consistência).

### 3) Estratégias baseadas em grafos
- Modelagem de **grafos de similaridade** entre produções e temas.
- **GNNs** (Graph Neural Networks) para propagar sinais de rótulo e robustecer decisões.
- Uso de **k-NN em embeddings** para construir arestas e explorar **comunidades** temáticas.



## Avaliação

As soluções submetidas devem vir com uma **descrição técnica** (preferencialmente um artigo submtido na main track do workshop LeanDL) cobrindo:
1. **Acurácia do mapeamento** por nível (BAIXA/MÉDIA/ALTA) ou na formulação binária (ALTO vs NÃO-ALTO).
2. **Custo computacional**: **tempo** e **memória** consumidos durante inferência/treinamento.
3. (Opcional) **Matriz de confusão** e análises de erro para interpretar decisões.

OBS: quem preferir apresentar em formato de poster, deve submeter apenas um abstract detalhando sua solução e uma cópia do código.

### Medindo Pegada de Carbono
Sugestão: utilizar a biblioteca **codecarbon**.
- Instalação e instruções: https://mlco2.github.io/codecarbon/installation.html



## Observações Finais

- **Origem dos dados**: todas as informações são públicas, obtidas do Portal de Transparência da CAPES e do Observatório da Pós-Graduação da CAPES, com foco em **amostras de teses e dissertações defendidas em 2023**.
- **Publicidade das soluções**: as soluções propostas devem ser **públicas** para garantir a **avaliação** por membros do comitê científico do LeanDL-HPC 2025.


# Considerações Finais para Participação na Challenge do LeanDL-HPC 2025

* **Como artigo regular:** Se você deseja participar da challenge como **artigo regular** da conferência, submeta seu trabalho na **trilha principal (main track)** da conferência, seguindo as diretrizes do sistema de submissão.

* **Como pôster:** Se você deseja participar da challenge no **formato de pôster**, submeta um **documento de até 2 páginas** descrevendo a solução técnica (objetivo, abordagem, arquitetura/modelos, dados, avaliação e limitações).

> **Observação:** A comissão poderá solicitar, para fins de premiação, que um **novo conjunto de teste** seja executado **antes do evento**, de modo a permitir **comparação justa** entre as soluções.


## Solução Proposta

### Criando DataFrame

In [3]:
import numpy as np
import pandas as pd

def to_fset(x):
    if isinstance(x, (list, tuple, np.ndarray)):
        return frozenset(x)
    if pd.isna(x):
        return frozenset()
    #return frozenset([x])
    return frozenset(x)

df_temas = (
    dados_df.assign(palavras_chave=dados_df["palavras_chave"].apply(to_fset))
            [["tema_id", "tema", "uf_tema_info", "nome_producao", "palavras_chave", "descricao_palavra_chave","descricao_resumo", "modelo_nivel" ]]
            .drop_duplicates()
            .dropna()
)


df_temas

Unnamed: 0,tema_id,tema,uf_tema_info,nome_producao,palavras_chave,descricao_palavra_chave,descricao_resumo,modelo_nivel
0,1,Agronegócio e Tecnologias de Informação e Comu...,ACRE,AS TECNOLOGIAS DIGITAIS DA INFORMAÇÃO E COMUNI...,"(inteligência artificial, assistência técnica ...",TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO;BASE N...,"A PESQUISA, DESCRITA NO PRESENTE TRABALHO, ENV...",BAIXA
1,1,Agronegócio e Tecnologias de Informação e Comu...,ACRE,O CURRÍCULO INTEGRADO DO INSTITUTO FEDERAL DO ...,"(inteligência artificial, assistência técnica ...",ENSINO MÉDIO INTEGRADO;ORGANIZAÇÃO CURRICULAR;...,ESTE ESTUDO INVESTIGOU O CURRÍCULO DO ENSINO M...,MEDIA
2,3,Biodiversidade e Biotecnologia,ACRE,TENDÊNCIA TEMPORAL E DISTRIBUIÇÃO ESPACIAL DAS...,"(turismo de natureza, bioeconomia, conservação...",EPIDEMIOLOGIA;LEISHMANIA;PRAIS-WINSTEN,"INTRODUÇÃO. AS ANÁLISES NOS BIOMAS: AMAZÔNIA, ...",BAIXA
3,3,Biodiversidade e Biotecnologia,ACRE,MODELAGEM DE BIOMASSA FLORESTAL E CÁLCULO DE C...,"(turismo de natureza, bioeconomia, conservação...",GED;SENSORIAMENTO REMOTO;FLORESTA;MAPEAMENTO;B...,DURANTE AS ÚLTIMAS DÉCADAS AS FLORESTAS TROPIC...,MEDIA
4,3,Biodiversidade e Biotecnologia,ACRE,ANÁLISE SOCIOECONÔMICA E AMBIENTAL DA CADEIA P...,"(turismo de natureza, bioeconomia, conservação...",BURITI;PRODUTO FLORESTAL NÃO-MADEIEREIRO;COOPE...,O BIOMA AMAZÔNICO OCUPA POSIÇÃO DE DESTAQUE NO...,ALTA
...,...,...,...,...,...,...,...,...
42039,466,Sistemas Agrícolas Sustentáveis,TOCANTINS,AVALIAÇÃO ECOTOXICOLÓGICA DE EFLUENTE DE ABATE...,"(infraestrutura logística, agricultura familia...",FERTILIZAÇÃO.;INVERTEBRADO DE ÁGUA DOCE;INVERT...,O DESCARTE DE RESÍDUOS EM MATADOUROS É UM DESA...,MEDIA
42040,466,Sistemas Agrícolas Sustentáveis,TOCANTINS,ANÁLISES MORFO-FISIOLÓGICAS DE PLANTAS DE ACRO...,"(infraestrutura logística, agricultura familia...",MACAÚBA;TOXIDADE;CHIQUIMATO;HERBICIDA;IRGA,AS CULTURAS OLEAGINOSAS SÃO AS MAIS ESTUDADAS ...,BAIXA
42042,467,Transformação Digital,TOCANTINS,DESENVOLVIMENTO DE JOGO EDUCATIVO SOBRE PROPRI...,"(monitoramento e avaliação, cibersegurança, qu...",JOGO DE TABULEIRO;PROPRIEDADE INTELECTUAL;TRAN...,TRATA-SE DE UM PROTÓTIPO PARA A CONCEPÇÃO DE U...,BAIXA
42043,467,Transformação Digital,TOCANTINS,DESAFIOS E OPORTUNIDADES DA IMPLEMENTAÇÃO DA I...,"(monitoramento e avaliação, cibersegurança, qu...",INOVAÇÃO ABERTA;MARCO LEGAL DE CIÊNCIA;TECNOLO...,A INOVAÇÃO ABERTA (IA) TEM SIDO UTILIZADA COMO...,BAIXA


In [4]:
df_temas['modelo_nivel'].isna().any()
df_temas[df_temas['modelo_nivel'].isna()]


Unnamed: 0,tema_id,tema,uf_tema_info,nome_producao,palavras_chave,descricao_palavra_chave,descricao_resumo,modelo_nivel


## Pré processamento

In [None]:
# import nltk
# nltk.download('punkt')

# !pip install unidecode
# import unidecode

# nltk.download('stopwords')
# from nltk.corpus import stopwords
# stop_words = set(stopwords.words('portuguese'))

# from nltk.tokenize import word_tokenize

# from nltk.stem import RSLPStemmer
# nltk.download('rslp')
# nltk.download('punkt_tab')

ModuleNotFoundError: No module named 'nltk'

In [None]:
# # stemming
# def stemming(text):
#   stemmer = nltk.stem.RSLPStemmer() # stemming to portuguese
#   tokens = word_tokenize(text) #get tokens

#   doc_text_stems = [stemmer.stem(i) for i in tokens]
#   return doc_text_stems

# def remove_stop_words(tokens):
#   text = [token for token in tokens if token not in stop_words]
#   return text

# def remove_non_alphanumeric(tokens):
#   text = [token for token in tokens if token.isalnum()]
#   return text


: 

In [None]:
# def preprocessing(text):

#     text = text.lower()
#     text = unidecode.unidecode(text) #remove accents
#     text = stemming(text) #stemming returns a vector of tokens
#     text = remove_stop_words(text)
#     text = remove_non_alphanumeric(text)
#     return ' '.join(text)


: 

In [None]:
# def preprocess_dataset(df, columns):
#   df[columns] = df[columns].astype(str).applymap(preprocessing)
#   return df

: 

In [None]:
#columns_to_preprocess = ["tema", "palavras_chave", "nome_producao", "descricao_palavra_chave", "descricao_resumo"]
# columns_to_preprocess = ["tema", "descricao_resumo" ]

# df_temas = preprocess_dataset(df_temas, columns_to_preprocess)
# df_temas.head()

: 

## Criação dos embeddings

In [6]:
from codecarbon import EmissionsTracker #to calculate CO2 emissions


  import pynvml


In [11]:
!pip install gensim

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting gensim
  Downloading gensim-4.3.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.5/26.5 MB[0m [31m68.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting smart-open>=1.8.1
  Downloading smart_open-7.3.1-py3-none-any.whl (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.7/61.7 KB[0m [31m21.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting numpy<2.0,>=1.18.5
  Downloading numpy-1.26.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.2/18.2 MB[0m [31m90.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting scipy<1.14.0,>=1.7.0
  Downloading scipy-1.13.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (38.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m38.6/38.6 MB[0m [31m68.1 MB/s[0m eta [36m0:00:00[0m00:01[0m0

In [14]:
def create_embeddings(words_list, model):
    vector_size = model.vector_size
    emb = np.zeros((len(words_list), vector_size))

    for i, word in enumerate(words_list):
        if word in model.wv:
            emb[i] = model.wv[word]

    return emb

In [None]:
import gensim.downloader as api
from gensim.models import Word2Vec

model_word2vec = api.load("word2vec-google-news-300")


embeddings_tema_word2vec = create_embeddings(df_temas['tema'].tolist(), model_word2vec)
print(embeddings_tema_word2vec.shape)

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

In [8]:
!pip install -U sentence-transformers

Collecting sentence-transformers
  Using cached sentence_transformers-5.1.1-py3-none-any.whl (486 kB)
Collecting tqdm
  Using cached tqdm-4.67.1-py3-none-any.whl (78 kB)
Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (9.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.7/9.7 MB[0m [31m63.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting torch>=1.11.0
  Using cached torch-2.8.0-cp310-cp310-manylinux_2_28_x86_64.whl (888.0 MB)
Collecting transformers<5.0.0,>=4.41.0
  Using cached transformers-4.56.2-py3-none-any.whl (11.6 MB)
Collecting Pillow
  Using cached pillow-11.3.0-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (6.6 MB)
Collecting scipy
  Downloading scipy-1.15.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (37.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m37.7/37.7 MB[0m [31m72.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00

In [9]:
from sentence_transformers import SentenceTransformer

model_SBERT = SentenceTransformer("all-MiniLM-L6-v2")


tracker = EmissionsTracker()
tracker.start()


embeddings_tema_SBERT = model_SBERT.encode(df_temas["tema"].tolist(), show_progress_bar=True)
embeddings_descricao_resumo_SBERT = model_SBERT.encode(df_temas["descricao_resumo"].tolist(), show_progress_bar=True)
print(embeddings_tema_SBERT.shape)
print(embeddings_descricao_resumo_SBERT.shape)

  from .autonotebook import tqdm as notebook_tqdm
Batches: 100%|██████████| 1030/1030 [00:07<00:00, 135.53it/s]
Batches: 100%|██████████| 1030/1030 [00:19<00:00, 52.01it/s]

(32931, 384)
(32931, 384)





In [10]:
!pip install sentencepiece

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting sentencepiece
  Downloading sentencepiece-0.2.1-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (1.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m23.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.2.1


In [None]:
from sklearn.metrics.pairwise import cosine_similarity

similarities = []

for i in range(len(embeddings_tema_SBERT)):
    sim = cosine_similarity(
        embeddings_tema_SBERT[i].reshape(1, -1),  # garante que seja 2D
        embeddings_descricao_resumo_SBERT[i].reshape(1, -1)
    )
    similarities.append(sim[0][0])  # extrai o valor escalar da matriz 1x1

# Converte para DataFrame
df_similarity = pd.DataFrame(similarities, columns=[ "similarity"])

df_similarity.head()

Unnamed: 0,similarity
0,0.65514
1,0.540817
2,0.51963
3,0.478816
4,0.47316


: 

## Criando o classificador

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder


X = df_similarity
le = LabelEncoder()
y = le.fit_transform(df_temas['modelo_nivel'])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


emissions: float = tracker.stop()
print("\n\nTotal de emissões (detalhes em emissions.csv): ",emissions)

Accuracy: 0.29998481858205556


Total de emissões (detalhes em emissions.csv):  0.0006943296168124973


: 