In [1]:
from prompts import PROMPT_ASSUNTO, PROMPT_DIFICULDADE, PROMPT_SUBASSUNTO, REGRAS_SAIDA
import json
import os
import pandas as pd
from src.codes.questao import Questao
from groq import Groq
import re
import time
from openai import OpenAI

Como deve ser chamado cada um dos prompts

```python
assunto = PROMPT_ASSUNTO.format(
	enunciado="Teste", 
	regras_da_saida=REGRAS_SAIDA.format(
		regra="Fundamentos da Matemática, Fundamentos de Computação ou Algoritmos e Estruturas de Dados"
	)
)

dificuldade = PROMPT_DIFICULDADE.format(
	enunciado="Teste", 
	regras_da_saida=REGRAS_SAIDA.format(
		regra="Fácil, Médio ou Difícil"
	)
)
subassunto = PROMPT_SUBASSUNTO.format(
	enunciado="Teste", 
	conteudo_estruturado_subassuntos = subassuntos('Algoritmos e Estruturas de Dados'),
	regras_da_saida=REGRAS_SAIDA.format(
		regra="<Grupo> \ <Subassunto> \ <Nível>"
	)
)
```

In [2]:
with open('src/data/conteudo.json', 'r') as file:
	conteudo = json.load(file)

In [3]:
def subassuntos(assunto: str) -> str:
	"""
	Retorna os subassuntos disponíveis para o assunto especificado.

	Args:
		assunto (str): O assunto para o qual se deseja obter os subassuntos.

	Returns:
		str: Uma string formatada contendo os subassuntos e seus tópicos correspondentes.
	"""
	indice = -1
	if assunto == 'Fundamentos de Matemática':
		indice = 0
	elif assunto == 'Fundamentos de Computação':
		indice = 1
	elif assunto == 'Algoritmos e Estruturas de Dados':
		indice = 2
	
	subassunto = ""
	for i,topico in enumerate(conteudo['conteudosEstruturados'][indice]['subsecoes'], start=1):
		subassunto += f"{i}. {topico['titulo']}\n"
		for subtopico in topico['topicos']:
			subassunto += f"\t[{subtopico['nivel']}] {subtopico['descricao']}\n"

	return subassunto

In [4]:
link_questoes = pd.read_csv('questoes.csv')

In [5]:
client = OpenAI(
	api_key=os.getenv('API_KEY')
)

In [6]:
def obter_conteudo_formatado(prompt: str, model: str = 'gpt-4.1-2025-04-14') -> str:
    resposta = client.chat.completions.create(
        messages=[{"role": "user", "content": prompt}],
        model=model
    )
    conteudo = resposta.choices[0].message.content.strip()
    match = re.search(r'</think>\s*(.*)', conteudo, re.DOTALL)
    return match.group(1).strip() if match else conteudo

In [10]:
resultados = []

for i, url in enumerate(link_questoes['Link'], start=1):
	print(f"{'='*20} Questão {i} {'='*20}")

	questao_texto = Questao(url).texto()

	# Classificação do assunto
	prompt_assunto = PROMPT_ASSUNTO.format(
		enunciado=questao_texto,
		regras_da_saida=REGRAS_SAIDA.format(
			regra="Fundamentos de Matemática, Fundamentos de Computação ou Algoritmos e Estruturas de Dados"
		)
	)
	assunto_final = obter_conteudo_formatado(prompt_assunto)
	print(f"Assunto: {assunto_final}")

	# Classificação do nível de dificuldade
	prompt_dificuldade = PROMPT_DIFICULDADE.format(
		enunciado=questao_texto,
		regras_da_saida=REGRAS_SAIDA.format(regra="Fácil, Médio ou Difícil")
	)
	nivel_final = obter_conteudo_formatado(prompt=prompt_dificuldade)
	print(f"Nível de dificuldade: {nivel_final}")

	# Classificação do subassunto
	subassuntos_str = subassuntos(assunto_final)
	prompt_subassunto = PROMPT_SUBASSUNTO.format(
		enunciado=questao_texto,
		conteudo_estruturado_subassuntos=subassuntos_str,
		regras_da_saida=REGRAS_SAIDA.format(regra="<Grupo_subassunto> | <Subassunto> | <Nível>")
	)
	subassunto_final = obter_conteudo_formatado(prompt=prompt_subassunto)

	try:
		grupo_subassunto, subassunto, nivel_subassunto = [s.strip() for s in subassunto_final.split('|')]
		print(f"Grupo de subassunto: {grupo_subassunto}")
		print(f"Subassunto: {subassunto}")
		print(f"Nível de subassunto: {nivel_subassunto}")
	except Exception:
		grupo_subassunto, subassunto, nivel_subassunto = '', '', ''

	resultados.append({
		'url': url,
		'assunto': assunto_final,
		'nivel': nivel_final,
		'grupo_subassunto': grupo_subassunto,
		'subassunto': subassunto,
		'nivel_subassunto': nivel_subassunto
	})
	time.sleep(10)  # Aguardar 1 segundo entre as requisições para evitar sobrecarga
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv('src/data/base_questoes_classificadas.csv', index=False)

Assunto: Algoritmos e Estruturas de Dados
Nível de dificuldade: Médio
Grupo de subassunto: Estratégias de Algoritmos
Subassunto: Estratégias simples de iteração e repetição
Nível de subassunto: PJ
Assunto: Fundamentos de Matemática
Nível de dificuldade: Médio
Grupo de subassunto: Conceitos de Aritmética e Geometria
Subassunto: Números inteiros, operações (incluindo exponenciação) e comparações
Nível de subassunto: PJ
Assunto: Algoritmos e Estruturas de Dados
Nível de dificuldade: Difícil
Grupo de subassunto: Algoritmos em Árvores
Subassunto: Diâmetro e centro de árvore em O(N)
Nível de subassunto: P1
Assunto: Algoritmos e Estruturas de Dados
Nível de dificuldade: Difícil
Grupo de subassunto: Estruturas de Dados
Subassunto: Árvore de Prefixos (Trie)
Nível de subassunto: P2
Assunto: Algoritmos e Estruturas de Dados
Nível de dificuldade: Difícil
Grupo de subassunto: Estratégias de Algoritmos
Subassunto: Estratégias simples de iteração e repetição
Nível de subassunto: PJ
Assunto: Fundament

In [9]:
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv('src/data/base_questoes_classificadas.csv', index=False)

In [21]:
base = pd.read_csv('src/data/base_questoes_classificadas.csv')
base = base[base['assunto'].isin(['Fundamentos de Matemática', 'Algoritmos e Estruturas de Dados', 'Fundamentos de Computação'])]
base.to_csv('src/data/base_questoes_classificadas.csv', index=False)

In [25]:
# Obter todos os subassuntos válidos do conteudo.json
subassuntos_validos = set()
for assunto in conteudo['conteudosEstruturados']:
	for subsecao in assunto['subsecoes']:
		for topico in subsecao['topicos']:
			subassuntos_validos.add(topico['descricao'].strip())

# Filtrar a base para manter apenas linhas cujo subassunto está no conteudo.json
base_filtrada = base[base['subassunto'].isin(subassuntos_validos)].copy()
base_filtrada.to_csv('src/data/base_questoes_classificadas_filtrada.csv', index=False)

subassunto
Números inteiros, operações (incluindo exponenciação) e comparações                         13
Estrutura básica de um computador (componentes, CPU, memória)                                7
Reta, segmento de reta, ângulo, triângulo, retângulo, quadrado, círculo                      6
Histograma (Vetor de Frequências)                                                            6
Programação dinâmica                                                                         6
                                                                                            ..
Não há subassunto abrangido                                                                  1
Não identificável pelos subassuntos listados                                                 1
Não se enquadra em subassuntos da lista                                                      1
Ordenação em O(N log N) com função da biblioteca padrão, incluindo funções de comparação     1
Programação dinâmica com máscara de bit