# Fase 1 - Pipeline de Extra√ß√£o de Conceitos (PDF -> Markdown -> LLM)

Extra√ß√£o de conceitos t√©cnicos a partir do livro em PDF, utilizando uma abordagem de convers√£o intermedi√°ria para Markdown para preservar a hierarquia dos cap√≠tulos.

**Configura√ß√£o Inicial:** Importa as bibliotecas necess√°rias e carrega as vari√°veis de ambiente (chaves de API) para preparar o ambiente de execu√ß√£o.

In [1]:
# Instala√ß√£o de depend√™ncias
!pip install -q pymupdf4llm langchain langchain-openai langchain-anthropic pydantic tqdm python-dotenv ipywidgets

import os
import re
import json
import pymupdf4llm
# Usando tqdm padr√£o para evitar conflitos de widget
from tqdm import tqdm
from dotenv import load_dotenv
from typing import List, Optional, Dict
from pydantic import BaseModel, Field
from langchain_openai import ChatOpenAI
from langchain_anthropic import ChatAnthropic
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser, PydanticOutputParser

# Carregar vari√°veis de ambiente (.env)
load_dotenv()

if not os.getenv("OPENAI_API_KEY"):
    print("AVISO: OPENAI_API_KEY n√£o encontrada no ambiente.")
if not os.getenv("ANTHROPIC_API_KEY"):
    print("AVISO: ANTHROPIC_API_KEY n√£o encontrada no ambiente. A etapa de indu√ß√£o de ontologia falhar√°.")

Consider using the pymupdf_layout package for a greatly improved page layout analysis.


**Convers√£o PDF para Markdown:** Converte o arquivo PDF original em texto estruturado Markdown, facilitando a leitura e extra√ß√£o de informa√ß√µes pelo LLM.

In [2]:
def convert_pdf_to_markdown_memory(pdf_path):
    """
    Converte um arquivo PDF para Markdown mantendo o conte√∫do em mem√≥ria.
    Utiliza pymupdf4llm para preservar a estrutura sem√¢ntica.
    """
    if not os.path.exists(pdf_path):
        raise FileNotFoundError(f"Arquivo n√£o encontrado: {pdf_path}")
    
    print(f"Convertendo '{pdf_path}' para Markdown...")
    # pymupdf4llm.to_markdown retorna uma string com o conte√∫do em Markdown
    md_text = pymupdf4llm.to_markdown(pdf_path)
    print("Convers√£o conclu√≠da.")
    return md_text

**Segmenta√ß√£o de Cap√≠tulos:** Divide o texto Markdown completo em cap√≠tulos individuais, permitindo um processamento granular e isolado.

In [3]:
def split_markdown_chapters(md_content):
    """
    Segmenta o conte√∫do Markdown em cap√≠tulos baseando-se no padr√£o '# **N**'.
    Ignora conte√∫do antes do primeiro cap√≠tulo numerado.
    """
    # Regex para identificar o in√≠cio dos cap√≠tulos conforme padr√£o observado: # **<N√∫mero>**
    # Captura o n√∫mero do cap√≠tulo
    pattern = r'\n# \*\*(\d+)\*\*'
    
    # Encontrar todas as posi√ß√µes de in√≠cio de cap√≠tulo
    matches = list(re.finditer(pattern, md_content))
    
    chapters = []
    
    if not matches:
        print("Nenhum padr√£o de cap√≠tulo '# **N**' encontrado. Verifique o formato do Markdown.")
        return []

    print(f"Encontrados {len(matches)} marcadores de cap√≠tulo.")

    for i, match in enumerate(matches):
        chapter_num = match.group(1)
        start_pos = match.start()
        
        # O fim deste cap√≠tulo √© o in√≠cio do pr√≥ximo, ou o fim do arquivo
        if i + 1 < len(matches):
            end_pos = matches[i+1].start()
        else:
            end_pos = len(md_content)
            
        # Extrair conte√∫do
        chapter_content = md_content[start_pos:end_pos].strip()
        
        # Tentar extrair um t√≠tulo da primeira linha ou linhas adjacentes para log/valida√ß√£o
        lines = chapter_content.split('\n')
        header_line = lines[0]
        # Remover o marcador para tentar pegar o resto como t√≠tulo
        title_candidate = re.sub(r'# \*\*\d+\*\*\s*', '', header_line).strip()
        
        # Se o t√≠tulo n√£o estiver na mesma linha, verifica a pr√≥xima
        if not title_candidate and len(lines) > 1:
            next_line = lines[1].strip()
            if next_line:
                title_candidate = next_line
        
        if not title_candidate:
            title_candidate = f"Cap√≠tulo {chapter_num}"

        # Limita o tamanho do t√≠tulo para exibi√ß√£o
        display_title = (title_candidate[:75] + '..') if len(title_candidate) > 75 else title_candidate
        print(f"  üìÑ Cap√≠tulo {chapter_num}: {display_title}")
        
        chapters.append({
            'chapter_id': chapter_num,
            'title': title_candidate,
            'content': chapter_content
        })
        
    return chapters

**Configura√ß√£o do Extrator:** Define os esquemas de dados (Schemas) e configura o modelo LLM e o prompt para a extra√ß√£o inicial de conceitos dos textos.

In [4]:
# --- Configura√ß√£o dos Schemas e LLM de Extra√ß√£o ---

# Schema flex√≠vel para a primeira etapa (Extra√ß√£o em Massa)
class Concept(BaseModel):
    nome: str = Field(description="O nome exato do conceito t√©cnico, normalizado (ex: 'ls', '/etc/passwd').")
    tipo: str = Field(description="Categoria t√©cnica espec√≠fica inferida do texto. Seja detalhista (ex: 'Gerenciador de Pacotes', 'Vari√°vel de Ambiente', 'Daemon do Kernel').")
    definicao: str = Field(description="Uma defini√ß√£o t√©cnica focada na utilidade e fun√ß√£o dentro do sistema Linux.")
    capitulo_origem: str = Field(description="ID do cap√≠tulo de onde foi extra√≠do.")

class ConceptList(BaseModel):
    conceitos: List[Concept]

# Inicializa o modelo extrator (gpt-4o-mini - R√°pido e Eficiente)
try:
    llm_extractor = ChatOpenAI(model="gpt-4o-mini", temperature=0)
except Exception as e:
    print(f"Erro ao inicializar ChatOpenAI: {e}")

# Parser
parser = PydanticOutputParser(pydantic_object=ConceptList)

# Prompt Template para Extra√ß√£o Livre
prompt_extractor = ChatPromptTemplate.from_messages([
    ("system", """Voc√™ √© um Especialista em Knowledge Tracing e Engenharia de Dados.
    Sua tarefa √© extrair conceitos t√©cnicos (Knowledge Components) de material did√°tico.
    """),
    ("user", """Analise o texto do Cap√≠tulo {chapter_id} ({chapter_title}).

    ### OBJETIVO:
    Extraia TODOS os conceitos t√©cnicos relevantes.
    
    ### REGRAS:
    1. **Canonicaliza√ß√£o de Nomes:**
       - Comandos: Apenas o bin√°rio (ex: "ls", n√£o "comando ls").
       - Diret√≥rios: Caminho absoluto (ex: "/etc").
    2. **Tipagem Livre:**
       - N√£o se restrinja a categorias fixas. Identifique o que o objeto √â no contexto (ex: "Op√ß√£o de Boot", "Sistema de Arquivos", "Sigla").
    3. **Defini√ß√µes Ricas:** Explique a fun√ß√£o e utilidade t√©cnica.

    {format_instructions}

    ---
    Texto:
    {content}
    """)
])

# Chain de Extra√ß√£o
chain_extractor = prompt_extractor | llm_extractor | parser

print("Configura√ß√£o de Extra√ß√£o (gpt-4o-mini) conclu√≠da.")

Configura√ß√£o de Extra√ß√£o (gpt-4o-mini) conclu√≠da.


**Pipeline de Extra√ß√£o em Massa:** Executa a extra√ß√£o de conceitos em todos os cap√≠tulos do livro de forma paralela para otimizar o tempo de processamento.

In [5]:
# --- Pipeline de Extra√ß√£o em Massa (Paralelizado) ---
from concurrent.futures import ThreadPoolExecutor, as_completed

pdf_path = "pdf/linux.pdf"
raw_concepts = [] # Lista para armazenar extra√ß√£o bruta

# Fun√ß√£o auxiliar para processar um √∫nico cap√≠tulo (Isolamento da l√≥gica)
def process_chapter_task(chapter):
    try:
        # Limitar contexto (aprox 40k caracteres para n√£o estourar tokens)
        content_slice = chapter['content'][:40000]
        
        # Invocar gpt-4o-mini
        result = chain_extractor.invoke({
            "chapter_id": chapter['chapter_id'],
            "chapter_title": chapter['title'],
            "content": content_slice,
            "format_instructions": parser.get_format_instructions()
        })
        
        if result and result.conceitos:
            # Retorna lista de dicts
            return [c.model_dump() for c in result.conceitos]
    except Exception as e:
        print(f"\n‚ùå Erro no cap√≠tulo {chapter['chapter_id']}: {str(e)}")
        return []
    return []

# --- Execu√ß√£o Principal ---

if not os.path.exists(pdf_path):
    print(f"‚ùå Erro: Arquivo {pdf_path} n√£o encontrado.")
else:
    # 1. Converter PDF (se necess√°rio)
    if 'md_content' not in locals():
        md_content = convert_pdf_to_markdown_memory(pdf_path)
    
    # 2. Segmentar Cap√≠tulos (se necess√°rio)
    if 'chapters' not in locals() or not chapters:
        chapters = split_markdown_chapters(md_content)
    
    # 3. Loop de Extra√ß√£o Paralela
    if chapters:
        print(f"\nüöÄ Iniciando extra√ß√£o PARALELA em massa ({len(chapters)} cap√≠tulos)...")
        
        # max_workers=5 √© um bom equil√≠brio. Se tiver conta Tier 2+ na OpenAI, pode tentar 8 ou 10.
        with ThreadPoolExecutor(max_workers=3) as executor:
            # Submete todas as tarefas
            future_to_chapter = {executor.submit(process_chapter_task, ch): ch for ch in chapters}
            
            # Processa conforme v√£o ficando prontas (com barra de progresso)
            for future in tqdm(as_completed(future_to_chapter), total=len(chapters), desc="Processando em paralelo"):
                result_concepts = future.result()
                if result_concepts:
                    raw_concepts.extend(result_concepts)

        print(f"\nExtra√ß√£o bruta conclu√≠da. Total: {len(raw_concepts)} conceitos.")
    else:
        print("Nenhum cap√≠tulo identificado.")

Convertendo 'pdf/linux.pdf' para Markdown...
Convers√£o conclu√≠da.
Encontrados 26 marcadores de cap√≠tulo.
  üìÑ Cap√≠tulo 1: Cap√≠tulo 1
  üìÑ Cap√≠tulo 2: Cap√≠tulo 2
  üìÑ Cap√≠tulo 3: Cap√≠tulo 3
  üìÑ Cap√≠tulo 4: Cap√≠tulo 4
  üìÑ Cap√≠tulo 5: Cap√≠tulo 5
  üìÑ Cap√≠tulo 6: Cap√≠tulo 6
  üìÑ Cap√≠tulo 7: Cap√≠tulo 7
  üìÑ Cap√≠tulo 8: Cap√≠tulo 8
  üìÑ Cap√≠tulo 9: Cap√≠tulo 9
  üìÑ Cap√≠tulo 10: Cap√≠tulo 10
  üìÑ Cap√≠tulo 11: Cap√≠tulo 11
  üìÑ Cap√≠tulo 12: Cap√≠tulo 12
  üìÑ Cap√≠tulo 13: Cap√≠tulo 13
  üìÑ Cap√≠tulo 14: Cap√≠tulo 14
  üìÑ Cap√≠tulo 15: Cap√≠tulo 15
  üìÑ Cap√≠tulo 16: Cap√≠tulo 16
  üìÑ Cap√≠tulo 17: Cap√≠tulo 17
  üìÑ Cap√≠tulo 18: Cap√≠tulo 18
  üìÑ Cap√≠tulo 19: Cap√≠tulo 19
  üìÑ Cap√≠tulo 20: Cap√≠tulo 20
  üìÑ Cap√≠tulo 21: Cap√≠tulo 21
  üìÑ Cap√≠tulo 22: Cap√≠tulo 22
  üìÑ Cap√≠tulo 23: Cap√≠tulo 23
  üìÑ Cap√≠tulo 24: Cap√≠tulo 24
  üìÑ Cap√≠tulo 25: Cap√≠tulo 25
  üìÑ Cap√≠tulo 26: Cap√≠tulo 26

üöÄ Iniciando extra√ß√£o

Processando em paralelo: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26/26 [03:26<00:00,  7.95s/it]


Extra√ß√£o bruta conclu√≠da. Total: 360 conceitos.





**Indu√ß√£o de Ontologia:** Utiliza um modelo LLM (GPT-4o) para analisar os tipos de conceitos extra√≠dos e criar dinamicamente uma taxonomia (ontologia) unificada.

In [6]:
# --- Indu√ß√£o de Ontologia (GPT-4o) ---

ontology_map = {}

def induce_ontology(raw_data):
    """
    Usa GPT-4o para criar uma taxonomia can√¥nica a partir dos tipos brutos.
    (Substitu√≠do Claude 3.5 Sonnet por GPT-4o para evitar erro 404 e unificar provedor)
    """
    print("Iniciando Indu√ß√£o de Ontologia com GPT-4o...")
    
    # 1. Extrair tipos √∫nicos
    unique_types = list(set([c['tipo'] for c in raw_data]))
    print(f"   Tipos brutos encontrados: {len(unique_types)}")
    
    # Se houver muitos tipos, amostragem ou divis√£o em batches pode ser necess√°ria,
    # mas para este escopo vamos enviar todos.
    
    try:
        llm_ontologist = ChatOpenAI(
            model="gpt-4o",
            temperature=0
        )
        
        prompt_ontology = ChatPromptTemplate.from_messages([
                    ("system", """Voc√™ √© um Arquiteto de Ontologias S√™nior especializado em Grafos de Conhecimento Educacional (SINKT).
                    
                    Sua tarefa √© analisar uma lista de 'tipos de conceitos' extra√≠dos de forma bruta de um livro de Linux e criar uma Taxonomia Can√¥nica (Upper Ontology).
                    
                    DIRETRIZES ESTRITAS:
                    1. Crie entre 6 a 12 categorias mestras (Can√¥nicas) que agrupem os conceitos t√©cnicos.
                    Exemplos sugeridos: 'COMANDO', 'SISTEMA_ARQUIVOS', 'REDE', 'CONCEITO_TEORICO', 'FERRAMENTA', 'HARDWARE', 'PERMISSAO', 'SHELL_SCRIPT'.
                    
                    2. TRATAMENTO DE RU√çDO: Se um tipo bruto n√£o for um conceito t√©cnico ensin√°vel (ex: "Metadado", "N√∫mero de P√°gina", "Autor", "√çndice", "Dica"), mapeie-o para a categoria especial "NOISE".
                    
                    3. CONSIST√äNCIA: Comandos bin√°rios (ls, cd) devem ser 'COMANDO'. Arquivos e pastas (/etc, /bin) devem ser 'SISTEMA_ARQUIVOS'.
                    """),
                    ("user", """Analise a lista de tipos brutos abaixo e mapeie cada um para sua Categoria Can√¥nica.
                    
                    Tipos Brutos Encontrados:
                    {raw_types}
                    
                    Retorne APENAS um JSON v√°lido no formato:
                    {{
                        "map": {{
                            "tipo_bruto_1": "COMANDO",
                            "tipo_bruto_2": "NOISE",
                            "tipo_bruto_3": "SISTEMA_ARQUIVOS"
                        }},
                        "taxonomy": ["COMANDO", "SISTEMA_ARQUIVOS", "REDE", "NOISE", "..."]
                    }}
                    """)
                ])
        chain_ontologist = prompt_ontology | llm_ontologist | JsonOutputParser()
        
        result = chain_ontologist.invoke({"raw_types": json.dumps(unique_types, ensure_ascii=False)})
        
        print("Indu√ß√£o conclu√≠da.")
        print(f"   Taxonomia criada: {result.get('taxonomy', [])}")
        return result.get('map', {})
        
    except Exception as e:
        print(f"Falha na Indu√ß√£o de Ontologia: {e}")
        print("   Usando fallback (mapa de identidade)...")
        return {t: t for t in unique_types}

# Executar Indu√ß√£o se houver dados
if raw_concepts:
    ontology_map = induce_ontology(raw_concepts)
else:
    print("Sem dados brutos para induzir ontologia.")

Iniciando Indu√ß√£o de Ontologia com GPT-4o...
   Tipos brutos encontrados: 140
Indu√ß√£o conclu√≠da.
   Taxonomia criada: ['COMANDO', 'SISTEMA_ARQUIVOS', 'REDE', 'CONCEITO_TEORICO', 'FERRAMENTA', 'SHELL_SCRIPT', 'NOISE']


**Normaliza√ß√£o e Consolida√ß√£o:** Padroniza os conceitos extra√≠dos utilizando a ontologia criada, removendo duplicatas e unificando defini√ß√µes e metadados.

In [7]:
# --- Normaliza√ß√£o e Consolida√ß√£o Final ---

def normalize_and_consolidate(raw_data, type_map):
    print("Iniciando Normaliza√ß√£o e Consolida√ß√£o...")
    
    # 1. Normalizar Tipos e Filtrar Ru√≠do
    normalized_data = []
    removed_count = 0
    
    for item in raw_data:
        original_type = item['tipo']
        # Usa o mapa, ou mant√©m original se n√£o encontrado
        canonical_type = type_map.get(original_type, original_type)
        
        # FILTRAGEM DE RU√çDO: Se for mapeado como NOISE, descartamos.
        if canonical_type == "NOISE":
            removed_count += 1
            continue

        # Cria c√≥pia para n√£o mutar original (opcional, mas boa pr√°tica)
        new_item = item.copy()
        new_item['tipo'] = canonical_type
        new_item['tipo_original'] = original_type # Guarda hist√≥rico
        normalized_data.append(new_item)
    
    print(f"   Itens removidos como 'NOISE': {removed_count}")
        
    # 2. Consolidar (Deduplica√ß√£o por Nome)
    consolidated = {}
    
    for concept in normalized_data:
        key = concept['nome'].strip().lower()
        
        if key not in consolidated:
            consolidated[key] = concept
            consolidated[key]['_chapter_set'] = {concept['capitulo_origem']}
        else:
            existing = consolidated[key]
            existing['_chapter_set'].add(concept['capitulo_origem'])
            
            # Resolu√ß√£o de conflitos de defini√ß√£o (mant√©m a mais longa)
            if len(concept['definicao']) > len(existing['definicao']):
                existing['definicao'] = concept['definicao']
                existing['nome'] = concept['nome'] # Preserva casing do vencedor
                
            # Resolu√ß√£o de Tipo:
            # Se j√° normalizamos, os tipos devem ser iguais.
            # Se houver diverg√™ncia (ex: mesmo nome mapeado para categorias diferentes por contexto),
            # Priorizamos por frequ√™ncia ou simplesmente mantemos o que j√° est√°.
            # Aqui, como simplifica√ß√£o, mantemos o tipo do conceito com a melhor defini√ß√£o.
            if len(concept['definicao']) > len(existing['definicao']):
                 existing['tipo'] = concept['tipo']

    # Finalizar
    final_list = []
    for item in consolidated.values():
        chapters = sorted(list(item['_chapter_set']), key=lambda x: int(x) if x.isdigit() else 999)
        item['capitulo_origem'] = ", ".join(chapters)
        del item['_chapter_set']
        
        # Opcional: Remover campo auxiliar tipo_original para limpar JSON final
        if 'tipo_original' in item:
            del item['tipo_original']
            
        final_list.append(item)
    
    final_list.sort(key=lambda x: x['nome'].lower())
    
    print(f"Processo Finalizado.")
    print(f"   Conceitos √önicos Consolidados: {len(final_list)}")
    return final_list

if raw_concepts and ontology_map:
    final_concepts = normalize_and_consolidate(raw_concepts, ontology_map)
else:
    final_concepts = []

Iniciando Normaliza√ß√£o e Consolida√ß√£o...
   Itens removidos como 'NOISE': 41
Processo Finalizado.
   Conceitos √önicos Consolidados: 254


**Salvar Artefatos Finais:** Salva os dados processados (conceitos, ontologia e cap√≠tulos) em arquivos JSON para persist√™ncia e uso nas pr√≥ximas etapas do pipeline.

In [8]:
# --- Salvar Artefatos Finais ---

output_folder = "output/01_extraction" # üìÇ NOVA PASTA
output_ontology_path = f"{output_folder}/ontology_map.json"
output_json_path = f"{output_folder}/concepts_map.json"
output_chapters_path = f"{output_folder}/chapters_content.json"

if final_concepts:
    try:
        # Criar pasta de sa√≠da
        os.makedirs(output_folder, exist_ok=True)
        
        # Salvar Conceitos
        with open(output_json_path, 'w', encoding='utf-8') as f:
            json.dump(final_concepts, f, indent=4, ensure_ascii=False)
        print(f"üíæ Conceitos salvos: {output_json_path}")
        
        # Salvar Mapa Ontol√≥gico
        with open(output_ontology_path, 'w', encoding='utf-8') as f:
            json.dump(ontology_map, f, indent=4, ensure_ascii=False)
        print(f"üíæ Mapa Ontol√≥gico salvo: {output_ontology_path}")

        # Salvar Conte√∫do dos Cap√≠tulos (IMPORTANTE para a Parte 2)
        if 'chapters' in locals() and chapters:
            with open(output_chapters_path, 'w', encoding='utf-8') as f:
                json.dump(chapters, f, indent=4, ensure_ascii=False)
            print(f"üíæ Conte√∫do dos cap√≠tulos salvo: {output_chapters_path}")
        
        # Preview
        print("\nüëÅÔ∏è Exemplo (Conceito Normalizado):")
        print(json.dumps(final_concepts[:3], indent=2, ensure_ascii=False))
        
    except Exception as e:
        print(f"Erro ao salvar arquivos: {e}")
else:
    print("Nada a salvar.")

üíæ Conceitos salvos: output/01_extraction/concepts_map.json
üíæ Mapa Ontol√≥gico salvo: output/01_extraction/ontology_map.json
üíæ Conte√∫do dos cap√≠tulos salvo: output/01_extraction/chapters_content.json

üëÅÔ∏è Exemplo (Conceito Normalizado):
[
  {
    "nome": "$4LINUX",
    "tipo": "CONCEITO_TEORICO",
    "definicao": "Utiliza√ß√£o do operador $ para acessar o valor armazenado na vari√°vel 4LINUX, permitindo que o conte√∫do da vari√°vel seja impresso ou utilizado em comandos.",
    "capitulo_origem": "10"
  },
  {
    "nome": "$PATH",
    "tipo": "CONCEITO_TEORICO",
    "definicao": "A vari√°vel de ambiente $PATH cont√©m uma lista de diret√≥rios onde o sistema busca execut√°veis. Permite que comandos sejam executados sem a necessidade de especificar o caminho absoluto.",
    "capitulo_origem": "12"
  },
  {
    "nome": "--help",
    "tipo": "COMANDO",
    "definicao": "O par√¢metro --help √© utilizado em comandos externos para fornecer uma consulta r√°pida sobre os par√¢metros