# **BASE DE DADOS**

- Instalação e Importações

  Execute esta células abaixo primeiro para garantir que as bibliotecas estejam presentes.

In [None]:
import heapq
import networkx as nx
import wikipedia
import sys

In [3]:
# Configurando para a Wikipédia em Português (essencial para seus seeds)
wikipedia.set_lang("pt")

- Configuração dos Seeds e Stopwords

  Aqui definimos os 5 temas e as palavras de parada para evitar páginas administrativas (como ISBN, Categorias, etc.).

In [2]:
# Definição dos SEEDS (Pontos de partida)
SEEDS = [
    "Transformer (modelo de aprendizado de máquina)", # Ajustado para o título correto na PT-Wiki
    "The Beatles",
    "Revolução Francesa",
    "One Piece",
    "Rio Grande do Norte"
]

# Lista de Stopwords
STOPS = (
    "International Standard Serial Number",
    "International Standard Book Number",
    "National Diet Library",
    "International Standard Name Identifier",
    "Digital Object Identifier",
    "Arxiv",
    "PubMed",
    "Bibcode",
    "Jstor",
    "Doi (Identificador)",
    "Isbn (Identificador)",
    "Pmid (Identificador)",
    "Arxiv (Identificador)",
    # Adições específicas para limpar a Wikipédia em PT
    "Wikipédia",
    "Ajuda",
    "Ficheiro",
    "Categoria",
    "Portal",
    "Especial",
    "Livro",
    "Predefinição"
)

print(f"Seeds configurados: {SEEDS}")

TEMAS_CHAVE = [
    "aprendizado", "neural", "inteligência",
    "rock", "música", "banda",
    "história", "século",
    "anime", "mangá", "luffy",
    "nordeste", "brasil", "natal"
    "beatles", "transform", "revolu",
    "franç", "piece", "norte",
]

CHECKPOINT_INTERVAL = 200

Seeds configurados: ['Transformer (modelo de aprendizado de máquina)', 'The Beatles', 'Revolução Francesa', 'One Piece', 'Rio Grande do Norte']


- Construção da Rede
  
  Este bloco constitui o núcleo da coleta de dados. A implementação clássica do algoritmo de Busca em Largura (Breadth-First Search - BFS) foi adaptada para suportar múltiplos seeds e atingir a profundidade alvo de nível 2 (altura < 3).

  Conforme destacado no Requisito 4, a expansão da rede até este nível acarreta um crescimento exponencial no número de nós e arestas, gerando uma demanda computacional proibitiva para uma busca exaustiva simples. Para viabilizar a coleta e manter o foco nos temas de interesse, substituímos a abordagem padrão por uma estratégia de Busca Baseada em Heurística.

### Metodologia Aplicada:

1.  **Estrutura de Dados (Priority Queue):**
    Substituímos a estrutura de fila convencional (FIFO), típica do BFS, por uma Fila de Prioridade implementada sobre um Min-Heap (heapq). Essa alteração permite que o algoritmo abandone o processamento sequencial cego em favor de uma abordagem ordenada pelo "custo", onde nós de maior relevância (menor score) são processados primeiro.

2.  **Heurística de Relevância (Score):**
    Implementamos uma função de custo `calcular_heuristica` que atribui prioridade aos links baseando-se em:
    * **Bonificação (-50 pontos):** Se o título da página contiver palavras-chave relacionadas aos 5 SEEDs originais (ex: "Beatles", "Revolução", "Brasil"). Isso mantém a coesão temática da rede.
    * **Penalidade (+20 pontos):** Se o título for excessivamente longo (> 40 caracteres), indicando ser um tópico muito específico ou administrativo.
    * **Ordem de Camada:** A profundidade (layer) continua sendo o critério primário de ordenação para garantir a expansão uniforme até o nível desejado.

Dessa forma, garantimos a construção de uma base de dados rica e que resolve o nosso problema do altura <3.

In [None]:
def calcular_heuristica(titulo_link, layer):
    """
    Define a prioridade (Menor score = Maior prioridade).
    """
    score = 100 # Base
    titulo_lower = titulo_link.lower()

    # Bonificação: Se o link tem a ver com seus temas, score diminui
    for termo in TEMAS_CHAVE:
        if termo in titulo_lower:
            score -= 50
            break # Aplica bônus apenas uma vez

    # Penalidade: Títulos muito longos ou muito curtos
    if len(titulo_link) > 50 or len(titulo_link) < 3:
        score += 20

    # Retorna tupla para o Min-Heap: (Layer, Score, Título)
    return (layer, score, titulo_link)

# --- INICIALIZAÇÃO ---
priority_queue = []

# Adiciona as Seeds iniciais na fila
for seed in SEEDS:
    heapq.heappush(priority_queue, (0, 0, seed))

todo_set = set(SEEDS)
done_set = set()
g = nx.DiGraph()

print(f"Seeds configurados: {SEEDS}")
print("Iniciando coleta SEGURA (com Checkpoints)...")

# --- LOOP PRINCIPAL (COM PROTEÇÃO CONTRA FALHAS) ---
try:
    while priority_queue:
        # Pega o item de maior prioridade
        layer, score, page = heapq.heappop(priority_queue)

        # Regra de parada: Altura < 3 (Processa camadas 0, 1 e 2)
        if layer >= 3:
            continue

        if page in done_set:
            continue

        done_set.add(page)

        # --- CHECKPOINT AUTOMÁTICO ---
        if len(done_set) % CHECKPOINT_INTERVAL == 0:
            print(f"--- [Auto-Save] Salvando checkpoint com {len(done_set)} nós... ---")
            nx.write_graphml(g, "checkpoint_parcial.graphml")

        # Feedback visual
        if len(done_set) % 50 == 0 or layer == 0:
            print(f"Camada {layer} | Score {score} | Processando: {page} | Grafo: {len(g)} nós")

        try:
            # Tenta baixar a página
            wiki = wikipedia.page(page, auto_suggest=False)

            for link in wiki.links:
                # Limpeza simples
                link_clean = link.strip()

                # Verifica se NÃO é stopword e não começa com prefixos indesejados
                # Verifica também se não contém substrings proibidas (ex: "Ficheiro:")
                if (link_clean not in STOPS) and \
                   (not link_clean.startswith("Lista de")) and \
                   (":" not in link_clean): # Remove namespaces como Categoria:..., Ficheiro:...

                    g.add_edge(page, link_clean)

                    if link_clean not in todo_set and link_clean not in done_set:
                        # Calcula a heurística para o novo link
                        prioridade = calcular_heuristica(link_clean, layer + 1)

                        heapq.heappush(priority_queue, prioridade)
                        todo_set.add(link_clean)

        except KeyboardInterrupt:
            print("\n!!! Interrupção manual detectada pelo usuário !!!")
            raise # Joga para o 'finally' salvar
        except Exception:
            # Erros de página (PageError, Disambiguation) são ignorados para não parar o fluxo
            continue

except Exception as e:
    print(f"\nERRO INESPERADO: {e}")

finally:
    # --- SALVAMENTO FINAL DE SEGURANÇA ---
    print("-" * 30)
    print("ENCERRANDO EXECUÇÃO...")
    arquivo_final = "grafo_resgate_emergencia.graphml"
    nx.write_graphml(g, arquivo_final)
    print(f"Salvamento de emergência concluído em: '{arquivo_final}'")
    print(f"Total coletado: {len(g)} nós e {g.number_of_edges()} arestas.")
    print("-" * 30)

Seeds configurados: ['Transformer (modelo de aprendizado de máquina)', 'The Beatles', 'Revolução Francesa', 'One Piece', 'Rio Grande do Norte']
Iniciando coleta SEGURA (com Checkpoints)...
Camada 0 | Score 0 | Processando: One Piece | Grafo: 0 nós
Camada 0 | Score 0 | Processando: Revolução Francesa | Grafo: 309 nós
Camada 0 | Score 0 | Processando: Rio Grande do Norte | Grafo: 935 nós
Camada 0 | Score 0 | Processando: The Beatles | Grafo: 1694 nós
Camada 0 | Score 0 | Processando: Transformer (modelo de aprendizado de máquina) | Grafo: 3369 nós
Camada 1 | Score 50 | Processando: Distrito Federal (Brasil) | Grafo: 10548 nós


- Tratamento de Dados (Limpeza)
  Remoção de duplicatas (ex: plurais) e auto-loops, conforme feito no notebook do professor.

In [None]:
print(f"Iniciando limpeza em grafo de {len(g)} nós...")
print("Isso pode demorar um pouco devido ao tamanho da rede.")

# 1. Remover auto-loops (Rápido e seguro)
g.remove_edges_from(nx.selfloop_edges(g))

# 2. Fundir plurais (Ex: 'Palavra' e 'Palavras') com verificação
duplicates = [(node, node + "s") for node in g if node + "s" in g]
for u, v in duplicates:
    if u in g and v in g: # <--- PROTEÇÃO: Só funde se ambos ainda existirem
        g = nx.contracted_nodes(g, u, v, self_loops=False)

# 3. Fundir hífens (Ex: 'One-Punch Man' e 'One Punch Man') com verificação
duplicates_hyphen = [(node, node.replace("-", " ")) for node in g
                     if node.replace("-", " ") in g and node != node.replace("-", " ")]

for u, v in duplicates_hyphen:
    if u in g and v in g: # <--- PROTEÇÃO: Só funde se ambos ainda existirem
        g = nx.contracted_nodes(g, u, v, self_loops=False)

# Limpeza técnica de atributos (para evitar erros no Gephi)
for node in g.nodes():
    g.nodes[node].pop('contraction', None)
for u, v in g.edges():
    g.edges[u, v].pop('contraction', None)

print(f"Limpeza concluída! Grafo atual: {len(g)} nós.")

- Filtragem e Exportação
  
  Gera o arquivo final .graphml.

In [None]:
# Filtra o "Core" da rede: Mantém apenas nós com grau >= 2
# (Nós que têm pelo menos 2 conexões de entrada ou saída)
core = [node for node, deg in dict(g.degree()).items() if deg >= 2]
gsub = g.subgraph(core).copy()

print("-" * 30)
print(f"Grafo Original: {len(g)} nós")
print(f"Grafo Final (Core): {len(gsub)} nós")
print("-" * 30)

# Salva o arquivo para o Gephi
nome_arquivo = "trabalho_final_validacao.graphml"
nx.write_graphml(gsub, nome_arquivo)

print(f"Arquivo '{nome_arquivo}' salvo com sucesso!")
print("Faça o download na aba de arquivos (ícone da pasta) à esquerda.")