In [1]:
# Célula 1: Carregamento das Bibliotecas
# ==============================================================================

import pandas as pd
import json
import re
import requests
import pymongo
from datetime import datetime, timezone, timedelta
import time
import hashlib
from bson.objectid import ObjectId # Para trabalhar com ObjectIds do MongoDB

print("Bibliotecas carregadas com sucesso!")


Bibliotecas carregadas com sucesso!


In [2]:
# Célula 2: Configuração Completa com Consultas em Lotes (CORRIGIDA)
# ==================================================================

import pandas as pd
import json
import re
import requests
import pymongo
from datetime import datetime, timezone, timedelta
import time
import hashlib
from bson.objectid import ObjectId

# --- Configurações CRÍTICAS de Segurança ---
MONGO_URI = "mongodb+srv://Administrador:PPGTI_BD_2025@dadoscnj.hopdkl5.mongodb.net/?retryWrites=true&w=majority&appName=DadosCNJ"
MONGO_DB_NAME = "processosjuridicos"

# --- Configurações da API DataJud ---
API_BASE_URL = "https://api-publica.datajud.cnj.jus.br/api_publica_{tribunal}/_search"
TAMANHO_LOTE_CONSULTA = 100  # Consultar 100 processos por vez
MAX_RETRIES_CONEXAO_API = 5
API_TIMEOUT = 60  # Aumentado para consultas em lote

# API Key da documentação oficial
DATAJUD_API_KEY = "cDZHYzlZa0JadVREZDJCendQbXY6SkJlTzNjLV9TRENyQk1RdnFKZGRQdw=="

# --- Configurações da Organização para Vinculação ---
ORGANIZACAO_NOME = "Governo da Paraiba - Sec Saude"
ORGANIZACAO_CNPJ = "08.761.124/0001-00"
ORGANIZACAO_ENDERECO = "PRACA JOAO PESSOA SN CENTRO JOAO PESSOA - PB"
ORGANIZACAO_EMAIL = "TESTE@GOVERNO.PB.GOV.BR"

# --- Configurações Visuais ---
QUADRADO_VAZIO = "□"
QUADRADO_PREENCHIDO = "■"
BARRA_TAMANHO = 50

class Cores:
    RESET = '\033[0m'
    BOLD = '\033[1m'
    VERMELHO = '\033[91m'
    AMARELO = '\033[93m'
    VERDE = '\033[92m'
    CIANO = '\033[96m'
    AZUL = '\033[94m'
    MAGENTA = '\033[95m'
    BRANCO = '\033[97m'

# --- Cliente MongoDB ---
mongo_client = None
db = None

def get_mongo_db():
    """Conecta ao MongoDB e retorna o objeto do banco de dados."""
    global mongo_client, db
    if mongo_client is None:
        try:
            mongo_client = pymongo.MongoClient(MONGO_URI)
            db = mongo_client[MONGO_DB_NAME]
            mongo_client.admin.command('ping')
            print("Status da Conexão MongoDB: SUCESSO!")
            print(f"Conectado ao banco de dados: '{MONGO_DB_NAME}'")
        except pymongo.errors.ConnectionFailure as e:
            print(f"Status da Conexão MongoDB: FALHA!")
            print(f"Erro ao conectar ao MongoDB: {e}")
            mongo_client = None
            db = None
            raise
    return db

def limpar_numero_processo(numero_processo):
    """
    Remove formatação do número do processo (pontos, hífens, espaços)
    para enviar à API do DataJud conforme especificação.
    """
    if not numero_processo:
        return ""
    
    numero_limpo = ''.join(filter(str.isdigit, numero_processo))
    
    if len(numero_limpo) != 20:
        print(f"⚠️  AVISO: Número do processo '{numero_processo}' não tem 20 dígitos após limpeza: '{numero_limpo}'")
    
    return numero_limpo

def verificar_endpoint_tribunal(tribunal):
    """Verifica se o endpoint do tribunal está disponível."""
    tribunais_suportados = {
        'TRF1', 'TRF2', 'TRF3', 'TRF4', 'TRF5', 'TRF6',
        'TST',
        'TRT1', 'TRT2', 'TRT3', 'TRT4', 'TRT5', 'TRT6', 'TRT7', 'TRT8', 'TRT9', 'TRT10',
        'TRT11', 'TRT12', 'TRT13', 'TRT14', 'TRT15', 'TRT16', 'TRT17', 'TRT18', 'TRT19', 'TRT20',
        'TRT21', 'TRT22', 'TRT23', 'TRT24',
        'TJAC', 'TJAL', 'TJAP', 'TJAM', 'TJBA', 'TJCE', 'TJDF', 'TJES', 'TJGO', 'TJMA',
        'TJMT', 'TJMS', 'TJMG', 'TJPA', 'TJPB', 'TJPR', 'TJPE', 'TJPI', 'TJRJ', 'TJRN',
        'TJRS', 'TJRO', 'TJRR', 'TJSC', 'TJSP', 'TJSE', 'TJTO'
    }
    
    return tribunal.upper() in tribunais_suportados

def string_para_datetime_utc(date_string):
    """
    Converte uma string de data da API para um objeto datetime UTC.
    CORRIGIDO: Trata nanosegundos (trunca para microssegundos).
    """
    if not date_string:
        return None
    
    try:
        # CORREÇÃO CRÍTICA: Trata nanosegundos
        if date_string.endswith('Z'):
            date_string = date_string[:-1] + '+00:00'
        
        # Se tem mais de 6 dígitos após o ponto (nanosegundos), trunca para 6 (microssegundos)
        if '+' in date_string and '.' in date_string:
            date_part, tz_part = date_string.split('+')
            if '.' in date_part:
                main_part, frac_part = date_part.split('.')
                if len(frac_part) > 6:  # Mais que microssegundos
                    frac_part = frac_part[:6]  # Trunca para microssegundos
                date_string = f"{main_part}.{frac_part}+{tz_part}"
        
        dt = datetime.fromisoformat(date_string)
        return dt.astimezone(timezone.utc)
        
    except ValueError:
        # Tenta outros formatos comuns
        formats = [
            '%Y-%m-%dT%H:%M:%S.%fZ',
            '%Y-%m-%dT%H:%M:%SZ',
            '%Y-%m-%dT%H:%M:%S',
            '%Y-%m-%d %H:%M:%S'
        ]
        for fmt in formats:
            try:
                dt = datetime.strptime(date_string, fmt)
                return dt.replace(tzinfo=timezone.utc) if dt.tzinfo is None else dt.astimezone(timezone.utc)
            except ValueError:
                pass
        
        print(f"⚠️  AVISO: Não foi possível parsear a data: {date_string}")
        return None

def consultar_api_datajud_lote(tribunal: str, numeros_processos_limpos: list, attempt: int = 0):
    """
    Consulta a API pública do DataJud para múltiplos processos em uma única requisição.
    Retorna um dicionário mapeando número do processo para os dados encontrados.
    """
    if not verificar_endpoint_tribunal(tribunal):
        raise ValueError(f"Tribunal '{tribunal}' não é suportado pela API DataJud")
    
    url = API_BASE_URL.format(tribunal=tribunal.lower())
    
    headers = {
        'Content-Type': 'application/json',
        'Authorization': f"ApiKey {DATAJUD_API_KEY}"
    }

    # Query para buscar múltiplos processos usando "terms"
    query = {
        "query": {
            "terms": {
                "numeroProcesso": numeros_processos_limpos
            }
        },
        "size": len(numeros_processos_limpos)  # Retorna todos os encontrados
    }

    try:
        print(f"   🔍 Consultando {len(numeros_processos_limpos)} processos no {tribunal}")
        print(f"   📡 URL: {url}")
        
        response = requests.post(url, headers=headers, json=query, timeout=API_TIMEOUT)
        
        print(f"   📊 Status da resposta: {response.status_code}")
        
        response.raise_for_status()

        if response.status_code == 429:
            retry_after_str = response.headers.get("Retry-After")
            wait_time = int(retry_after_str) if retry_after_str else (30 + (2 ** attempt) * 5)
            print(f"   ⏰ Rate limit atingido. Aguardando {wait_time} segundos...")
            time.sleep(wait_time)
            if attempt < MAX_RETRIES_CONEXAO_API:
                return consultar_api_datajud_lote(tribunal, numeros_processos_limpos, attempt + 1)
            else:
                raise Exception("Máximo de tentativas de rate limit excedido.")

        response_json = response.json()
        total_hits = response_json.get("hits", {}).get("total", {}).get("value", 0)
        print(f"   ✅ Total de processos encontrados: {total_hits}/{len(numeros_processos_limpos)}")
        
        # Mapeia número do processo para dados encontrados
        processos_encontrados = {}
        for hit in response_json.get("hits", {}).get("hits", []):
            numero_processo = hit.get("_source", {}).get("numeroProcesso")
            if numero_processo:
                processos_encontrados[numero_processo] = hit
        
        return processos_encontrados

    except requests.exceptions.RequestException as e:
        if attempt < MAX_RETRIES_CONEXAO_API:
            print(f"   ⚠️  Erro na requisição ({e}). Tentativa {attempt + 1}/{MAX_RETRIES_CONEXAO_API}...")
            time.sleep(5 + (2 ** attempt))
            return consultar_api_datajud_lote(tribunal, numeros_processos_limpos, attempt + 1)
        else:
            print(f"   ❌ Erro fatal após {MAX_RETRIES_CONEXAO_API} tentativas: {e}")
            raise

def processar_e_salvar_processo_movimentacoes(data_api: dict, tribunal: str, numero_processo_original: str):
    """
    Processa o JSON de um processo da API DataJud e salva nas coleções `processos` e `movimentacoes`.
    MELHORADO: Adiciona controle de datas de criação e atualização.
    """
    db = get_mongo_db()
    timestamp_atual = datetime.now(timezone.utc)
    
    processo_doc_source = data_api.get("_source", {})
    processo_id = processo_doc_source.get("id")
    if not processo_id:
        numero_processo_completo = processo_doc_source.get("numeroProcesso")
        if numero_processo_completo and tribunal:
            processo_id = f"{tribunal.upper()}_{numero_processo_completo}"
        else:
            raise ValueError(f"ID do processo não encontrado na resposta da API")

    # Verifica se o processo já existe para controlar data_criacao vs data_atualizacao
    processo_existente = db.processos.find_one({"_id": processo_id})
    
    processo_mongo_data = {
        "_id": processo_id,
        "numeroProcesso": processo_doc_source.get("numeroProcesso"),
        "numeroProcessoOriginal": numero_processo_original,  # Mantém formato original
        "tribunal": tribunal.upper(),
        "classe": processo_doc_source.get("classe"),
        "sistema": processo_doc_source.get("sistema"),
        "formato": processo_doc_source.get("formato"),
        "orgaoJulgador": processo_doc_source.get("orgaoJulgador"),
        "assuntos": processo_doc_source.get("assuntos"),
        "dataAjuizamento": string_para_datetime_utc(processo_doc_source.get("dataAjuizamento")),
        "dataHoraUltimaAtualizacao": string_para_datetime_utc(processo_doc_source.get("dataHoraUltimaAtualizacao")),
        "@timestamp": string_para_datetime_utc(processo_doc_source.get("@timestamp")),
        "grau": processo_doc_source.get("grau"),
        "nivelSigilo": processo_doc_source.get("nivelSigilo", 0),
        
        # NOVO: Controle de datas do sistema
        "data_atualizacao_sistema": timestamp_atual,
        "data_ultima_consulta_api": timestamp_atual
    }
    
    # Define data_criacao_sistema apenas se for um novo processo
    if not processo_existente:
        processo_mongo_data["data_criacao_sistema"] = timestamp_atual
    else:
        # Mantém a data de criação original
        processo_mongo_data["data_criacao_sistema"] = processo_existente.get("data_criacao_sistema", timestamp_atual)

    # Salvar/Atualizar Processo na coleção 'processos'
    db.processos.replace_one({"_id": processo_id}, processo_mongo_data, upsert=True)

    # Processar movimentações
    movimentos_api = processo_doc_source.get("movimentos", [])
    movimentacoes_inseridas_ou_atualizadas = []
    
    mov_bulk_ops = []
    
    for mov_idx, mov_api_data in enumerate(movimentos_api):
        mov_hash_parts = [
            str(processo_id),
            str(mov_api_data.get("codigo")),
            str(mov_api_data.get("dataHora")),
            json.dumps(mov_api_data.get("complementosTabelados", []), sort_keys=True),
            str(mov_idx)
        ]
        mov_id = hashlib.sha1("".join(filter(None, mov_hash_parts)).encode('utf-8')).hexdigest()

        # Verifica se a movimentação já existe
        mov_existente = db.movimentacoes.find_one({"_id": mov_id})
        
        mov_doc = {
            "_id": mov_id,
            "processo_id": processo_id,
            "codigo": mov_api_data.get("codigo"),
            "nome": mov_api_data.get("nome"),
            "dataHora": string_para_datetime_utc(mov_api_data.get("dataHora")),
            "complementosTabelados": mov_api_data.get("complementosTabelados", []),
            
            # NOVO: Controle de datas do sistema para movimentações
            "data_atualizacao_sistema": timestamp_atual,
            "data_ultima_consulta_api": timestamp_atual
        }
        
        # Define data_criacao_sistema apenas se for uma nova movimentação
        if not mov_existente:
            mov_doc["data_criacao_sistema"] = timestamp_atual
        else:
            mov_doc["data_criacao_sistema"] = mov_existente.get("data_criacao_sistema", timestamp_atual)
        
        mov_bulk_ops.append(pymongo.ReplaceOne({"_id": mov_id}, mov_doc, upsert=True))
        movimentacoes_inseridas_ou_atualizadas.append(mov_doc)

    if mov_bulk_ops:
        db.movimentacoes.bulk_write(mov_bulk_ops, ordered=False)
        
    return processo_id, movimentacoes_inseridas_ou_atualizadas

def obter_cor_progresso(percentual):
    """Retorna a cor ANSI baseada no percentual de progresso."""
    if percentual < 25:
        return Cores.VERMELHO
    elif percentual < 50:
        return Cores.AMARELO
    elif percentual < 75:
        return Cores.VERDE
    else:
        return Cores.CIANO

def obter_emoji_progresso(percentual):
    """Retorna emoji baseado no percentual de progresso."""
    if percentual < 25:
        return "🔴"
    elif percentual < 50:
        return "🟡"
    elif percentual < 75:
        return "🟢"
    else:
        return "🔵"

def criar_barra_progresso(atual, total):
    """Cria uma barra de progresso visual colorida."""
    percentual = (atual / total) * 100 if total > 0 else 0
    quadrados_preenchidos = int((atual / total) * BARRA_TAMANHO) if total > 0 else 0
    quadrados_vazios = BARRA_TAMANHO - quadrados_preenchidos
    
    cor = obter_cor_progresso(percentual)
    emoji = obter_emoji_progresso(percentual)
    
    barra = f"{cor}{QUADRADO_PREENCHIDO * quadrados_preenchidos}{QUADRADO_VAZIO * quadrados_vazios}{Cores.RESET}"
    
    return f"{emoji} {barra} {percentual:.1f}% ({atual}/{total})"

def imprimir_cabecalho():
    """Imprime o cabeçalho estilizado."""
    print(f"\n{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.CIANO}🚀 SISTEMA DE COLETA E INTEGRAÇÃO DATAJUD → MONGODB 🚀{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}\n")

def imprimir_status_processo(i, total, numero_processo, tribunal, status, detalhes=""):
    """Imprime o status de processamento de um processo individual."""
    barra = criar_barra_progresso(i, total)
    
    if status == "processando":
        emoji_status = "⚡"
        cor_status = Cores.AZUL
    elif status == "sucesso":
        emoji_status = "✅"
        cor_status = Cores.VERDE
    elif status == "nao_encontrado":
        emoji_status = "❌"
        cor_status = Cores.VERMELHO
    elif status == "erro":
        emoji_status = "⚠️"
        cor_status = Cores.AMARELO
    else:
        emoji_status = "ℹ️"
        cor_status = Cores.BRANCO
    
    print(f"\n{barra}")
    print(f"{emoji_status} {cor_status}[{i}/{total}] {numero_processo} ({tribunal}){Cores.RESET}")
    if detalhes:
        print(f"{detalhes}")

def imprimir_resumo_lote(lote_num, processos_lote, processos_salvos, total_movimentacoes, processos_nao_encontrados, erros):
    """Imprime resumo do lote processado."""
    print(f"\n{Cores.BOLD}{Cores.MAGENTA}📦 RESUMO DO LOTE {lote_num}{Cores.RESET}")
    print(f"   📊 Processos no lote: {len(processos_lote)}")
    print(f"   {Cores.VERDE}✅ Processos salvos: {processos_salvos}{Cores.RESET}")
    print(f"   {Cores.AZUL}📄 Movimentações gravadas: {total_movimentacoes}{Cores.RESET}")
    print(f"   {Cores.VERMELHO}❌ Não encontrados: {processos_nao_encontrados}{Cores.RESET}")
    print(f"   {Cores.AMARELO}⚠️  Erros: {erros}{Cores.RESET}")
    print(f"{Cores.CIANO}{'─'*50}{Cores.RESET}")

# --- Teste de Conexão ---
try:
    db_test = get_mongo_db()
    print("\n✅ Conexões configuradas com sucesso!")
    print(f"🔧 Configurado para consultas em lotes de {TAMANHO_LOTE_CONSULTA} processos")
except Exception:
    print("\n❌ Falha na configuração das conexões. Verifique as credenciais e o acesso à rede.")

print("✅ Célula 2 executada com sucesso! Todas as funções e configurações carregadas.")

Status da Conexão MongoDB: SUCESSO!
Conectado ao banco de dados: 'processosjuridicos'

✅ Conexões configuradas com sucesso!
🔧 Configurado para consultas em lotes de 100 processos
✅ Célula 2 executada com sucesso! Todas as funções e configurações carregadas.


In [3]:
# Célula 3: Carregamento dos Processos do JSON para um DataFrame
# ==============================================================================

# Assumimos que o arquivo tjpb_processes.json foi gerado pela parte 1 do seu pedido.
JSON_PROCESSOS_PATH = r'C:\IFPB\bd\projeto\carga_processos.json'

try:
    with open(JSON_PROCESSOS_PATH, 'r', encoding='utf-8') as f:
        lista_processos_json = json.load(f)
    
    df_processos = pd.DataFrame(lista_processos_json)
    
    print(f"DataFrame 'df_processos' carregado com sucesso a partir de '{JSON_PROCESSOS_PATH}'.")
    print(f"Número total de processos a serem consultados: {len(df_processos)}")
    
    # Exemplo das primeiras 5 linhas do DataFrame
    print("\nPrimeiras 5 linhas do DataFrame:")
    print(df_processos.head())

except FileNotFoundError:
    print(f"ERRO: O arquivo JSON de processos '{JSON_PROCESSOS_PATH}' não foi encontrado.")
    print("Por favor, certifique-se de que o script da Parte 1 ('gerar_json_processos.py') foi executado e gerou o arquivo.")
except Exception as e:
    print(f"ERRO ao carregar o JSON para o DataFrame: {e}")


DataFrame 'df_processos' carregado com sucesso a partir de 'C:\IFPB\bd\projeto\carga_processos.json'.
Número total de processos a serem consultados: 2059

Primeiras 5 linhas do DataFrame:
              numeroProcesso tribunal
0  0801238-10.2023.8.15.7701     TJPB
1  0801274-52.2023.8.15.7701     TJPB
2  0839686-66.2023.8.15.0001     TJPB
3  0801239-92.2023.8.15.7701     TJPB
4  0800803-36.2023.8.15.7701     TJPB


In [4]:
# Célula 4: Processamento em Lotes com Controle de Datas (CORRIGIDA)
# ===================================================================

import sys
from IPython.display import clear_output, display, HTML
import time

# Limpeza do banco de dados
CONFIRM_CLEAN_DB = True
if CONFIRM_CLEAN_DB:
    imprimir_cabecalho()
    print(f"{Cores.BOLD}{Cores.MAGENTA}🧹 INICIANDO LIMPEZA DO BANCO DE DADOS{Cores.RESET}")
    print(f"{Cores.AMARELO}⚠️  Removendo dados das coleções...{Cores.RESET}")
    
    try:
        db = get_mongo_db()
        colecoes = ['processos', 'movimentacoes', 'usuarios', 'organizacoes', 'processos_monitorados', 'notificacoes']
        
        for i, colecao in enumerate(colecoes, 1):
            print(f"   {criar_barra_progresso(i, len(colecoes))} Limpando '{colecao}'...")
            db[colecao].delete_many({})
            time.sleep(0.2)
        
        print(f"{Cores.VERDE}✅ Limpeza concluída com sucesso!{Cores.RESET}\n")
    except Exception as e:
        print(f"{Cores.VERMELHO}❌ ERRO durante a limpeza: {e}{Cores.RESET}")
        raise
else:
    print(f"{Cores.AMARELO}⚠️  Limpeza do banco desativada{Cores.RESET}")

# --- Cadastro da Organização e Usuário ---
print(f"{Cores.BOLD}{Cores.AZUL}👥 CONFIGURANDO ORGANIZAÇÃO E USUÁRIO{Cores.RESET}")

try:
    db = get_mongo_db()

    # Cadastro da Organização
    print(f"{Cores.CIANO}�� Configurando organização...{Cores.RESET}")
    organizacao_doc = {
        "nome_organizacao": ORGANIZACAO_NOME,
        "cnpj": ORGANIZACAO_CNPJ,
        "endereco": ORGANIZACAO_ENDERECO,
        "contato_email": ORGANIZACAO_EMAIL,
        "data_criacao": datetime.now(timezone.utc),
        "ativo": True
    }
    
    organizacao_existente = db.organizacoes.find_one({"cnpj": ORGANIZACAO_CNPJ})
    if organizacao_existente:
        organizacao_id = organizacao_existente["_id"]
        db.organizacoes.update_one({"_id": organizacao_id}, {"$set": organizacao_doc})
        print(f"{Cores.VERDE}✅ Organização atualizada. ID: {organizacao_id}{Cores.RESET}")
    else:
        result = db.organizacoes.insert_one(organizacao_doc)
        organizacao_id = result.inserted_id
        print(f"{Cores.VERDE}✅ Organização cadastrada. ID: {organizacao_id}{Cores.RESET}")

    # Cadastro do Usuário
    print(f"{Cores.CIANO}�� Configurando usuário administrador...{Cores.RESET}")
    USUARIO_ADMIN_EMAIL = "admin_script@gov.pb.br"
    usuario_admin_doc = {
        "nome": "Admin Script",
        "email": USUARIO_ADMIN_EMAIL,
        "senha_hash": hashlib.sha256("senha_segura_aqui".encode()).hexdigest(),
        "perfil": "admin",
        "ativo": True,
        "data_cadastro": datetime.now(timezone.utc),
        "ultimo_login": datetime.now(timezone.utc),
        "vinculos": [{"empresaId": organizacao_id, "permissao": "Administrador"}]
    }
    
    usuario_existente = db.usuarios.find_one({"email": USUARIO_ADMIN_EMAIL})
    if usuario_existente:
        usuario_id = usuario_existente["_id"]
        db.usuarios.update_one({"_id": usuario_id}, {"$set": usuario_admin_doc})
        print(f"{Cores.VERDE}✅ Usuário atualizado. ID: {usuario_id}{Cores.RESET}")
    else:
        result = db.usuarios.insert_one(usuario_admin_doc)
        usuario_id = result.inserted_id
        print(f"{Cores.VERDE}✅ Usuário cadastrado. ID: {usuario_id}{Cores.RESET}")

except Exception as e:
    print(f"{Cores.VERMELHO}❌ ERRO durante configuração: {e}{Cores.RESET}")
    raise

# --- Processamento dos Processos em Lotes ---
print(f"\n{Cores.BOLD}{Cores.MAGENTA}📦 INICIANDO PROCESSAMENTO EM LOTES{Cores.RESET}")

# Mecanismo de continuação
PROGRESSO_COLLECTION_NAME = "progresso_carga_datajud"
progresso_col = db[PROGRESSO_COLLECTION_NAME]

last_processed_doc = progresso_col.find_one({"_id": "last_processed_index"})
start_index = last_processed_doc["index"] + 1 if last_processed_doc else 0

# Contadores globais
total_processos_api_sucesso = 0
total_movimentacoes_api_sucesso = 0
processos_nao_encontrados_api = 0
erros_api = 0
total_processos_json = len(df_processos)

print(f"{Cores.CIANO}📊 Total de processos: {total_processos_json}{Cores.RESET}")
print(f"{Cores.CIANO}📦 Tamanho do lote: {TAMANHO_LOTE_CONSULTA} processos{Cores.RESET}")
print(f"{Cores.CIANO}🔄 Continuando a partir do índice: {start_index}{Cores.RESET}\n")

# Processamento em lotes
lote_num = 1
for i in range(start_index, total_processos_json, TAMANHO_LOTE_CONSULTA):
    fim_lote = min(i + TAMANHO_LOTE_CONSULTA, total_processos_json)
    processos_lote = df_processos.iloc[i:fim_lote]
    
    print(f"\n{Cores.BOLD}{Cores.MAGENTA}📦 PROCESSANDO LOTE {lote_num} ({i+1}-{fim_lote}/{total_processos_json}){Cores.RESET}")
    
    # Contadores do lote
    processos_salvos_lote = 0
    movimentacoes_lote = 0
    nao_encontrados_lote = 0
    erros_lote = 0
    
    # Agrupa processos por tribunal para otimizar consultas
    processos_por_tribunal = {}
    for idx, processo_info in processos_lote.iterrows():
        tribunal = processo_info["tribunal"]
        if tribunal not in processos_por_tribunal:
            processos_por_tribunal[tribunal] = []
        processos_por_tribunal[tribunal].append({
            'original': processo_info["numeroProcesso"],
            'limpo': limpar_numero_processo(processo_info["numeroProcesso"]),
            'index': idx
        })
    
    # Processa cada tribunal do lote
    for tribunal, processos_tribunal in processos_por_tribunal.items():
        print(f"\n{Cores.AZUL}🏛️  Processando {len(processos_tribunal)} processos do {tribunal}{Cores.RESET}")
        
        try:
            # Extrai números limpos para consulta
            numeros_limpos = [p['limpo'] for p in processos_tribunal if p['limpo']]
            
            if not numeros_limpos:
                print(f"   {Cores.AMARELO}⚠️  Nenhum número válido para consulta{Cores.RESET}")
                continue
            
            # Consulta em lote na API
            processos_encontrados = consultar_api_datajud_lote(tribunal, numeros_limpos)
            
            # Processa cada processo do tribunal
            for processo_info in processos_tribunal:
                numero_original = processo_info['original']
                numero_limpo = processo_info['limpo']
                idx = processo_info['index']
                
                posicao_global = idx - start_index + 1
                
                if numero_limpo in processos_encontrados:
                    # Processo encontrado
                    try:
                        data_api = processos_encontrados[numero_limpo]
                        processo_cnj_id, movimentacoes_carregadas = processar_e_salvar_processo_movimentacoes(
                            data_api, tribunal, numero_original
                        )
                        
                        # Configuração do monitoramento
                        processo_monitorado_doc = {
                            "processo_cnj_id": processo_cnj_id,
                            "usuario_id": usuario_id,
                            "organizacao_id": organizacao_id,
                            "status_monitoramento": "ativo",
                            "ult_data_sinc_cnj": datetime.now(timezone.utc)
                        }
                        
                        set_on_insert = {
                            "data_inicio_monitoramento": datetime.now(timezone.utc),
                            "ultima_movimentacao_vista": datetime.now(timezone.utc),
                            "observacoes": f"Monitorado para {ORGANIZACAO_NOME} (Script de Carga)"
                        }

                        db.processos_monitorados.update_one(
                            {"processo_cnj_id": processo_cnj_id, "organizacao_id": organizacao_id},
                            {"$set": processo_monitorado_doc, "$setOnInsert": set_on_insert},
                            upsert=True
                        )

                        # Notificação
                        if db.notificacoes.count_documents(
                            {"usuario_id": usuario_id, "processo_id": processo_cnj_id, "tipo": "cadastro_processo"}
                        ) == 0:
                            db.notificacoes.insert_one({
                                "usuario_id": usuario_id,
                                "processo_id": processo_cnj_id,
                                "descricao": f"Processo {numero_original} adicionado ao monitoramento.",
                                "data_notificacao": datetime.now(timezone.utc),
                                "status": "PENDENTE",
                                "tipo": "cadastro_processo",
                                "link": f"/app/processos/{processo_cnj_id}"
                            })

                        # Contadores
                        processos_salvos_lote += 1
                        movimentacoes_lote += len(movimentacoes_carregadas)
                        
                        print(f"   ✅ [{posicao_global}] {numero_original} → {len(movimentacoes_carregadas)} movimentações")
                        
                    except Exception as e:
                        print(f"   ⚠️  [{posicao_global}] {numero_original} → ERRO: {str(e)[:50]}...")
                        erros_lote += 1
                        
                else:
                    # Processo não encontrado
                    print(f"   ❌ [{posicao_global}] {numero_original} → NÃO ENCONTRADO")
                    nao_encontrados_lote += 1
                    
        except Exception as e:
            print(f"   {Cores.VERMELHO}❌ Erro na consulta do {tribunal}: {e}{Cores.RESET}")
            erros_lote += len(processos_tribunal)
    
    # Atualiza contadores globais
    total_processos_api_sucesso += processos_salvos_lote
    total_movimentacoes_api_sucesso += movimentacoes_lote
    processos_nao_encontrados_api += nao_encontrados_lote
    erros_api += erros_lote
    
    # Resumo do lote
    imprimir_resumo_lote(lote_num, processos_lote, processos_salvos_lote, 
                        movimentacoes_lote, nao_encontrados_lote, erros_lote)
    
    # Salva progresso
    progresso_col.update_one(
        {"_id": "last_processed_index"},
        {"$set": {"index": fim_lote - 1, "timestamp": datetime.now(timezone.utc)}},
        upsert=True
    )
    
    lote_num += 1

# --- Resumo Final ---
print(f"\n{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}")
print(f"{Cores.BOLD}{Cores.CIANO}📊 RESUMO FINAL DO CARREGAMENTO 📊{Cores.RESET}")
print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}")

print(f"\n{Cores.BOLD}📈 ESTATÍSTICAS GERAIS:{Cores.RESET}")
print(f"   📋 Total de processos: {total_processos_json}")
print(f"   {Cores.VERDE}✅ Processos salvos: {total_processos_api_sucesso}{Cores.RESET}")
print(f"   {Cores.AZUL}�� Movimentações gravadas: {total_movimentacoes_api_sucesso}{Cores.RESET}")
print(f"   {Cores.VERMELHO}❌ Não encontrados: {processos_nao_encontrados_api}{Cores.RESET}")
print(f"   {Cores.AMARELO}⚠️  Erros: {erros_api}{Cores.RESET}")

taxa_sucesso = (total_processos_api_sucesso / total_processos_json * 100) if total_processos_json > 0 else 0
cor_taxa = Cores.VERDE if taxa_sucesso >= 80 else Cores.AMARELO if taxa_sucesso >= 60 else Cores.VERMELHO

print(f"\n{Cores.BOLD}🎯 TAXA DE SUCESSO:{Cores.RESET}")
barra_final = criar_barra_progresso(total_processos_api_sucesso, total_processos_json)
print(f"   {barra_final}")
print(f"   {cor_taxa}{Cores.BOLD}{taxa_sucesso:.1f}% de processos carregados{Cores.RESET}")

print(f"\n{Cores.VERDE}✅ Processamento concluído!{Cores.RESET}")
print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}\n")


[1m[96m🚀 SISTEMA DE COLETA E INTEGRAÇÃO DATAJUD → MONGODB 🚀[0m

[1m[95m🧹 INICIANDO LIMPEZA DO BANCO DE DADOS[0m
[93m⚠️  Removendo dados das coleções...[0m
   🔴 [91m■■■■■■■■□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□[0m 16.7% (1/6) Limpando 'processos'...
   🟡 [93m■■■■■■■■■■■■■■■■□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□[0m 33.3% (2/6) Limpando 'movimentacoes'...
   🟢 [92m■■■■■■■■■■■■■■■■■■■■■■■■■□□□□□□□□□□□□□□□□□□□□□□□□□[0m 50.0% (3/6) Limpando 'usuarios'...
   🟢 [92m■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■□□□□□□□□□□□□□□□□□[0m 66.7% (4/6) Limpando 'organizacoes'...
   🔵 [96m■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■□□□□□□□□□[0m 83.3% (5/6) Limpando 'processos_monitorados'...
   🔵 [96m■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■[0m 100.0% (6/6) Limpando 'notificacoes'...
[92m✅ Limpeza concluída com sucesso![0m

[1m[94m👥 CONFIGURANDO ORGANIZAÇÃO E USUÁRIO[0m
[96m�� Configurando organização...[0m
[92m✅ Organização cadastrada. ID: 68830156fbd01def41b199cf[0m
[96m�� Con

In [7]:
# Célula 5: Recuperação de Processos Não Carregados e Atualização Completa
# =========================================================================

import sys
from IPython.display import clear_output, display, HTML
import time
from datetime import datetime, timezone

def obter_ultima_movimentacao_dados(movimentos_api):
    """
    Extrai dados da última movimentação de uma lista de movimentos da API.
    Retorna dicionário com dados formatados ou valores padrão se não houver movimentações.
    """
    if not movimentos_api:
        return {
            "ultima_movimentacao_id": None,
            "ultima_movimentacao_codigo": None,
            "ultima_movimentacao_nome": "Sem movimentações",
            "ultima_movimentacao_data": None,
            "ultima_movimentacao_complementos": []
        }
    
    # Ordena movimentações por data (mais recente primeiro)
    movimentos_ordenados = sorted(
        movimentos_api, 
        key=lambda x: string_para_datetime_utc(x.get("dataHora", "")) or datetime.min.replace(tzinfo=timezone.utc),
        reverse=True
    )
    
    ultima_mov = movimentos_ordenados[0]
    
    # Gera ID único para a movimentação (mesmo método usado no processamento principal)
    mov_hash_parts = [
        str(ultima_mov.get("codigo")),
        str(ultima_mov.get("dataHora")),
        json.dumps(ultima_mov.get("complementosTabelados", []), sort_keys=True)
    ]
    mov_id = hashlib.sha1("".join(filter(None, mov_hash_parts)).encode('utf-8')).hexdigest()
    
    return {
        "ultima_movimentacao_id": mov_id,
        "ultima_movimentacao_codigo": ultima_mov.get("codigo"),
        "ultima_movimentacao_nome": ultima_mov.get("nome"),
        "ultima_movimentacao_data": string_para_datetime_utc(ultima_mov.get("dataHora")),
        "ultima_movimentacao_complementos": ultima_mov.get("complementosTabelados", [])
    }

def consultar_processo_individual(tribunal: str, numero_processo_limpo: str, attempt: int = 0):
    """
    Consulta um processo individual na API com múltiplas tentativas.
    """
    if not verificar_endpoint_tribunal(tribunal):
        raise ValueError(f"Tribunal '{tribunal}' não é suportado pela API DataJud")
    
    url = API_BASE_URL.format(tribunal=tribunal.lower())
    
    headers = {
        'Content-Type': 'application/json',
        'Authorization': f"ApiKey {DATAJUD_API_KEY}"
    }

    # Tenta primeiro com 'match'
    query = {
        "query": {
            "match": {
                "numeroProcesso": numero_processo_limpo
            }
        },
        "size": 1
    }

    try:
        response = requests.post(url, headers=headers, json=query, timeout=API_TIMEOUT)
        response.raise_for_status()

        if response.status_code == 429:
            retry_after_str = response.headers.get("Retry-After")
            wait_time = int(retry_after_str) if retry_after_str else (30 + (2 ** attempt) * 5)
            print(f"      ⏰ Rate limit atingido. Aguardando {wait_time} segundos...")
            time.sleep(wait_time)
            if attempt < MAX_RETRIES_CONEXAO_API:
                return consultar_processo_individual(tribunal, numero_processo_limpo, attempt + 1)
            else:
                raise Exception("Máximo de tentativas de rate limit excedido.")

        response_json = response.json()
        hits = response_json.get("hits", {}).get("hits", [])
        
        if hits:
            return hits[0]
        
        # Se não encontrou com 'match', tenta com 'term'
        query_term = {
            "query": {
                "term": {
                    "numeroProcesso.keyword": numero_processo_limpo
                }
            },
            "size": 1
        }
        
        response_term = requests.post(url, headers=headers, json=query_term, timeout=API_TIMEOUT)
        response_term.raise_for_status()
        
        response_term_json = response_term.json()
        hits_term = response_term_json.get("hits", {}).get("hits", [])
        
        return hits_term[0] if hits_term else None

    except requests.exceptions.RequestException as e:
        if attempt < MAX_RETRIES_CONEXAO_API:
            print(f"      ⚠️  Erro na tentativa {attempt + 1}: {e}")
            time.sleep(5 + (2 ** attempt))
            return consultar_processo_individual(tribunal, numero_processo_limpo, attempt + 1)
        else:
            print(f"      ❌ Erro fatal após {MAX_RETRIES_CONEXAO_API} tentativas: {e}")
            return None

def processar_e_salvar_processo_completo(data_api: dict, tribunal: str, numero_processo_original: str):
    """
    Versão estendida que processa processo + movimentações + dados para processos_monitorados.
    Retorna processo_cnj_id, movimentações carregadas e dados da última movimentação.
    """
    db = get_mongo_db()
    timestamp_atual = datetime.now(timezone.utc)
    
    processo_doc_source = data_api.get("_source", {})
    processo_id = processo_doc_source.get("id")
    if not processo_id:
        numero_processo_completo = processo_doc_source.get("numeroProcesso")
        if numero_processo_completo and tribunal:
            processo_id = f"{tribunal.upper()}_{numero_processo_completo}"
        else:
            raise ValueError(f"ID do processo não encontrado na resposta da API")

    # Verifica se o processo já existe
    processo_existente = db.processos.find_one({"_id": processo_id})
    
    processo_mongo_data = {
        "_id": processo_id,
        "numeroProcesso": processo_doc_source.get("numeroProcesso"),
        "numeroProcessoOriginal": numero_processo_original,
        "tribunal": tribunal.upper(),
        "classe": processo_doc_source.get("classe"),
        "sistema": processo_doc_source.get("sistema"),
        "formato": processo_doc_source.get("formato"),
        "orgaoJulgador": processo_doc_source.get("orgaoJulgador"),
        "assuntos": processo_doc_source.get("assuntos"),
        "dataAjuizamento": string_para_datetime_utc(processo_doc_source.get("dataAjuizamento")),
        "dataHoraUltimaAtualizacao": string_para_datetime_utc(processo_doc_source.get("dataHoraUltimaAtualizacao")),
        "@timestamp": string_para_datetime_utc(processo_doc_source.get("@timestamp")),
        "grau": processo_doc_source.get("grau"),
        "nivelSigilo": processo_doc_source.get("nivelSigilo", 0),
        "data_atualizacao_sistema": timestamp_atual,
        "data_ultima_consulta_api": timestamp_atual
    }
    
    if not processo_existente:
        processo_mongo_data["data_criacao_sistema"] = timestamp_atual
    else:
        processo_mongo_data["data_criacao_sistema"] = processo_existente.get("data_criacao_sistema", timestamp_atual)

    # Salvar processo
    db.processos.replace_one({"_id": processo_id}, processo_mongo_data, upsert=True)

    # Processar movimentações
    movimentos_api = processo_doc_source.get("movimentos", [])
    movimentacoes_inseridas_ou_atualizadas = []
    
    mov_bulk_ops = []
    
    for mov_idx, mov_api_data in enumerate(movimentos_api):
        mov_hash_parts = [
            str(processo_id),
            str(mov_api_data.get("codigo")),
            str(mov_api_data.get("dataHora")),
            json.dumps(mov_api_data.get("complementosTabelados", []), sort_keys=True),
            str(mov_idx)
        ]
        mov_id = hashlib.sha1("".join(filter(None, mov_hash_parts)).encode('utf-8')).hexdigest()

        mov_existente = db.movimentacoes.find_one({"_id": mov_id})
        
        mov_doc = {
            "_id": mov_id,
            "processo_id": processo_id,
            "codigo": mov_api_data.get("codigo"),
            "nome": mov_api_data.get("nome"),
            "dataHora": string_para_datetime_utc(mov_api_data.get("dataHora")),
            "complementosTabelados": mov_api_data.get("complementosTabelados", []),
            "data_atualizacao_sistema": timestamp_atual,
            "data_ultima_consulta_api": timestamp_atual
        }
        
        if not mov_existente:
            mov_doc["data_criacao_sistema"] = timestamp_atual
        else:
            mov_doc["data_criacao_sistema"] = mov_existente.get("data_criacao_sistema", timestamp_atual)
        
        mov_bulk_ops.append(pymongo.ReplaceOne({"_id": mov_id}, mov_doc, upsert=True))
        movimentacoes_inseridas_ou_atualizadas.append(mov_doc)

    if mov_bulk_ops:
        db.movimentacoes.bulk_write(mov_bulk_ops, ordered=False)
    
    # Obter dados da última movimentação
    dados_ultima_movimentacao = obter_ultima_movimentacao_dados(movimentos_api)
        
    return processo_id, movimentacoes_inseridas_ou_atualizadas, dados_ultima_movimentacao

# --- Início da Célula 5 ---
print(f"\n{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}")
print(f"{Cores.BOLD}{Cores.CIANO}🔄 CÉLULA 5: RECUPERAÇÃO DE PROCESSOS NÃO CARREGADOS{Cores.RESET}")
print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}\n")

# --- Passo 1: Identificar Processos Não Carregados ---
print(f"{Cores.BOLD}{Cores.MAGENTA}📊 PASSO 1: IDENTIFICANDO PROCESSOS NÃO CARREGADOS{Cores.RESET}")

try:
    db = get_mongo_db()
    
    # Busca todos os números de processos carregados no banco
    print(f"{Cores.CIANO}🔍 Consultando processos já carregados no banco...{Cores.RESET}")
    processos_carregados_cursor = db.processos.find({}, {"numeroProcesso": 1, "numeroProcessoOriginal": 1})
    
    # Cria set com números limpos dos processos carregados
    processos_carregados_limpos = set()
    processos_carregados_originais = set()
    
    for proc in processos_carregados_cursor:
        numero_limpo = proc.get("numeroProcesso")
        numero_original = proc.get("numeroProcessoOriginal")
        
        if numero_limpo:
            processos_carregados_limpos.add(numero_limpo)
        if numero_original:
            processos_carregados_originais.add(numero_original)
    
    print(f"{Cores.VERDE}✅ Encontrados {len(processos_carregados_limpos)} processos únicos no banco{Cores.RESET}")
    
    # Identifica processos não carregados da lista original
    processos_nao_carregados = []
    
    for idx, processo_info in df_processos.iterrows():
        numero_original = processo_info["numeroProcesso"]
        numero_limpo = limpar_numero_processo(numero_original)
        tribunal = processo_info["tribunal"]
        
        # Verifica se não foi carregado (nem por número original nem por número limpo)
        if (numero_original not in processos_carregados_originais and 
            numero_limpo not in processos_carregados_limpos):
            processos_nao_carregados.append({
                'numero_original': numero_original,
                'numero_limpo': numero_limpo,
                'tribunal': tribunal,
                'index': idx
            })
    
    total_nao_carregados = len(processos_nao_carregados)
    print(f"{Cores.AMARELO}📋 Total de processos não carregados: {total_nao_carregados}{Cores.RESET}")
    
    if total_nao_carregados == 0:
        print(f"{Cores.VERDE}🎉 Todos os processos já foram carregados! Nada a fazer.{Cores.RESET}")
    else:
        print(f"{Cores.AZUL}🔄 Iniciando recuperação individual dos {total_nao_carregados} processos...{Cores.RESET}\n")

except Exception as e:
    print(f"{Cores.VERMELHO}❌ Erro na identificação de processos não carregados: {e}{Cores.RESET}")
    raise

# --- Passo 2: Recuperação Individual com 3 Tentativas ---
if total_nao_carregados > 0:
    print(f"{Cores.BOLD}{Cores.MAGENTA}🎯 PASSO 2: RECUPERAÇÃO INDIVIDUAL (3 TENTATIVAS POR PROCESSO){Cores.RESET}\n")
    
    # Contadores para estatísticas
    recuperados_com_sucesso = 0
    total_movimentacoes_recuperadas = 0
    ainda_nao_encontrados = 0
    erros_recuperacao = 0
    
    for i, processo_info in enumerate(processos_nao_carregados, 1):
        numero_original = processo_info['numero_original']
        numero_limpo = processo_info['numero_limpo']
        tribunal = processo_info['tribunal']
        
        # Barra de progresso
        barra = criar_barra_progresso(i, total_nao_carregados)
        print(f"\n{barra}")
        print(f"{Cores.AZUL}🔍 [{i}/{total_nao_carregados}] Tentando recuperar: {numero_original} ({tribunal}){Cores.RESET}")
        print(f"   🧹 Número limpo: {numero_limpo}")
        
        sucesso = False
        
        # 3 tentativas para cada processo
        for tentativa in range(1, 4):
            print(f"   {Cores.CIANO}⚡ Tentativa {tentativa}/3...{Cores.RESET}")
            
            try:
                # Consulta individual na API
                processo_api_data = consultar_processo_individual(tribunal, numero_limpo)
                
                if processo_api_data:
                    print(f"   {Cores.VERDE}✅ Processo encontrado na tentativa {tentativa}!{Cores.RESET}")
                    
                    # Processa e salva o processo completo
                    processo_cnj_id, movimentacoes_carregadas, dados_ultima_mov = processar_e_salvar_processo_completo(
                        processo_api_data, tribunal, numero_original
                    )
                    
                    # Configuração do monitoramento COM dados da última movimentação
                    processo_monitorado_doc = {
                        "processo_cnj_id": processo_cnj_id,
                        "usuario_id": usuario_id,
                        "organizacao_id": organizacao_id,
                        "status_monitoramento": "ativo",
                        "ult_data_sinc_cnj": datetime.now(timezone.utc),
                        
                        # NOVIDADE: Inclui dados da última movimentação diretamente
                        **dados_ultima_mov,
                        "data_atualizacao_ultima_mov": datetime.now(timezone.utc)
                    }
                    
                    set_on_insert = {
                        "data_inicio_monitoramento": datetime.now(timezone.utc),
                        "ultima_movimentacao_vista": datetime.now(timezone.utc),
                        "observacoes": f"Monitorado para {ORGANIZACAO_NOME} (Recuperação Script)"
                    }

                    db.processos_monitorados.update_one(
                        {"processo_cnj_id": processo_cnj_id, "organizacao_id": organizacao_id},
                        {"$set": processo_monitorado_doc, "$setOnInsert": set_on_insert},
                        upsert=True
                    )

                    # Notificação
                    if db.notificacoes.count_documents(
                        {"usuario_id": usuario_id, "processo_id": processo_cnj_id, "tipo": "cadastro_processo"}
                    ) == 0:
                        db.notificacoes.insert_one({
                            "usuario_id": usuario_id,
                            "processo_id": processo_cnj_id,
                            "descricao": f"Processo {numero_original} recuperado e adicionado ao monitoramento.",
                            "data_notificacao": datetime.now(timezone.utc),
                            "status": "PENDENTE",
                            "tipo": "cadastro_processo",
                            "link": f"/app/processos/{processo_cnj_id}"
                        })

                    # Estatísticas
                    recuperados_com_sucesso += 1
                    total_movimentacoes_recuperadas += len(movimentacoes_carregadas)
                    
                    print(f"   {Cores.VERDE}✅ Processo '{processo_cnj_id}' salvo com {len(movimentacoes_carregadas)} movimentações{Cores.RESET}")
                    print(f"   {Cores.MAGENTA}📄 Última movimentação: {dados_ultima_mov.get('ultima_movimentacao_nome', 'N/A')}{Cores.RESET}")
                    print(f"   {Cores.AZUL}🔗 Vinculado ao monitoramento com dados completos{Cores.RESET}")
                    
                    sucesso = True
                    break  # Sai do loop de tentativas
                    
                else:
                    print(f"   {Cores.AMARELO}❌ Não encontrado na tentativa {tentativa}{Cores.RESET}")
                    if tentativa < 3:
                        print(f"   {Cores.CIANO}⏰ Aguardando 3 segundos antes da próxima tentativa...{Cores.RESET}")
                        time.sleep(3)
                
            except Exception as e:
                print(f"   {Cores.VERMELHO}⚠️  Erro na tentativa {tentativa}: {str(e)[:80]}...{Cores.RESET}")
                if tentativa < 3:
                    print(f"   {Cores.CIANO}⏰ Aguardando 5 segundos antes da próxima tentativa...{Cores.RESET}")
                    time.sleep(5)
        
        # Resultado final do processo
        if not sucesso:
            print(f"   {Cores.VERMELHO}❌ FALHA: Processo não recuperado após 3 tentativas{Cores.RESET}")
            ainda_nao_encontrados += 1

# --- Passo 3: Resumo Final da Recuperação ---
if total_nao_carregados > 0:
    print(f"\n{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.CIANO}📊 RESUMO FINAL DA RECUPERAÇÃO{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}")
    
    print(f"\n{Cores.BOLD}📈 ESTATÍSTICAS DA RECUPERAÇÃO:{Cores.RESET}")
    print(f"   📋 Processos não carregados identificados: {total_nao_carregados}")
    print(f"   {Cores.VERDE}✅ Processos recuperados com sucesso: {recuperados_com_sucesso}{Cores.RESET}")
    print(f"   {Cores.AZUL}📄 Movimentações recuperadas: {total_movimentacoes_recuperadas}{Cores.RESET}")
    print(f"   {Cores.VERMELHO}❌ Ainda não encontrados: {ainda_nao_encontrados}{Cores.RESET}")
    print(f"   {Cores.AMARELO}⚠️  Erros durante recuperação: {erros_recuperacao}{Cores.RESET}")
    
    # Taxa de recuperação
    taxa_recuperacao = (recuperados_com_sucesso / total_nao_carregados * 100) if total_nao_carregados > 0 else 0
    cor_taxa = Cores.VERDE if taxa_recuperacao >= 70 else Cores.AMARELO if taxa_recuperacao >= 40 else Cores.VERMELHO
    
    print(f"\n{Cores.BOLD}🎯 TAXA DE RECUPERAÇÃO:{Cores.RESET}")
    barra_recuperacao = criar_barra_progresso(recuperados_com_sucesso, total_nao_carregados)
    print(f"   {barra_recuperacao}")
    print(f"   {cor_taxa}{Cores.BOLD}{taxa_recuperacao:.1f}% de processos recuperados{Cores.RESET}")
    
    # Estatísticas finais combinadas
    total_final_carregados = len(processos_carregados_limpos) + recuperados_com_sucesso
    total_final_movimentacoes = total_movimentacoes_recuperadas  # Só da recuperação, pois não temos o total anterior
    
    print(f"\n{Cores.BOLD}🏆 ESTATÍSTICAS FINAIS COMBINADAS:{Cores.RESET}")
    print(f"   📋 Total de processos na lista original: {len(df_processos)}")
    print(f"   {Cores.VERDE}✅ Total de processos carregados (original + recuperação): {total_final_carregados}{Cores.RESET}")
    print(f"   {Cores.AZUL}📄 Movimentações adicionais recuperadas: {total_movimentacoes_recuperadas}{Cores.RESET}")
    
    taxa_final = (total_final_carregados / len(df_processos) * 100) if len(df_processos) > 0 else 0
    print(f"   {Cores.BOLD}🎯 Taxa final de cobertura: {taxa_final:.1f}%{Cores.RESET}")
    
    print(f"\n{Cores.VERDE}✅ Recuperação concluída! Todos os processos monitorados incluem dados da última movimentação.{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}\n")

print(f"{Cores.VERDE}🎉 Célula 5 executada com sucesso!{Cores.RESET}")


[1m[96m🔄 CÉLULA 5: RECUPERAÇÃO DE PROCESSOS NÃO CARREGADOS[0m

[1m[95m📊 PASSO 1: IDENTIFICANDO PROCESSOS NÃO CARREGADOS[0m
[96m🔍 Consultando processos já carregados no banco...[0m
[92m✅ Encontrados 1981 processos únicos no banco[0m
⚠️  AVISO: Número do processo '0800797-92.2024.8.15.770' não tem 20 dígitos após limpeza: '0800797922024815770'
[93m📋 Total de processos não carregados: 77[0m
[94m🔄 Iniciando recuperação individual dos 77 processos...[0m

[1m[95m🎯 PASSO 2: RECUPERAÇÃO INDIVIDUAL (3 TENTATIVAS POR PROCESSO)[0m


🔴 [91m□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□[0m 1.3% (1/77)
[94m🔍 [1/77] Tentando recuperar: 0800051-30.2024.8.15.7701 (TJPB)[0m
   🧹 Número limpo: 08000513020248157701
   [96m⚡ Tentativa 1/3...[0m
   [93m❌ Não encontrado na tentativa 1[0m
   [96m⏰ Aguardando 3 segundos antes da próxima tentativa...[0m
   [96m⚡ Tentativa 2/3...[0m
   [93m❌ Não encontrado na tentativa 2[0m
   [96m⏰ Aguardando 3 segundos antes da próxima tent

In [6]:
# Célula 6: Criação Completa de Índices e Verificação da Estrutura
# ================================================================

import pymongo
from datetime import datetime, timezone
import json

def criar_todos_indices():
    """Cria todos os índices necessários para otimização do sistema."""
    
    print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.CIANO}🔧 CRIAÇÃO COMPLETA DE ÍNDICES E OTIMIZAÇÕES{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.CIANO}{'='*80}{Cores.RESET}\n")
    
    try:
        db = get_mongo_db()
        indices_criados = 0
        indices_existentes = 0
        
        # Lista de índices para criar
        indices_config = [
            # PROCESSOS
            {
                "colecao": "processos",
                "indice": "numeroProcesso",
                "opcoes": {"unique": True},
                "descricao": "Busca única por número do processo"
            },
            {
                "colecao": "processos", 
                "indice": "tribunal",
                "opcoes": {},
                "descricao": "Filtro por tribunal"
            },
            {
                "colecao": "processos",
                "indice": "dataAjuizamento", 
                "opcoes": {},
                "descricao": "Ordenação por data de ajuizamento"
            },
            {
                "colecao": "processos",
                "indice": [("tribunal", 1), ("dataAjuizamento", -1)],
                "opcoes": {},
                "descricao": "Consultas por tribunal ordenadas por data"
            },
            
            # MOVIMENTAÇÕES
            {
                "colecao": "movimentacoes",
                "indice": "processo_id",
                "opcoes": {},
                "descricao": "Relacionamento processo → movimentações"
            },
            {
                "colecao": "movimentacoes",
                "indice": [("processo_id", 1), ("dataHora", -1)],
                "opcoes": {},
                "descricao": "Última movimentação por processo"
            },
            {
                "colecao": "movimentacoes",
                "indice": "dataHora",
                "opcoes": {},
                "descricao": "Ordenação temporal de movimentações"
            },
            {
                "colecao": "movimentacoes",
                "indice": "codigo",
                "opcoes": {},
                "descricao": "Filtro por tipo de movimentação"
            },
            
            # PROCESSOS MONITORADOS
            {
                "colecao": "processos_monitorados",
                "indice": [("organizacao_id", 1), ("processo_cnj_id", 1)],
                "opcoes": {"unique": True},
                "descricao": "Relacionamento único organização-processo"
            },
            {
                "colecao": "processos_monitorados",
                "indice": "processo_cnj_id",
                "opcoes": {},
                "descricao": "Busca por processo específico"
            },
            {
                "colecao": "processos_monitorados",
                "indice": "organizacao_id",
                "opcoes": {},
                "descricao": "Todos os processos de uma organização"
            },
            {
                "colecao": "processos_monitorados",
                "indice": "usuario_id",
                "opcoes": {},
                "descricao": "Processos monitorados por usuário"
            },
            {
                "colecao": "processos_monitorados",
                "indice": "ultima_movimentacao_data",
                "opcoes": {},
                "descricao": "Ordenação por última movimentação"
            },
            {
                "colecao": "processos_monitorados",
                "indice": [("organizacao_id", 1), ("ultima_movimentacao_data", -1)],
                "opcoes": {},
                "descricao": "Dashboard organizacional por data"
            },
            {
                "colecao": "processos_monitorados",
                "indice": [("organizacao_id", 1), ("status_monitoramento", 1)],
                "opcoes": {},
                "descricao": "Filtro por status de monitoramento"
            },
            
            # USUÁRIOS
            {
                "colecao": "usuarios",
                "indice": "email",
                "opcoes": {"unique": True},
                "descricao": "Login único por email"
            },
            {
                "colecao": "usuarios",
                "indice": "perfil",
                "opcoes": {},
                "descricao": "Filtro por perfil de usuário"
            },
            
            # ORGANIZAÇÕES
            {
                "colecao": "organizacoes",
                "indice": "cnpj",
                "opcoes": {"unique": True},
                "descricao": "Identificação única por CNPJ"
            },
            {
                "colecao": "organizacoes",
                "indice": "ativo",
                "opcoes": {},
                "descricao": "Filtro por organizações ativas"
            },
            
            # NOTIFICAÇÕES
            {
                "colecao": "notificacoes",
                "indice": [("usuario_id", 1), ("status", 1), ("data_notificacao", -1)],
                "opcoes": {},
                "descricao": "Notificações por usuário e status"
            },
            {
                "colecao": "notificacoes",
                "indice": "processo_id",
                "opcoes": {},
                "descricao": "Notificações por processo"
            },
            {
                "colecao": "notificacoes",
                "indice": [("tipo", 1), ("data_notificacao", -1)],
                "opcoes": {},
                "descricao": "Notificações por tipo ordenadas por data"
            }
        ]
        
        print(f"{Cores.AZUL}📋 Total de índices para verificar/criar: {len(indices_config)}{Cores.RESET}\n")
        
        for i, config in enumerate(indices_config, 1):
            colecao_nome = config["colecao"]
            indice = config["indice"]
            opcoes = config["opcoes"]
            descricao = config["descricao"]
            
            try:
                colecao = db[colecao_nome]
                
                # Tenta criar o índice
                resultado = colecao.create_index(indice, **opcoes)
                
                if resultado:
                    print(f"   {Cores.VERDE}✅ [{i:2d}] {colecao_nome}.{indice} → {descricao}{Cores.RESET}")
                    indices_criados += 1
                else:
                    print(f"   {Cores.AMARELO}ℹ️  [{i:2d}] {colecao_nome}.{indice} → Já existia{Cores.RESET}")
                    indices_existentes += 1
                    
            except pymongo.errors.DuplicateKeyError as e:
                print(f"   {Cores.VERMELHO}❌ [{i:2d}] {colecao_nome}.{indice} → Erro de chave duplicada: {e}{Cores.RESET}")
            except Exception as e:
                if "already exists" in str(e) or "index already exists" in str(e):
                    print(f"   {Cores.AMARELO}ℹ️  [{i:2d}] {colecao_nome}.{indice} → Já existia{Cores.RESET}")
                    indices_existentes += 1
                else:
                    print(f"   {Cores.VERMELHO}❌ [{i:2d}] {colecao_nome}.{indice} → Erro: {e}{Cores.RESET}")
        
        print(f"\n{Cores.BOLD}📊 RESUMO DA CRIAÇÃO DE ÍNDICES:{Cores.RESET}")
        print(f"   {Cores.VERDE}✅ Índices criados: {indices_criados}{Cores.RESET}")
        print(f"   {Cores.AMARELO}ℹ️  Índices já existentes: {indices_existentes}{Cores.RESET}")
        print(f"   {Cores.AZUL}📋 Total verificado: {indices_criados + indices_existentes}{Cores.RESET}")
        
    except Exception as e:
        print(f"{Cores.VERMELHO}❌ Erro geral na criação de índices: {e}{Cores.RESET}")

def verificar_estrutura_colecoes():
    """Verifica a estrutura atual das coleções."""
    
    print(f"\n{Cores.BOLD}{Cores.MAGENTA}🔍 VERIFICAÇÃO DA ESTRUTURA DAS COLEÇÕES{Cores.RESET}\n")
    
    try:
        db = get_mongo_db()
        
        colecoes_info = [
            {"nome": "processos", "campo_exemplo": "numeroProcesso"},
            {"nome": "movimentacoes", "campo_exemplo": "processo_id"},
            {"nome": "processos_monitorados", "campo_exemplo": "processo_cnj_id"},
            {"nome": "usuarios", "campo_exemplo": "email"},
            {"nome": "organizacoes", "campo_exemplo": "cnpj"},
            {"nome": "notificacoes", "campo_exemplo": "usuario_id"}
        ]
        
        for info in colecoes_info:
            nome = info["nome"]
            campo = info["campo_exemplo"]
            
            try:
                count = db[nome].count_documents({})
                exemplo = db[nome].find_one({}, {campo: 1, "_id": 1})
                indices = db[nome].list_indexes()
                num_indices = len(list(indices))
                
                print(f"   {Cores.AZUL}�� {nome}:{Cores.RESET}")
                print(f"      📊 Documentos: {count}")
                print(f"      🔧 Índices: {num_indices}")
                if exemplo:
                    print(f"      📄 Exemplo {campo}: {exemplo.get(campo, 'N/A')}")
                print()
                
            except Exception as e:
                print(f"   {Cores.VERMELHO}❌ Erro ao verificar {nome}: {e}{Cores.RESET}")
        
    except Exception as e:
        print(f"{Cores.VERMELHO}❌ Erro na verificação: {e}{Cores.RESET}")

def verificar_processos_monitorados_estrutura():
    """Verifica se processos_monitorados tem a estrutura completa com última movimentação."""
    
    print(f"{Cores.BOLD}{Cores.CIANO}�� VERIFICAÇÃO DE PROCESSOS_MONITORADOS{Cores.RESET}\n")
    
    try:
        db = get_mongo_db()
        
        # Verifica alguns registros
        registros = list(db.processos_monitorados.find().limit(3))
        
        if not registros:
            print(f"{Cores.AMARELO}⚠️  Nenhum registro encontrado em processos_monitorados{Cores.RESET}")
            return
        
        # Verifica se tem campos da última movimentação
        primeiro_registro = registros[0]
        campos_ultima_mov = [
            "ultima_movimentacao_id",
            "ultima_movimentacao_codigo", 
            "ultima_movimentacao_nome",
            "ultima_movimentacao_data",
            "ultima_movimentacao_complementos"
        ]
        
        tem_estrutura_completa = all(campo in primeiro_registro for campo in campos_ultima_mov)
        
        if tem_estrutura_completa:
            print(f"{Cores.VERDE}✅ Estrutura completa detectada em processos_monitorados{Cores.RESET}")
            print(f"   📄 Última movimentação exemplo: {primeiro_registro.get('ultima_movimentacao_nome', 'N/A')}")
        else:
            print(f"{Cores.AMARELO}⚠️  Estrutura incompleta em processos_monitorados{Cores.RESET}")
            print(f"   📋 Campos faltantes: {[c for c in campos_ultima_mov if c not in primeiro_registro]}")
            print(f"   🔧 Execute o script de atualização da última movimentação")
        
        print(f"   📊 Total de registros: {len(registros)}")
        
    except Exception as e:
        print(f"{Cores.VERMELHO}❌ Erro na verificação: {e}{Cores.RESET}")

# Execução da Célula 6
print(f"{Cores.VERDE}🚀 Executando verificação e criação completa de índices...{Cores.RESET}")

# 1. Criar todos os índices
criar_todos_indices()

# 2. Verificar estrutura das coleções  
verificar_estrutura_colecoes()

# 3. Verificar estrutura específica de processos_monitorados
verificar_processos_monitorados_estrutura()

print(f"\n{Cores.VERDE}✅ Célula 6 executada! Sistema otimizado e verificado.{Cores.RESET}")

[92m🚀 Executando verificação e criação completa de índices...[0m
[1m[96m🔧 CRIAÇÃO COMPLETA DE ÍNDICES E OTIMIZAÇÕES[0m

[94m📋 Total de índices para verificar/criar: 22[0m

   [92m✅ [ 1] processos.numeroProcesso → Busca única por número do processo[0m
   [92m✅ [ 2] processos.tribunal → Filtro por tribunal[0m
   [92m✅ [ 3] processos.dataAjuizamento → Ordenação por data de ajuizamento[0m
   [92m✅ [ 4] processos.[('tribunal', 1), ('dataAjuizamento', -1)] → Consultas por tribunal ordenadas por data[0m
   [92m✅ [ 5] movimentacoes.processo_id → Relacionamento processo → movimentações[0m
   [92m✅ [ 6] movimentacoes.[('processo_id', 1), ('dataHora', -1)] → Última movimentação por processo[0m
   [92m✅ [ 7] movimentacoes.dataHora → Ordenação temporal de movimentações[0m
   [92m✅ [ 8] movimentacoes.codigo → Filtro por tipo de movimentação[0m
   [92m✅ [ 9] processos_monitorados.[('organizacao_id', 1), ('processo_cnj_id', 1)] → Relacionamento único organização-processo[0m
  