In [25]:
import ast
import json
import os
import re
import sys
import time
import random
import traceback

# Bibliotecas de Terceiros (mais usadas primeiro)
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup

# Bibliotecas de Visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns

# Selenium e WebDriver Manager
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from webdriver_manager.chrome import ChromeDriverManager

In [14]:
# A fun√ß√£o pd.read_csv() √© usada para carregar o arquivo CSV (Comma Separated Values)
# para dentro do ambiente de trabalho.

df = pd.read_csv("processos_crimes_fauna_tjce.csv")

# O m√©todo .info() √© essencial para a An√°lise Explorat√≥ria de Dados (AED).

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 14 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   classe                     3000 non-null   object
 1   numeroProcesso             3000 non-null   object
 2   sistema                    3000 non-null   object
 3   formato                    3000 non-null   object
 4   tribunal                   3000 non-null   object
 5   dataHoraUltimaAtualizacao  3000 non-null   object
 6   grau                       3000 non-null   object
 7   @timestamp                 3000 non-null   object
 8   dataAjuizamento            3000 non-null   int64 
 9   movimentos                 3000 non-null   object
 10  id                         3000 non-null   object
 11  nivelSigilo                3000 non-null   int64 
 12  orgaoJulgador              3000 non-null   object
 13  assuntos                   3000 non-null   object
dtypes: int64

In [15]:
# Sele√ß√£o de Colunas:
# Aqui, criamos um novo DataFrame (df_selecionado) que √© um subconjunto do DataFrame original (df).
# Para selecionar colunas espec√≠ficas, usamos dois pares de colchetes: df[['nome_da_coluna']].

df_selecionado = df [['assuntos']]

# Exibi√ß√£o das Primeiras Linhas:
# O m√©todo .head() √© fundamental ap√≥s uma opera√ß√£o de sele√ß√£o ou filtragem.
# Ele exibe as 5 primeiras linhas do novo DataFrame (df_selecionado).

df_selecionado.head() 

Unnamed: 0,assuntos
0,"[{'codigo': 3619, 'nome': 'Crimes contra a Fau..."
1,"[{'codigo': 3619, 'nome': 'Crimes contra a Fau..."
2,"[{'codigo': 3619, 'nome': 'Crimes contra a Fau..."
3,"[{'codigo': 3619, 'nome': 'Crimes contra a Fau..."
4,"[{'codigo': 3619, 'nome': 'Crimes contra a Fau..."


In [16]:
# Cria um novo DataFrame contendo apenas a coluna 'numeroProcesso'
# A sintaxe df[['nome_da_coluna']] √© usada para selecionar UMA ou MAIS colunas,
# garantindo que o resultado (df_processos) seja um novo DataFrame.
df_processos = df[['numeroProcesso']]

# Exibe as 5 primeiras linhas do novo DataFrame para verifica√ß√£o
print("As primeiras 5 linhas do DataFrame com apenas o numeroProcesso:")
# .head() √© uma verifica√ß√£o visual r√°pida para confirmar que os dados foram selecionados corretamente.
print(df_processos.head())

# Exibe a forma (linhas e colunas) do novo DataFrame para confirmar que √© uma √∫nica coluna
print("\nForma (Shape) do novo DataFrame:")
# O atributo .shape retorna uma tupla (n√∫mero_de_linhas, n√∫mero_de_colunas).
# √â usado para confirmar se a sele√ß√£o resultou no n√∫mero esperado de colunas (que deve ser 1 neste caso).
print(df_processos.shape)

As primeiras 5 linhas do DataFrame com apenas o numeroProcesso:
         numeroProcesso
0  02038219120258060298
1  02019423420258060303
2  02027894220258060301
3  02017180220258060302
4  00284953820258060001

Forma (Shape) do novo DataFrame:
(3000, 1)


In [17]:
# Garante que 'movimentos' seja lista de dicion√°rios

# DEFINI√á√ÉO DA FUN√á√ÉO DE TRATAMENTO:
# Esta fun√ß√£o ('tratar_movimentos') √© criada para converter a coluna 'movimentos'

def tratar_movimentos(x):
    # 1. Checa se o dado √© uma string (o formato mais comum ap√≥s a leitura do CSV).
    if isinstance(x, str):
        try:
            # ast.literal_eval() √© a ferramenta segura para converter uma string
            # que se parece com uma lista ou dicion√°rio em um objeto Python real.
            return ast.literal_eval(x)
        except:
            # Se a convers√£o falhar (string mal formatada), retorna uma lista vazia.
            return []
    # 2. Se o dado j√° for uma lista, ele est√° pronto.
    elif isinstance(x, list):
        return x
    # 3. Para qualquer outro caso (ex: NaN, None), retorna lista vazia.
    else:
        return []

# APLICA√á√ÉO DA FUN√á√ÉO:
# .apply() aplica a fun√ß√£o 'tratar_movimentos' linha por linha na coluna "movimentos".
# O resultado (agora uma lista real) √© salvo na nova coluna "movimentos_tratados".
df["movimentos_tratados"] = df["movimentos"].apply(tratar_movimentos)

# Extrair nomes resumidos dos movimentos
# CRIA√á√ÉO DE LISTA SIMPLIFICADA:
# Aplica uma fun√ß√£o lambda para iterar sobre a lista de dicion√°rios em "movimentos_tratados".
df["lista_movimentos"] = df["movimentos_tratados"].apply(
    # Para cada dicion√°rio 'm' na lista, extrai o valor associado √† chave "nome".
    # Se a chave "nome" n√£o existir, retorna uma string vazia ("").
    lambda movs: [m.get("nome", "") for m in movs]
)

# Extrair nome do √≥rg√£o julgador
# FUN√á√ÉO PARA EXTRAIR DADOS DE DICION√ÅRIOS (Semelhante √† anterior):
def extrair_orgao(x):
    # Trata o caso de a coluna "orgaoJulgador" ter sido lida como string.
    if isinstance(x, str):
        try:
            # Converte a string (se for formato de dicion√°rio) em dicion√°rio Python.
            x = ast.literal_eval(x)
        except:
            # Se falhar ou n√£o for string, retorna None.
            return None
    # Se o dado resultante for um dicion√°rio Python (tratado ou j√° era),
    if isinstance(x, dict):
        # Extrai o valor da chave "nome" do dicion√°rio.
        return x.get("nome")
    # Caso contr√°rio (NaN, None, ou outros formatos), retorna None.
    return None

# APLICA√á√ÉO DA FUN√á√ÉO DE EXTRA√á√ÉO:
# Aplica a fun√ß√£o para criar uma nova coluna com o nome limpo do √≥rg√£o julgador.
df["orgao_julgador_nome"] = df["orgaoJulgador"].apply(extrair_orgao)

# Exibe as primeiras linhas com as colunas rec√©m-criadas para verificar a transforma√ß√£o.

df[["numeroProcesso", "orgao_julgador_nome", "lista_movimentos"]].head()

Unnamed: 0,numeroProcesso,orgao_julgador_nome,lista_movimentos
0,2038219120258060298,5¬∫ NUCLEO REGIONAL DE CUSTODIA E DAS GARANTIAS,"[Conclus√£o, Distribui√ß√£o, Documento, Expedi√ß√£o..."
1,2019423420258060303,3¬∫ NUCLEO REGIONAL DE CUSTODIA E DAS GARANTIAS,"[Distribui√ß√£o, Conclus√£o, Mero expediente]"
2,2027894220258060301,1¬∫ NUCLEO REGIONAL DE CUSTODIA E DAS GARANTIAS,"[Conclus√£o, Distribui√ß√£o, Conclus√£o]"
3,2017180220258060302,2¬∫ NUCLEO REGIONAL DE CUSTODIA E DAS GARANTIAS,"[Conclus√£o, Conclus√£o, Distribui√ß√£o, Expedi√ß√£o..."
4,284953820258060001,18¬™ VARA CRIMINAL DA COMARCA DE FORTALEZA,"[Distribui√ß√£o, Documento, Documento, Expedi√ß√£o..."


In [18]:
# Verificar se existe algum movimento de senten√ßa

# DEFINI√á√ÉO DA FUN√á√ÉO DE CLASSIFICA√á√ÉO:
# A fun√ß√£o 'tem_sentenca' verifica se a lista de movimentos de um processo
# cont√©m algum dos termos definidos que indicam o fim da fase de conhecimento.
def tem_sentenca(lista):
    # Lista de termos-chave a serem procurados. A busca por palavras-chave √© a forma mais simples de classifica√ß√£o textual.
    termos = ["senten√ßa", "decis√£o", "julgado", "concluso para senten√ßa"]
    # 1. Junta todos os movimentos em uma √∫nica string (texto).
    # 2. Converte para min√∫sculas (.lower()) para garantir que a busca n√£o seja sens√≠vel a mai√∫sculas/min√∫sculas.
    texto = " ".join(lista).lower()
    # Retorna True se QUALQUER (any) dos termos for encontrado (in) dentro do texto.
    return any(t in texto for t in termos)

# APLICA√á√ÉO DA CLASSIFICA√á√ÉO:
# Aplica a fun√ß√£o 'tem_sentenca' a cada item da coluna "lista_movimentos" (que √© uma lista de strings).
# O resultado (True ou False) √© armazenado na nova coluna booleana "possui_sentenca_movimento".
df["possui_sentenca_movimento"] = df["lista_movimentos"].apply(tem_sentenca)

# CONTAGEM DE FREQU√äNCIA:
# O m√©todo .value_counts() √© usado para contar quantas vezes cada valor √∫nico
# (True ou False, neste caso) aparece na coluna.
# √â usado para ter uma vis√£o geral da propor√ß√£o de processos que possuem senten√ßa.
df["possui_sentenca_movimento"].value_counts()


possui_sentenca_movimento
True     1848
False    1152
Name: count, dtype: int64

In [19]:
# FILTRAGEM DO DATAFRAME:
# Cria um novo DataFrame (df_sentenca) contendo apenas os processos que
# satisfazem a condi√ß√£o: "possui_sentenca_movimento" igual a True.
# A sintaxe df[...] √© usada para filtrar linhas.

df_sentenca = df[df["possui_sentenca_movimento"] == True].copy()

# EXIBI√á√ÉO DA CONTAGEM:
# len() √© uma fun√ß√£o Python padr√£o que retorna o n√∫mero de itens em um objeto.
# Aqui, ele √© usado para contar o n√∫mero de linhas (processos) no DataFrame filtrado,

print("Total com senten√ßa:", len(df_sentenca))

# CONFER√äNCIA DOS DADOS FILTRADOS:
# Exibe as primeiras 5 linhas das colunas-chave do novo DataFrame filtrado.

df_sentenca[["numeroProcesso", "orgao_julgador_nome", "lista_movimentos"]].head()


Total com senten√ßa: 1848


Unnamed: 0,numeroProcesso,orgao_julgador_nome,lista_movimentos
15,2033411620258060298,5¬∫ NUCLEO REGIONAL DE CUSTODIA E DAS GARANTIAS,"[Conclus√£o, Expedi√ß√£o de documento, Distribui√ß..."
37,255308720258060001,18¬™ VARA CRIMINAL DA COMARCA DE FORTALEZA,"[Peti√ß√£o, Conclus√£o, Expedi√ß√£o de documento, D..."
65,2190163720258060001,18¬™ VARA CRIMINAL DA COMARCA DE FORTALEZA,"[Conclus√£o, Expedi√ß√£o de documento, Expedi√ß√£o ..."
85,2019078920258060298,5¬∫ NUCLEO REGIONAL DE CUSTODIA E DAS GARANTIAS,"[Expedi√ß√£o de documento, Peti√ß√£o, Conclus√£o, E..."
112,2928082920228060001,GADES - BENEDITO HELDER AFONSO IBIAPINA,"[Distribui√ß√£o, Documento, Expedi√ß√£o de documen..."


In [20]:
# Criar URL p√∫blica de consulta no TJCE

# CRIA√á√ÉO DA COLUNA DE URL:
# Utiliza o m√©todo .apply() com uma fun√ß√£o lambda para construir uma URL √∫nica para cada processo.
df_sentenca["url_publica_tjce"] = df_sentenca["numeroProcesso"].apply(
    # Fun√ß√£o Lambda:
    # f"..." √© uma f-string (string formatada), que permite incorporar o valor da vari√°vel 'x'
    # (que √© o 'numeroProcesso' de cada linha) diretamente na URL base do TJCE.
    lambda x: f"https://esaj.tjce.jus.br/cpopg/showProcessoDigital.do?processo.numero={x}"
)

# Confer√™ncia
# Exibe as colunas "numeroProcesso" e a rec√©m-criada "url_publica_tjce" nas primeiras 5 linhas.
# Isso confirma que a URL foi constru√≠da corretamente, substituindo o placeholder do n√∫mero do processo.
df_sentenca[["numeroProcesso", "url_publica_tjce"]].head()



Unnamed: 0,numeroProcesso,url_publica_tjce
15,2033411620258060298,https://esaj.tjce.jus.br/cpopg/showProcessoDig...
37,255308720258060001,https://esaj.tjce.jus.br/cpopg/showProcessoDig...
65,2190163720258060001,https://esaj.tjce.jus.br/cpopg/showProcessoDig...
85,2019078920258060298,https://esaj.tjce.jus.br/cpopg/showProcessoDig...
112,2928082920228060001,https://esaj.tjce.jus.br/cpopg/showProcessoDig...


## Teste para realizar web scraping em um processo

In [35]:
# =======================
# BLOCO 1 - ABRIR PAGINA WEB DO TJCE
# =======================
# CONFIGURA√á√ÉO DO SELENIUM (SEGURO)
# =======================

# Inicializa o objeto Options para configurar o comportamento do navegador Chrome.
options = Options()
# Define que a janela do navegador deve iniciar maximizada (melhora a visualiza√ß√£o e intera√ß√£o).
options.add_argument("--start-maximized")
# Adiciona um argumento para tentar disfar√ßar que o navegador est√° sendo controlado por automa√ß√£o.
options.add_argument("--disable-blink-features=AutomationControlled")
# Remove as barras de informa√ß√£o que o Chrome exibe em modo automatizado.
options.add_argument("--disable-infobars")
# Desativa notifica√ß√µes que podem interromper o script.
options.add_argument("--disable-notifications")
# Remove o aviso "Chrome est√° sendo controlado por software de teste".
options.add_experimental_option("excludeSwitches", ["enable-automation"])
# Desativa extens√µes de automa√ß√£o.
options.add_experimental_option("useAutomationExtension", False)

# Configura o servi√ßo do ChromeDriver:
# O ChromeDriverManager verifica automaticamente a vers√£o do seu Chrome e baixa o driver compat√≠vel.
# Isso elimina a necessidade de gerenciar drivers manualmente, tornando o c√≥digo mais robusto.
service = Service(ChromeDriverManager().install())
# Inicializa a inst√¢ncia do navegador Chrome, passando as configura√ß√µes e o servi√ßo do driver.
driver = webdriver.Chrome(service=service, options=options)

# Configura√ß√µes de Espera Expl√≠cita (WebDriverWait):
# Cria um objeto 'wait' que ser√° usado para esperar at√© 20 segundos
# por um elemento na p√°gina antes de lan√ßar uma exce√ß√£o de Timeout.
wait = WebDriverWait(driver, 20)

# =======================
# ABRIR SITE DO TJCE
# =======================
# Define a URL de destino (p√°gina de consulta p√∫blica do TJCE).
url = "https://esaj.tjce.jus.br/cpopg/open.do"
# O m√©todo .get() instrui o navegador a carregar a URL definida.
driver.get(url)

# Feedback visual para o usu√°rio.
print("Chrome aberto com sucesso.")
print("P√°gina do TJCE carregando...")

# Aguarda 5 segundos. Um 'sleep' simples √© usado aqui para dar tempo √† p√°gina
# para carregar seus elementos iniciais (embora o WebDriverWait seja mais profissional para esperas espec√≠ficas).
time.sleep(5)

# Confirma√ß√£o de conclus√£o do bloco.
print("BLOCO 1 FINALIZADO COM SUCESSO")


Chrome aberto com sucesso.
P√°gina do TJCE carregando...
BLOCO 1 FINALIZADO COM SUCESSO


## Resumo Did√°tico Bloco 1(Foco no Selenium)
Este bloco configura o Motor de Automa√ß√£o (Selenium).

Options() e Argumentos: O cora√ß√£o da configura√ß√£o do Selenium. Os argumentos como --start-maximized e, principalmente, as op√ß√µes de excludeSwitches e useAutomationExtension s√£o usados para tornar a navega√ß√£o do rob√¥ mais parecida com a de um humano, o que √© crucial para evitar detec√ß√£o por sites mais robustos.

ChromeDriverManager().install(): Esta linha resolve o maior problema do Selenium: a incompatibilidade de drivers. Ela garante que a vers√£o correta do ChromeDriver seja baixada e usada, independente da vers√£o do Chrome instalada no seu PC.

WebDriverWait: Embora n√£o usado imediatamente, o objeto wait √© uma ferramenta avan√ßada. Em vez de usar time.sleep(X) (que sempre espera X segundos, mesmo que a p√°gina carregue em 1 segundo), o WebDriverWait espera apenas at√© a condi√ß√£o ser satisfeita ou o timeout (20s) ser atingido, tornando o scraper mais r√°pido e confi√°vel.

In [36]:
# =======================
# BLOCO 2 - PREENCHER CAMPOS TJCE CORRETAMENTE
# =======================

# Define o n√∫mero do processo (CNJ - Conselho Nacional de Justi√ßa) a ser pesquisado.
# O formato CNJ padr√£o √© NNNNNNN-DD.AAAA.J.TR.OOOO.
processo = "02190163720258060001"

# Quebra correta do n√∫mero CNJ
# Divide a string do n√∫mero do processo em partes conforme o formato do campo de busca do TJCE.
parte1 = processo[:7]   # NNNNNNN (Primeiros 7 d√≠gitos - N√∫mero Sequencial)
parte2 = processo[7:9]  # DD      (D√≠gitos Verificadores)
parte3 = processo[9:13] # AAAA    (Ano do ajuizamento)
parte4 = processo[-4:]  # OOOO    (√öltimos 4 d√≠gitos - Unidade de Origem / Foro)

print("Partes extra√≠das:")
print(parte1, parte2, parte3, parte4)

# Campo principal: 0000000-00.0000
# USO DO WAITER: A espera expl√≠cita √© usada para garantir que o elemento (campo de texto)
# com o ID "numeroDigitoAnoUnificado" esteja presente no DOM (Document Object Model) da p√°gina.
campo_principal = wait.until(
    EC.presence_of_element_located((By.ID, "numeroDigitoAnoUnificado"))
)
# Limpa qualquer conte√∫do pr√©-existente no campo de texto.
campo_principal.clear()
# Digita a parte formatada (0000000-00.0000) no campo, usando uma f-string para uni√£o.
campo_principal.send_keys(f"{parte1}-{parte2}.{parte3}")

# Campo final: 0001
# Espera expl√≠cita para garantir que o campo do n√∫mero do foro (Unidade de Origem) esteja presente.
campo_final = wait.until(
    EC.presence_of_element_located((By.ID, "foroNumeroUnificado"))
)
# Limpa o campo.
campo_final.clear()
# Digita a parte final do n√∫mero do processo (parte4).
campo_final.send_keys(parte4)

# Pausa simples para que o usu√°rio ou a aplica√ß√£o veja os campos preenchidos antes de avan√ßar.
time.sleep(2)

print("Campos preenchidos corretamente.")


Partes extra√≠das:
0219016 37 2025 0001
Campos preenchidos corretamente.


## Resumo Did√°tico (Foco na Intera√ß√£o e Formata√ß√£o)
Este bloco demonstra tr√™s conceitos essenciais:

Formato CNJ: O n√∫mero do processo segue um padr√£o nacional. Usar slicing ([:7], [7:9], etc.) √© a t√©cnica de Python para quebrar a string e extrair as partes necess√°rias.

WebDriverWait (wait.until): Este √© o m√©todo profissional de espera no Selenium. Ele √© superior a time.sleep(), pois s√≥ espera o tempo estritamente necess√°rio para que o elemento apare√ßa (EC.presence_of_element_located).

Intera√ß√£o com Formul√°rios (.clear() e .send_keys()):

.clear(): Garante que o campo de texto est√° vazio antes de digitar.

.send_keys(): Simula a digita√ß√£o de dados pelo usu√°rio.

In [28]:
# =======================
# BLOCO 3 - CLICAR EM CONSULTAR
# =======================

botao_consultar = wait.until(
    EC.element_to_be_clickable((By.ID, "botaoConsultarProcessos"))
)
botao_consultar.click()

print(" Bot√£o Consultar clicado.")

# Aguardar p√°gina do processo carregar
time.sleep(6)

print(" Se n√£o houver erro, o processo deve estar aberto na nova tela.")



 Bot√£o Consultar clicado.
 Se n√£o houver erro, o processo deve estar aberto na nova tela.


In [29]:
# =======================
# BLOCO 4: Carregamento Completo das Movimenta√ß√µes (Vers√£o de Produ√ß√£o)
# =======================

# XPATH e configura√ß√µes do loop

# Define o XPATH (XML Path Language) para localizar o link "Mais" que carrega novas movimenta√ß√µes.
# O XPATH seleciona a tag 'a' (link) que tem o ID 'linkmovimentacoes' E cont√©m o texto 'Mais'.
XPATH_BOTAO_MAIS = "//a[@id='linkmovimentacoes' and contains(., 'Mais')]"
# Define o n√∫mero m√°ximo de vezes que o rob√¥ tentar√° clicar, como medida de seguran√ßa.
TENTATIVAS_MAXIMAS = 15
# Inicializa o contador de tentativas.
tentativas = 0

# Rolar para o final antes de come√ßar
# Usa JavaScript (driver.execute_script) para rolar a p√°gina at√© o final (document.body.scrollHeight).
# Isso garante que o primeiro bot√£o 'Mais' esteja vis√≠vel, caso ele j√° esteja l√° embaixo.
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# Pausa simples para a rolagem terminar.
time.sleep(2)

# Loop para clicar no "Mais" at√© que ele desapare√ßa
# O loop continuar√° enquanto o n√∫mero de tentativas for menor que o m√°ximo.
while tentativas < TENTATIVAS_MAXIMAS:
    try:
        # Espera curta pelo link clic√°vel
        # Espera expl√≠cita de no m√°ximo 5 segundos (WebDriverWait).
        # EC.element_to_be_clickable garante que o elemento n√£o s√≥ existe, mas tamb√©m pode ser clicado.
        botao_mais = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, XPATH_BOTAO_MAIS))
        )
        
        # Rola o bot√£o para a vista
        # Usa JavaScript para garantir que o bot√£o esteja no centro da tela.
        # Isso √© uma t√©cnica de robustez para evitar que outros elementos o cubram.
        driver.execute_script("arguments[0].scrollIntoView({block: 'center'});", botao_mais)
        time.sleep(1) 
        
        # Clique nativo
        # Executa a a√ß√£o de clique no elemento encontrado.
        botao_mais.click()
        
        # Aguarda o carregamento
        # Pausa longa para dar tempo ao servidor para buscar e renderizar os novos movimentos na p√°gina.
        time.sleep(6) 
        
        # Rola a p√°gina para garantir que o novo bot√£o 'Mais' esteja vis√≠vel
        # Rola novamente para o final, preparando para a pr√≥xima itera√ß√£o do loop, caso haja mais movimentos.
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(1)
        
        # Incrementa o contador de sucesso.
        tentativas += 1
        
    except TimeoutException:
        # EXCE√á√ÉO ESPERADA: Se o WebDriverWait estourar o limite de 5 segundos,
        # significa que o bot√£o 'Mais' n√£o existe mais.
        # Isso indica que todas as movimenta√ß√µes foram carregadas. O loop √© interrompido.
        break 
        
    except Exception:
        # Qualquer outro erro, como intercepta√ß√£o inesperada ou erro no clique,
        # trata o processo como conclu√≠do (ou irrecuper√°vel) e sai do loop.
        break

print(f" Bloco 4 (Carregamento de Movimentos) Finalizado. {tentativas} cliques realizados.")

 Bloco 4 (Carregamento de Movimentos) Finalizado. 1 cliques realizados.


## Resumo Did√°tico (Foco na Robustez)
Este bloco √© um manual de robustez para web scraping din√¢mico:

XPATH (XPATH_BOTAO_MAIS): Linguagem de caminho usada para selecionar elementos complexos. O uso de and contains(., 'Mais') torna a sele√ß√£o precisa e menos propensa a erros de altera√ß√£o de layout.

driver.execute_script (Manipula√ß√£o de Tela): √â usado para controlar o navegador via JavaScript. Rolar a p√°gina √© essencial, pois o Selenium s√≥ pode interagir com elementos vis√≠veis na tela.

Loop e Tratamento de Exce√ß√£o (while/try/except): O design do loop √© o ponto alto. Em vez de depender de uma condi√ß√£o de sucesso, ele depende de uma condi√ß√£o de falha esperada (TimeoutException). Quando o bot√£o "Mais" n√£o pode mais ser encontrado, o WebDriverWait gera a exce√ß√£o, o que indica o fim do carregamento e quebra o loop de forma limpa.

TENTATIVAS_MAXIMAS: √â uma salvaguarda contra loops infinitos, caso o site esteja quebrado ou o XPATH esteja errado.

In [30]:
# =======================
# BLOCO 5: EXTRA√á√ÉO FINAL DAS MOVIMENTA√á√ïES (TJCE)
# =======================

print("\n# BLOCO 5 - EXTRA√á√ÉO FINAL DAS MOVIMENTA√á√ïES (TJCE)")

try:
    # Tenta localizar diretamente o tbody correto pelo ID
    tbody = driver.find_element(By.ID, "tabelaTodasMovimentacoes")
    print("Encontrado tbody com ID 'tabelaTodasMovimentacoes'")

    linhas = tbody.find_elements(By.CSS_SELECTOR, "tr.containerMovimentacao")
    print(f"total de tr.containerMovimentacao encontradas: {len(linhas)}")

    movimentos = []

    for tr in linhas:
        try:
            data = tr.find_element(By.CSS_SELECTOR, "td.dataMovimentacao").text.strip()
            desc = tr.find_element(By.CSS_SELECTOR, "td.descricaoMovimentacao").text.strip()
            movimentos.append((data, desc))
        except Exception as e:
            print(f"Erro extraindo linha: {e}")
            continue

    print("\n Extra√ß√£o finalizada. registros v√°lidos:", len(movimentos))
    for m in movimentos:
        print(m)

except Exception as e:
    print(f" Erro no bloco 5: {e}")



# BLOCO 5 - EXTRA√á√ÉO FINAL DAS MOVIMENTA√á√ïES (TJCE)
Encontrado tbody com ID 'tabelaTodasMovimentacoes'
total de tr.containerMovimentacao encontradas: 33

 Extra√ß√£o finalizada. registros v√°lidos: 33
('10/12/2025', 'Certid√£o emitida\nPORTAL - 50235 - Certid√£o de decurso de prazo (10 dias) para cientifica√ß√£o da intima√ß√£o eletr√¥nica')
('27/11/2025', 'Expedi√ß√£o de Of√≠cio\n[√ÅREA CRIMINAL] - [MALOTE DIGITAL] - Magistrado - Of√≠cio Gen√©rico')
('26/11/2025', 'Certid√£o emitida\nPORTAL - 50235 - Certid√£o de remessa da intima√ß√£o para o Portal Eletr√¥nico')
('18/11/2025', 'Decis√£o Interlocut√≥ria de M√©rito\nDiante do exposto, com fundamento no art. 118 do CPP, DEFIRO o requerimento formulado pela autoridade policial e DETERMINO: a) A manuten√ß√£o da apreens√£o do ve√≠culo Toyota Hilux, cor preta, placas PNC0E73, bem como a continuidade de sua utiliza√ß√£o pela autoridade policial, exclusivamente para fins de dilig√™ncias e atividades investigativas, at√© o tr√¢nsito em jul

In [31]:
# BLOCO 6: Salvar




## Extra√ß√£o em massa

In [32]:
# Criar lista somente com n√∫mero do processo

# SELE√á√ÉO E LIMPEZA DA COLUNA:
# 1. Seleciona a coluna "numeroProcesso" do DataFrame filtrado (df_sentenca).
# 2. .astype(str) garante que todos os valores na Series sejam tratados como strings.
# 3. .str.strip() remove quaisquer espa√ßos em branco iniciais ou finais indesejados.
lista_processos = df_sentenca["numeroProcesso"].astype(str).str.strip()

# Criar DataFrame final

# CRIA√á√ÉO DE DATAFRAME DE CONTROLE:
# Cria um novo DataFrame (df_lista) a partir da Series 'lista_processos'.

df_lista = pd.DataFrame({"numero_processo": lista_processos})

# Salvar arquivo para ser usado no Bloco 7

# PERSIST√äNCIA DE DADOS:
# Salva o DataFrame de controle em um arquivo CSV.
# encoding="utf-8-sig": Codifica√ß√£o recomendada para CSVs para garantir a
# compatibilidade com programas como Excel e evitar problemas com caracteres especiais.
df_lista.to_csv("lista_processos_1848.csv", index=False, encoding="utf-8-sig")

print("Arquivo salvo: lista_processos_1848.csv")
print("Total de processos salvos:", len(df_lista))
# Verifica√ß√£o visual do DataFrame salvo.
df_lista.head()

Arquivo salvo: lista_processos_1848.csv
Total de processos salvos: 1848


Unnamed: 0,numero_processo
15,2033411620258060298
37,255308720258060001
65,2190163720258060001
85,2019078920258060298
112,2928082920228060001


## Resumo Did√°tico (Foco na Prepara√ß√£o do Input)
Este bloco de c√≥digo √© um exemplo de pr√©-processamento para automa√ß√£o em lote:

Limpeza de Tipos (.astype(str).str.strip()): √â uma etapa fundamental antes de usar strings como input para URLs ou buscas. Garante que n√£o haja n√∫meros formatados de forma estranha ou espa√ßos em branco que quebrem a URL do TJCE.

Cria√ß√£o de Input Persistente: Salvar a lista de n√∫meros de processo em um CSV (aqui, lista_processos_708.csv) permite que voc√™ use este arquivo como o input central para um script de web scraping em lote (o futuro Bloco 7). Isso √© importante para:

Continuidade: Se o Bloco 7 falhar no processo 50, voc√™ pode reiniciar do zero.

Desacoplamento: O script de scraping (Bloco 7) n√£o precisa saber como os dados foram filtrados; ele apenas consome o arquivo CSV.

In [33]:
# ============================================================
# BLOCO 7 ‚Äî AUTOMA√á√ÉO EM MASSA (TJCE) ‚Äî VERS√ÉO FINAL 
# ============================================================
# -------------------------
# CONFIGURA√á√ïES INICIAIS
# -------------------------
# Define o nome do arquivo CSV de entrada gerado no bloco anterior.
CSV_LISTA = "lista_processos_1848.csv"
# Define o nome da coluna que cont√©m os n√∫meros dos processos nesse CSV.
COLUNA_PROCESSO = "numero_processo"

# √çndices de in√≠cio e fim do lote a ser processado (√∫til para rodar em peda√ßos).
start_idx = 0      # <-- ajuste antes de rodar (√çndice inicial da lista)
end_idx   = 1     # <-- ajuste antes de rodar (√çndice final da lista)

# Define os diret√≥rios de sa√≠da e log.
OUT_DIR = "movimentos_lotes"
LOG_DIR = "logs"
# Cria os diret√≥rios se eles n√£o existirem (exist_ok=True evita erro se j√° existirem).
os.makedirs(OUT_DIR, exist_ok=True)
os.makedirs(LOG_DIR, exist_ok=True)

# Fun√ß√£o para gerar o caminho e nome do arquivo de sa√≠da do lote.
# Formato: movimentos_001_004.csv (se start_idx=0 e end_idx=3)
def arquivo_lote(i0, i1):
    # os.path.join constr√≥i o caminho de forma segura em qualquer sistema operacional.
    return os.path.join(OUT_DIR, f"movimentos_{i0+1:03d}_{i1+1:03d}.csv")

# Define os caminhos completos para os arquivos de log.
LOG_ERR = os.path.join(LOG_DIR, "log_erros_bloco7.csv")
LOG_OK  = os.path.join(LOG_DIR, "log_sucesso_bloco7.csv")

# -------------------------
# CARREGAR LISTA DE PROCESSOS
# -------------------------
# L√™ o CSV de input. dtype=str garante que o n√∫mero do processo n√£o seja interpretado como float/int.
df_lista = pd.read_csv(CSV_LISTA, dtype=str)
# Seleciona a coluna, remove NaNs, converte para string e transforma em uma lista Python.
lista_procs = df_lista[COLUNA_PROCESSO].dropna().astype(str).tolist()
N = len(lista_procs)

print(f"üîç Total de processos na lista: {N}")

# Tratamento de seguran√ßa para os √≠ndices de lote.
if start_idx < 0: start_idx = 0
if end_idx >= N: end_idx = N - 1
if start_idx > end_idx:
    # Sai do script se os √≠ndices estiverem invertidos.
    raise SystemExit("ERRO: start_idx > end_idx")

# Extrai o subconjunto da lista (o lote a ser processado).
# O +1 garante que o end_idx (inclusivo) seja transformado corretamente para o slicing do Python (exclusivo).
sub_lista = lista_procs[start_idx:end_idx+1]
print(f"‚û° Processando {len(sub_lista)} processos (√≠ndices {start_idx}..{end_idx})")

# -------------------------
# Fun√ß√£o para abrir driver
# -------------------------
# Modulariza√ß√£o: Encapsula toda a configura√ß√£o do Selenium para ser chamada facilmente.
def abrir_driver():
    options = Options()
    # Configura√ß√µes de anti-detec√ß√£o e maximiza√ß√£o (conforme Bloco 1).
    options.add_argument("--start-maximized")
    options.add_argument("--disable-blink-features=AutomationControlled")
    options.add_argument("--disable-notifications")
    options.add_experimental_option("excludeSwitches", ["enable-automation"])
    options.add_experimental_option("useAutomationExtension", False)
    
    # Gerenciamento autom√°tico do ChromeDriver.
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=options)
    # Define a espera expl√≠cita.
    wait = WebDriverWait(driver, 20)
    return driver, wait # Retorna os dois objetos essenciais para intera√ß√£o

# -------------------------------
# Fun√ß√£o universal de extra√ß√£o de linha
# -------------------------------
# Fun√ß√£o robusta para extrair dados de uma linha de movimenta√ß√£o (tr), lidando com varia√ß√µes de layout.
def extrair_linha_mov(tr, numero_processo):
    try:
        # 1) Tenta a extra√ß√£o padr√£o via classes CSS (M√©todo mais limpo e r√°pido)
        try:
            # Tenta encontrar e limpar o texto da data.
            td_data = tr.find_element(By.CSS_SELECTOR, "td.dataMovimentacao").text.strip()
        except:
            td_data = "" # Se a data falhar, seta como vazio.

        try:
            # Tenta encontrar a descri√ß√£o. get_attribute("innerText") √© robusto para pegar texto interno.
            td_desc = tr.find_element(By.CSS_SELECTOR, "td.descricaoMovimentacao").get_attribute("innerText").strip()
        except:
            td_desc = ""

        # Normaliza a descri√ß√£o removendo m√∫ltiplos espa√ßos em branco.
        td_desc = " ".join(td_desc.split())

        # Se os dois campos foram encontrados (n√£o vazios), retorna o resultado.
        if td_data and td_desc:
            return (numero_processo, td_data, td_desc)

        # 2) Fallback via qualquer <td> (Se as classes CSS falharem)
        # Busca todas as c√©lulas da linha (<td>).
        tds = tr.find_elements(By.TAG_NAME, "td")
        if len(tds) >= 2:
            txt0 = tds[0].text.strip() # Pega o texto da primeira c√©lula (espera-se ser a data).
            txtN = " ".join(tds[-1].text.split()) # Pega o texto da √∫ltima c√©lula (espera-se ser a descri√ß√£o).

            # Verifica se o primeiro campo tem o formato de data MM/DD/AAAA.
            if re.match(r"\d{2}/\d{2}/\d{4}", txt0):
                return (numero_processo, txt0, txtN)

        # 3) Leitura Bruta (√öltimo recurso: extrair tudo e usar Regex)
        # Pega todo o texto interno da linha <tr>.
        brute = tr.get_attribute("innerText").strip()
        brute = " ".join(brute.split())

        # Usa Express√£o Regular (re.search) para encontrar o primeiro padr√£o de data.
        m = re.search(r"\d{2}/\d{2}/\d{4}", brute)
        data_bruta = m.group() if m else "" # Pega a data se encontrada.

        # A descri√ß√£o √© o texto bruto menos a data encontrada.
        desc_final = brute.replace(data_bruta, "").strip()

        # Se a data e a descri√ß√£o final forem encontradas, retorna o resultado.
        if data_bruta and desc_final:
            return (numero_processo, data_bruta, desc_final)

        # Se todos os fallbacks falharem, retorna None.
        return None
    except:
        return None # Erro inesperado

# -------------------------------
# Fun√ß√£o principal para extrair um processo
# -------------------------------
# Fun√ß√£o que encapsula toda a l√≥gica de navega√ß√£o e extra√ß√£o para um √∫nico processo.
def extrair_movimentos_para_processo(driver, wait, numero, tentativas_max=2):

    # Fun√ß√£o interna para quebrar o n√∫mero CNJ em suas partes (conforme Bloco 2).
    def quebrar_cnj(n):
        n = n.replace(".", "").replace("-", "").zfill(20) # Limpa pontos/h√≠fens e preenche com zeros (seguran√ßa).
        # Retorna as partes: N√∫mero Sequencial, D√≠gito Verificador, Ano, Foro.
        return n[:7], n[7:9], n[9:13], n[16:20]

    # Tenta extrair o processo m√∫ltiplas vezes, em caso de falha de rede/timeout.
    for tentativa in range(1, tentativas_max+1):
        try:
            # Volta para a p√°gina de consulta principal (limpa a URL anterior).
            driver.get("https://esaj.tjce.jus.br/cpopg/open.do")
            time.sleep(2)

            # Quebra o n√∫mero do processo CNJ.
            seq, dv, ano, foro = quebrar_cnj(numero)

            # Preenchimento do Campo Principal (sequencial, DV, ano).
            campo_principal = wait.until(
                EC.presence_of_element_located((By.ID, "numeroDigitoAnoUnificado"))
            )
            campo_principal.clear()
            campo_principal.send_keys(f"{seq}-{dv}.{ano}")

            # Preenchimento do Campo do Foro (unidade de origem).
            campo_foro = wait.until(
                EC.presence_of_element_located((By.ID, "foroNumeroUnificado"))
            )
            campo_foro.clear()
            campo_foro.send_keys(foro)

            time.sleep(0.5)

            # CLIQUE: Espera o bot√£o de consulta ficar clic√°vel e clica.
            botao = wait.until(
                EC.element_to_be_clickable((By.ID, "botaoConsultarProcessos"))
            )
            botao.click()

            time.sleep(3) # Aguarda a p√°gina de resultados carregar.

            # ---- clicar no "Mais" at√© sumir (L√≥gica do Bloco 4) ----
            XPATH_MAIS = "//a[@id='linkmovimentacoes' and contains(., 'Mais')]"
            clicks = 0

            # Loop de carregamento din√¢mico.
            while True:
                try:
                    # Espera curta (3s) para o bot√£o reaparecer.
                    b = WebDriverWait(driver, 3).until(
                        EC.element_to_be_clickable((By.XPATH, XPATH_MAIS))
                    )
                    # Garante que o bot√£o esteja vis√≠vel.
                    driver.execute_script("arguments[0].scrollIntoView();", b)
                    time.sleep(0.4)
                    b.click()
                    clicks += 1
                    time.sleep(1)
                    # Limite de seguran√ßa para evitar loops infinitos em processos muito longos.
                    if clicks > 50:
                        break
                except:
                    # Se o bot√£o n√£o for encontrado ou o clique falhar, o carregamento terminou.
                    break

            # ---- localizar tabela e extrair ----
            # Tenta localizar o tbody pelo ID (m√©todo mais r√°pido).
            try:
                tbody = driver.find_element(By.ID, "tabelaTodasMovimentacoes")
            except:
                tbody = None # Se falhar, tenta a busca global.

            if tbody:
                # Busca linhas DENTRO do tbody encontrado.
                linhas = tbody.find_elements(By.CSS_SELECTOR, "tr.containerMovimentacao")
            else:
                # Busca linhas em todo o documento (fallback).
                linhas = driver.find_elements(By.CSS_SELECTOR, "tr.containerMovimentacao")

            movimentos = []
            # Itera sobre as linhas (<tr>) encontradas e usa a fun√ß√£o robusta de extra√ß√£o.
            for tr in linhas:
                mov = extrair_linha_mov(tr, numero)
                if mov:
                    movimentos.append(mov)

            return movimentos # Retorna a lista de movimentos se a extra√ß√£o for bem-sucedida.

        except Exception as e:
            # Captura a falha na navega√ß√£o ou clique e tenta novamente.
            print(f"‚ö† Tentativa {tentativa}/{tentativas_max} falhou para {numero}: {e}")
            time.sleep(2) # Pausa antes de tentar novamente.

    # Se o loop de tentativas terminar sem sucesso, levanta uma exce√ß√£o final.
    raise Exception(f"Falha repetida ao extrair {numero}")

# -------------------------
# EXECU√á√ÉO
# -------------------------
# Abre o navegador e define os objetos driver e wait.
driver, wait = abrir_driver()
# Inicializa listas para coletar todos os dados extra√≠dos e os logs.
registros = []
erros = []
sucessos = []

print("Iniciando a extra√ß√£o em massa...")

# Loop principal: Itera sobre a lista de processos do lote.
# start=start_idx+1 garante que a numera√ß√£o da impress√£o seja correta.
for idx, proc in enumerate(sub_lista, start=start_idx+1):
    print(f"\n‚û° ({idx}/{end_idx+1}) Processando: {proc}")
    try:
        # Chama a fun√ß√£o de extra√ß√£o para o processo atual.
        movs = extrair_movimentos_para_processo(driver, wait, proc)

        if movs:
            # Processa os movimentos extra√≠dos (lista de tuplas) para o formato de dicion√°rio (para o DataFrame final).
            for m in movs:
                registros.append({
                    "numero_processo": m[0],
                    "data_movimento": m[1],
                    "descricao_movimento": m[2]
                })
            # Adiciona ao log de sucesso.
            sucessos.append([proc, len(movs)])
            print(f"    ‚úÖ {len(movs)} movimentos extra√≠dos.")
        else:
            # Adiciona ao log de erro (processo sem movimentos).
            erros.append([proc, "SEM MOVIMENTOS"])
            print("    ‚ö† Nenhum movimento encontrado.")

    except Exception as e:
        # Adiciona ao log de erro (falha na fun√ß√£o principal).
        erros.append([proc, str(e)])
        print(f"    Erro ao processar: {e}")

    time.sleep(2) # Pausa entre processos para ser educado com o servidor.

# Encerramento obrigat√≥rio do navegador e do processo do ChromeDriver.
driver.quit()

# -------------------------
# SALVAMENTO
# -------------------------
# Converte a lista final de registros em DataFrame.
df_out = pd.DataFrame(registros)
# Define o nome do arquivo de sa√≠da do lote (ex: movimentos_001_004.csv).
saida = arquivo_lote(start_idx, end_idx)
# Salva os dados extra√≠dos.
df_out.to_csv(saida, index=False, encoding="utf-8-sig")

print(f"\n Lote salvo em: {saida} ‚Äî Registros: {len(df_out)}")

# Cria DataFrames para os logs de erro e sucesso.
df_err = pd.DataFrame(erros, columns=["processo","erro"])
df_ok  = pd.DataFrame(sucessos, columns=["processo","qtd_mov"])

# Salvamento dos Logs:
# mode="a" (append) adiciona ao final do arquivo.
# header=not os.path.exists(...) garante que o cabe√ßalho seja escrito apenas na primeira vez.
df_err.to_csv(LOG_ERR, mode="a", index=False, header=not os.path.exists(LOG_ERR), encoding="utf-8-sig")
df_ok.to_csv(LOG_OK, mode="a", index=False, header=not os.path.exists(LOG_OK), encoding="utf-8-sig")

print(" Logs atualizados.")
print("\n BLOCO 7 FINALIZADO.")

üîç Total de processos na lista: 1848
‚û° Processando 2 processos (√≠ndices 0..1)
Iniciando a extra√ß√£o em massa...

‚û° (1/2) Processando: 02033411620258060298
    ‚úÖ 16 movimentos extra√≠dos.

‚û° (2/2) Processando: 00255308720258060001
    ‚úÖ 19 movimentos extra√≠dos.

 Lote salvo em: movimentos_lotes\movimentos_001_002.csv ‚Äî Registros: 35
 Logs atualizados.

 BLOCO 7 FINALIZADO.


## Resumo Did√°tico (Foco na Automa√ß√£o em Lote)
Este √© o c√≥digo mais importante do projeto, que transforma o script de teste em uma ferramenta de coleta de dados em massa.

Modulariza√ß√£o (abrir_driver, extrair_movimentos_para_processo): O c√≥digo est√° dividido em fun√ß√µes. Isso facilita a leitura e o reuso. A fun√ß√£o extrair_movimentos_para_processo encapsula a l√≥gica de navega√ß√£o (limpar/preencher campos, clicar no "Mais") e o ciclo de tentativas, tornando o loop principal limpo e focado no log.

Controle de Lote (start_idx, end_idx): Permite que voc√™ processe a lista em peda√ßos (ex: processos 1 a 100, depois 101 a 200). Isso √© vital para grandes bases de dados, pois evita que a mem√≥ria do Python estoure e permite retomar o scraping ap√≥s falhas.

Robustez de Extra√ß√£o (extrair_linha_mov): Esta fun√ß√£o √© um excelente exemplo de fallback. Ela tenta o m√©todo ideal (CSS Classes), e se falhar, tenta m√©todos mais brutos (posi√ß√£o <td>, Regex na string), garantindo que os dados sejam extra√≠dos mesmo que o HTML da p√°gina mude ligeiramente.

Logging (LOG_ERR, LOG_OK): Salvar os resultados em dois logs separados (log_sucesso_bloco7.csv e log_erros_bloco7.csv) √© uma pr√°tica profissional. Mesmo que o script falhe, voc√™ sabe exatamente quais processos foram conclu√≠dos e por que os outros falharam. O uso de mode="a" (append) garante que os logs sejam continuamente atualizados.

In [34]:
import glob

# -------------------------
# CONFIGURA√á√ÉO
# -------------------------
PASTA_LOTES = "movimentos_lotes"
ARQUIVO_FINAL = "dataset_movimentos_consolidado.csv"

# -------------------------
# 1) LER TODOS OS CSVs
# -------------------------
arquivos = sorted(glob.glob(os.path.join(PASTA_LOTES, "movimentos_*.csv")))

print(f" Arquivos encontrados: {len(arquivos)}")
for a in arquivos:
    print(" -", os.path.basename(a))

dfs = []

for arq in arquivos:
    df = pd.read_csv(arq, dtype=str)
    df["arquivo_origem"] = os.path.basename(arq)  # rastreabilidade
    dfs.append(df)

df_all = pd.concat(dfs, ignore_index=True)

print(f"\n Registros totais (antes de limpeza): {len(df_all)}")

# -------------------------
# 2) LIMPEZA B√ÅSICA
# -------------------------
# remover linhas totalmente vazias
df_all = df_all.dropna(how="all")

# remover duplicatas exatas
df_all = df_all.drop_duplicates(
    subset=["numero_processo", "data_movimento", "descricao_movimento"]
)

print(f" Registros ap√≥s remover duplicatas: {len(df_all)}")

# -------------------------
# 3) NORMALIZA√á√ÉO DE TEXTO
# -------------------------
df_all["descricao_movimento"] = (
    df_all["descricao_movimento"]
    .astype(str)
    .str.replace(r"\s+", " ", regex=True)
    .str.strip()
)

# -------------------------
# 4) SALVAR DATASET FINAL
# -------------------------
df_all.to_csv(ARQUIVO_FINAL, index=False, encoding="utf-8-sig")

print(f"\n Dataset consolidado salvo em: {ARQUIVO_FINAL}")

# -------------------------
# 5) VIS√ÉO GERAL
# -------------------------
print("\n Vis√£o geral:")
print("Processos √∫nicos:", df_all["numero_processo"].nunique())
print("Movimenta√ß√µes totais:", len(df_all))


 Arquivos encontrados: 1
 - movimentos_001_002.csv

 Registros totais (antes de limpeza): 35
 Registros ap√≥s remover duplicatas: 33

 Dataset consolidado salvo em: dataset_movimentos_consolidado.csv

 Vis√£o geral:
Processos √∫nicos: 2
Movimenta√ß√µes totais: 33
