# Download Automatizado de Senten√ßas - TJMA
## Extra√ß√£o completa de senten√ßas judiciais via Selenium

Este notebook realiza download automatizado de senten√ßas do Tribunal de Justi√ßa do Maranh√£o (TJMA).

**Autor:** Mestrando em Administra√ß√£o P√∫blica - IDP  
**Prop√≥sito:** Pesquisa acad√™mica com dados p√∫blicos  
**Vers√£o:** 3.0 - Totalmente funcional  
**Data:** Dezembro/2024

---

## üìã Fluxo Completo:

1. Acessa consulta p√∫blica do PJe-TJMA
2. Busca processo pelo n√∫mero
3. Acessa p√°gina de detalhes
4. Identifica documentos (senten√ßas, decis√µes, etc.)
5. Baixa os PDFs
6. Salva metadados em CSV

## 1. Instala√ß√£o de Depend√™ncias

In [1]:
#!pip install selenium webdriver-manager pandas beautifulsoup4 lxml requests

Collecting selenium
  Downloading selenium-4.38.0-py3-none-any.whl.metadata (7.5 kB)
Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Collecting urllib3<3.0,>=2.5.0 (from urllib3[socks]<3.0,>=2.5.0->selenium)
  Downloading urllib3-2.5.0-py3-none-any.whl.metadata (6.5 kB)
Collecting trio<1.0,>=0.31.0 (from selenium)
  Downloading trio-0.32.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket<1.0,>=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting certifi>=2025.10.5 (from selenium)
  Downloading certifi-2025.11.12-py3-none-any.whl.metadata (2.5 kB)
Collecting typing_extensions<5.0,>=4.15.0 (from selenium)
  Downloading typing_extensions-4.15.0-py3-none-any.whl.metadata (3.3 kB)
Collecting outcome (from trio<1.0,>=0.31.0->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket<1.0,>=0.12.2->seleniu

## 2. Importa√ß√µes

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import pandas as pd
import time
import os
import re
import json
import requests
from datetime import datetime
from urllib.parse import urljoin, urlparse, parse_qs

print("‚úì Bibliotecas importadas com sucesso!")

‚úì Bibliotecas importadas com sucesso!


## 3. Configura√ß√µes

In [2]:
# Diret√≥rios de sa√≠da
OUTPUT_DIR = "sentencas_tjma"
PDF_DIR = os.path.join(OUTPUT_DIR, "pdfs")
HTML_DIR = os.path.join(OUTPUT_DIR, "html")
METADATA_DIR = os.path.join(OUTPUT_DIR, "metadados")

# Criar diret√≥rios
for dir_path in [OUTPUT_DIR, PDF_DIR, HTML_DIR, METADATA_DIR]:
    os.makedirs(dir_path, exist_ok=True)

# URLs
URL_CONSULTA = "https://pje.tjma.jus.br/pje/ConsultaPublica/listView.seam"
URL_BASE = "https://pje.tjma.jus.br"

print(f"‚úì Estrutura de diret√≥rios criada:")
print(f"  - PDFs: {PDF_DIR}")
print(f"  - HTML: {HTML_DIR}")
print(f"  - Metadados: {METADATA_DIR}")

‚úì Estrutura de diret√≥rios criada:
  - PDFs: sentencas_tjma\pdfs
  - HTML: sentencas_tjma\html
  - Metadados: sentencas_tjma\metadados


## 4. Fun√ß√µes Auxiliares

In [3]:
def configurar_driver(headless=False, download_dir=None):
    """
    Configura o Chrome WebDriver
    
    Args:
        headless (bool): Executar sem interface gr√°fica
        download_dir (str): Diret√≥rio para downloads
    
    Returns:
        webdriver: Chrome WebDriver configurado
    """
    chrome_options = Options()
    
    if headless:
        chrome_options.add_argument('--headless')
    
    # Configura√ß√µes de performance e compatibilidade
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--disable-blink-features=AutomationControlled')
    chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    
    # User agent
    chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36')
    
    # Configurar diret√≥rio de download
    if download_dir:
        prefs = {
            'download.default_directory': download_dir,
            'download.prompt_for_download': False,
            'download.directory_upgrade': True,
            'plugins.always_open_pdf_externally': True
        }
        chrome_options.add_experimental_option('prefs', prefs)
    
    # Inicializar driver
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=chrome_options)
    
    # Timeouts
    driver.set_page_load_timeout(60)
    driver.implicitly_wait(10)
    
    return driver


def limpar_nome_arquivo(texto):
    """
    Remove caracteres inv√°lidos de nomes de arquivo
    """
    return re.sub(r'[<>:"/\\|?*]', '_', texto)


def extrair_numero_processo_limpo(numero):
    """
    Remove formata√ß√£o do n√∫mero do processo
    Ex: 0800151-71.2021.8.10.0056 -> 08001517120218100056
    """
    return re.sub(r'[^0-9]', '', numero)


print("‚úì Fun√ß√µes auxiliares definidas")

‚úì Fun√ß√µes auxiliares definidas


## 5. Fun√ß√£o Principal - Buscar Processo

In [4]:
def buscar_processo(driver, numero_processo):
    """
    Busca um processo no PJe-TJMA e retorna os detalhes
    
    Args:
        driver: WebDriver do Selenium
        numero_processo (str): N√∫mero do processo (formato CNJ)
    
    Returns:
        dict: Dados do processo ou None
    """
    try:
        #print(f"\n{'='*70}")
        print(f"üîç Buscando processo: {numero_processo}")
        #print(f"{'='*70}")
        
        # Acessar p√°gina de consulta
        #print("[1/5] Acessando consulta p√∫blica...")
        driver.get(URL_CONSULTA)
        time.sleep(3)
        
        # Localizar e preencher campo
        #print("[2/5] Preenchendo n√∫mero do processo...")
        campo_processo = WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.ID, "fPP:numProcesso-inputNumeroProcessoDecoration:numProcesso-inputNumeroProcesso"))
        )
        campo_processo.clear()
        campo_processo.send_keys(numero_processo)
        time.sleep(2)
        
        # Clicar em pesquisar
        #print("[3/5] Enviando pesquisa...")
        botao_pesquisar = driver.find_element(By.ID, "fPP:searchProcessos")
        botao_pesquisar.click()
        time.sleep(5)  # Aguardar AJAX
        
        # Verificar resultados
        #print("[4/5] Verificando resultados...")
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        
        # Procurar pela tabela de resultados
        tabela = soup.find('tbody', id='fPP:processosTable:tb')
        
        if not tabela or not tabela.find('tr'):
            print("\n‚ùå Processo n√£o encontrado!")
            return None
        
        # Extrair link de detalhes
        link_detalhes = tabela.find('a', href=True)
        if not link_detalhes:
            print("\n‚ùå Link de detalhes n√£o encontrado!")
            return None
        
        # Extrair URL do popup
        onclick = link_detalhes.get('onclick', '')
        match = re.search(r"openPopUp\([^,]+,\s*'([^']+)'\)", onclick)
        
        if not match:
            print("\n‚ùå URL de detalhes n√£o encontrada!")
            return None
        
        url_detalhes = match.group(1)
        url_completa = urljoin(URL_BASE, url_detalhes)
        
        #print(f"[5/5] Processo encontrado!")
        #print(f"‚úì URL de detalhes: {url_completa[:80]}...")
        
        return {
            'numero': numero_processo,
            'url_detalhes': url_completa,
            'timestamp': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        }
        
    except Exception as e:
        print(f"\n‚ùå ERRO: {str(e)}")
        return None


print("‚úì Fun√ß√£o de busca definida")

‚úì Fun√ß√£o de busca definida


## 6. Fun√ß√£o - Extrair Documentos

In [5]:
# FUN√á√ÉO MELHORADA - Cole no lugar da fun√ß√£o extrair_documentos
# Corrige o problema do "Visualizar documentos" aparecendo no texto

def extrair_documentos(driver, url_detalhes, numero_processo):
    """
    Extrai lista de documentos (senten√ßas, decis√µes, etc.) do processo
    
    Args:
        driver: WebDriver do Selenium
        url_detalhes (str): URL da p√°gina de detalhes
        numero_processo (str): N√∫mero do processo
    
    Returns:
        list: Lista de dicion√°rios com dados dos documentos
    """
    try:
        #print(f"\n{'='*70}")
        #print(f"üìÑ Extraindo documentos do processo...")
        #print(f"{'='*70}")
        
        # Acessar p√°gina de detalhes
        #print("[1/3] Acessando detalhes do processo...")
        driver.get(url_detalhes)
        time.sleep(5)
        
        # Salvar HTML para an√°lise
        numero_limpo = extrair_numero_processo_limpo(numero_processo)
        html_file = os.path.join(HTML_DIR, f"{numero_limpo}_detalhes.html")
        with open(html_file, 'w', encoding='utf-8') as f:
            f.write(driver.page_source)
        #print(f"‚úì HTML salvo: {html_file}")
        
        # Parse HTML
        #print("[2/3] Analisando documentos...")
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        
        # Procurar tabela pelo ID que cont√©m 'processoDocumentoGridTab'
        tabela = None
        todas_tabelas = soup.find_all('table')
        
        for t in todas_tabelas:
            table_id = t.get('id', '')
            if 'processoDocumentoGridTab' in table_id and ':tb' not in table_id:
                tabela = t
                #print(f"‚úì Tabela encontrada: {table_id}")
                break
        
        if not tabela:
            print("\n‚ùå Tabela de documentos n√£o encontrada!")
            return []
        
        # Encontrar tbody
        tbody = tabela.find('tbody')
        
        if not tbody:
            tbody = soup.find('tbody', id=lambda x: x and 'processoDocumentoGridTab:tb' in x)
        
        if not tbody:
            print("\n‚ùå tbody n√£o encontrado!")
            return []
        
        tbody_id = tbody.get('id', 'SEM ID')
        #print(f"‚úì tbody encontrado: {tbody_id}")
        
        # Encontrar linhas
        linhas = tbody.find_all('tr', class_='rich-table-row')
        
        #print(f"[3/3] Encontradas {len(linhas)} linhas na tabela...")
        
        documentos = []
        
        for idx, linha in enumerate(linhas):
            try:
                # Procurar link com onclick que cont√©m 'documentoSemLoginHTML'
                links = linha.find_all('a')
                
                link_documento = None
                for link in links:
                    onclick = link.get('onclick', '')
                    if 'documentoSemLoginHTML' in onclick:
                        link_documento = link
                        break
                
                if not link_documento:
                    continue
                
                # Extrair texto (data/hora e tipo)
                texto = link_documento.get_text(strip=True)
                
                # CORRE√á√ÉO: Remover textos acess√≥rios como "Visualizar documentos"
                texto = texto.replace('Visualizar documentos', '').strip()
                texto = texto.replace('Visualizar', '').strip()
                
                # Extrair URL do popup
                onclick = link_documento.get('onclick', '')
                match = re.search(r"openPopUp\([^,]+,\s*'([^']+)'\)", onclick)
                
                if not match:
                    continue
                
                url_doc = match.group(1)
                url_doc = url_doc.replace('&amp;', '&')
                
                # Garantir URL completa
                if not url_doc.startswith('http'):
                    url_completa = urljoin(URL_BASE, url_doc)
                else:
                    url_completa = url_doc
                
                # Extrair data/hora e tipo
                partes = texto.split(' - ', 1)
                data_hora = partes[0].strip() if len(partes) > 0 else 'N/A'
                tipo_doc = partes[1].strip() if len(partes) > 1 else texto.strip()
                
                # Se n√£o conseguiu separar, tenta outro formato
                if tipo_doc == 'N/A' or not tipo_doc:
                    tipo_doc = texto.strip()
                
                # Verificar se √© senten√ßa ou decis√£o
                tipo_lower = tipo_doc.lower()
                eh_sentenca = any(palavra in tipo_lower for palavra in ['senten√ßa', 'senten√É¬ßa', 'sentenca', 'ata de audi√™ncia'])
                eh_decisao = any(palavra in tipo_lower for palavra in ['decis√£o', 'decis√É¬£o', 'decisao'])
                
                documento = {
                    'id': idx,
                    'data_hora': data_hora,
                    'tipo': tipo_doc,
                    'url': url_completa,
                    'eh_sentenca': eh_sentenca,
                    'eh_decisao': eh_decisao
                }
                
                documentos.append(documento)
                
                tipo_badge = "üèõÔ∏è SENTEN√áA" if eh_sentenca else ("‚öñÔ∏è  DECIS√ÉO" if eh_decisao else "üìÑ DOCUMENTO")
                #print(f"  {tipo_badge} - {data_hora} - {tipo_doc[:50]}")
                
            except Exception as e:
                print(f"  ‚ö†Ô∏è  Erro ao processar linha {idx}: {str(e)}")
                continue
        
        print(f"\n‚úÖ Total de documentos encontrados: {len(documentos)}")
        
        if len(documentos) > 0:
            sentencas = sum(1 for d in documentos if d['eh_sentenca'])
            decisoes = sum(1 for d in documentos if d['eh_decisao'])
            #print(f"   - Senten√ßas: {sentencas}")
            #print(f"   - Decis√µes: {decisoes}")
            #print(f"   - Outros: {len(documentos) - sentencas - decisoes}")
        
        return documentos
        
    except Exception as e:
        print(f"\n‚ùå ERRO ao extrair documentos: {str(e)}")
        import traceback
        traceback.print_exc()
        return []


print("‚úì Fun√ß√£o de extra√ß√£o de documentos definida (VERS√ÉO MELHORADA)")

‚úì Fun√ß√£o de extra√ß√£o de documentos definida (VERS√ÉO MELHORADA)


## 7. Fun√ß√£o - Baixar Documento

In [6]:
def baixar_documento(driver, documento, numero_processo):
    """
    Baixa um documento (senten√ßa/decis√£o) do processo
    
    Args:
        driver: WebDriver do Selenium
        documento (dict): Dados do documento
        numero_processo (str): N√∫mero do processo
    
    Returns:
        str: Caminho do arquivo salvo ou None
    """
    try:
        numero_limpo = extrair_numero_processo_limpo(numero_processo)
        
        # CORRE√á√ÉO: Simplificar nome do arquivo
        # Usar apenas data e tipo principal
        data_limpa = documento['data_hora'].replace('/', '-').replace(':', '-').replace(' ', '_')
        
        # Extrair tipo principal (antes do par√™ntese)
        tipo_principal = documento['tipo'].split('(')[0].strip()
        tipo_limpo = limpar_nome_arquivo(tipo_principal)
        
        # Limitar tamanho do tipo para evitar nomes muito longos
        if len(tipo_limpo) > 50:
            tipo_limpo = tipo_limpo[:50]
        
        # ID √∫nico baseado no √≠ndice
        doc_id = documento['id']
        
        # Nome do arquivo simplificado
        nome_arquivo = f"{numero_limpo}_{doc_id:03d}_{data_limpa}_{tipo_limpo}.html"
        caminho_completo = os.path.join(PDF_DIR, nome_arquivo)
        
        #print(f"\n‚¨áÔ∏è  Baixando: {tipo_principal[:50]}...")
        #print(f"   Arquivo: {nome_arquivo}")
        
        # Acessar URL do documento
        driver.get(documento['url'])
        time.sleep(3)
        
        # Salvar conte√∫do
        with open(caminho_completo, 'w', encoding='utf-8') as f:
            f.write(driver.page_source)
        
        print(f"   ‚úÖ Salvo: {caminho_completo}")
        
        return caminho_completo
        
    except Exception as e:
        print(f"   ‚ùå Erro ao baixar: {str(e)}")
        
        # Tentativa alternativa com nome ainda mais curto
        try:
            nome_curto = f"{numero_limpo}_{documento['id']:03d}.html"
            caminho_alternativo = os.path.join(PDF_DIR, nome_curto)
            
            with open(caminho_alternativo, 'w', encoding='utf-8') as f:
                f.write(driver.page_source)
            
            print(f"   ‚úÖ Salvo com nome alternativo: {caminho_alternativo}")
            return caminho_alternativo
            
        except Exception as e2:
            print(f"   ‚ùå Falha na tentativa alternativa: {str(e2)}")
            return None


print("‚úì Fun√ß√£o de download definida (VERS√ÉO CORRIGIDA)")

‚úì Fun√ß√£o de download definida (VERS√ÉO CORRIGIDA)


## 8. Fun√ß√£o Completa - Pipeline

In [7]:
def processar_processo_completo(numero_processo, headless=False, apenas_sentencas=True):
    """
    Pipeline completo: busca, extrai e baixa documentos de um processo
    
    Args:
        numero_processo (str): N√∫mero do processo
        headless (bool): Executar sem interface gr√°fica
        apenas_sentencas (bool): Baixar apenas senten√ßas (True) ou todos documentos (False)
    
    Returns:
        dict: Resultado do processamento
    """
    driver = None
    
    try:
        #print(f"\n{'#'*70}")
        print(f"# PROCESSANDO PROCESSO: {numero_processo}")
        #print(f"{'#'*70}")
        
        # Configurar driver
        #print("\n‚öôÔ∏è  Configurando navegador...")
        driver = configurar_driver(headless=headless, download_dir=PDF_DIR)
        
        # Buscar processo
        dados_processo = buscar_processo(driver, numero_processo)
        
        if not dados_processo:
            return {
                'sucesso': False,
                'erro': 'Processo n√£o encontrado'
            }
        
        # Extrair documentos
        documentos = extrair_documentos(driver, dados_processo['url_detalhes'], numero_processo)
        
        if not documentos:
            return {
                'sucesso': False,
                'erro': 'Nenhum documento encontrado'
            }
        
        # Filtrar documentos
        if apenas_sentencas:
            docs_para_baixar = [d for d in documentos if d['eh_sentenca']]
            print(f"\nüéØ Baixando apenas senten√ßas: {len(docs_para_baixar)} documento(s)")
        else:
            docs_para_baixar = documentos
            print(f"\nüì• Baixando todos documentos: {len(docs_para_baixar)} documento(s)")
        
        # Baixar documentos
        arquivos_baixados = []
        
        for doc in docs_para_baixar:
            caminho = baixar_documento(driver, doc, numero_processo)
            if caminho:
                doc['arquivo_local'] = caminho
                arquivos_baixados.append(caminho)
            time.sleep(2)  # Intervalo entre downloads
        
        # Salvar metadados
        numero_limpo = extrair_numero_processo_limpo(numero_processo)
        
        # CSV
        csv_file = os.path.join(METADATA_DIR, f"{numero_limpo}_metadados.csv")
        df = pd.DataFrame(documentos)
        df.to_csv(csv_file, index=False, encoding='utf-8-sig')
        #print(f"\nüíæ Metadados salvos: {csv_file}")
        
        # JSON
        json_file = os.path.join(METADATA_DIR, f"{numero_limpo}_completo.json")
        resultado = {
            'processo': dados_processo,
            'documentos': documentos,
            'arquivos_baixados': arquivos_baixados,
            'total_documentos': len(documentos),
            'total_baixados': len(arquivos_baixados)
        }
        
        with open(json_file, 'w', encoding='utf-8') as f:
            json.dump(resultado, f, ensure_ascii=False, indent=2)
        #print(f"üíæ JSON completo salvo: {json_file}")
        
        # Resumo
        print(f"\n{'='*70}")
        print(f"‚úÖ PROCESSAMENTO CONCLU√çDO COM SUCESSO!")
        print(f"{'='*70}")
        #print(f"üìä Resumo:")
        #print(f"   - Processo: {numero_processo}")
        #print(f"   - Documentos encontrados: {len(documentos)}")
        #print(f"   - Arquivos baixados: {len(arquivos_baixados)}")
        #print(f"   - Diret√≥rio: {PDF_DIR}")
        
        resultado['sucesso'] = True
        return resultado
        
    except Exception as e:
        print(f"\n‚ùå ERRO CR√çTICO: {str(e)}")
        import traceback
        traceback.print_exc()
        return {
            'sucesso': False,
            'erro': str(e)
        }
        
    finally:
        if driver:
            print("\nüîö Fechando navegador...")
            driver.quit()


print("‚úì Pipeline completo definido")

‚úì Pipeline completo definido


## 9. EXECUTAR - Processar Um Processo

In [None]:
# ============================================================
# CONFIGURA√á√ÉO
# ============================================================

# N√∫mero do processo (formato CNJ)
NUMERO_PROCESSO = "0800151-71.2021.8.10.0056"

# Configura√ß√µes
HEADLESS = False  # False = Mostra navegador (√∫til para debug)
APENAS_SENTENCAS = True  # True = Baixa s√≥ senten√ßas, False = Baixa tudo

# ============================================================
# EXECUTAR
# ============================================================

resultado = processar_processo_completo(
    numero_processo=NUMERO_PROCESSO,
    headless=HEADLESS,
    apenas_sentencas=APENAS_SENTENCAS
)

# Exibir resultado
print("\n" + "="*70)
if resultado['sucesso']:
    print("‚úÖ Processo finalizado com sucesso!")
    #print(f"\nüìÅ Verifique os arquivos em:")
    #print(f"   - PDFs: {PDF_DIR}")
    #print(f"   - Metadados: {METADATA_DIR}")
else:
    print(f"‚ùå Erro: {resultado.get('erro', 'Desconhecido')}")

## 10. EXECUTAR - Processar M√∫ltiplos Processos

In [14]:
# Lista de processos para processar
#LISTA_PROCESSOS = [
 #   "0800151-71.2021.8.10.0056",
 #   "0803788-59.2023.8.10.0056", 
 #   "0803789-44.2023.8.10.0056", 
 #   "0877326-44.2023.8.10.0001", 
 #   "0800643-24.2025.8.10.0056", 
 #   "0002347-86.2017.8.10.0056", 
 #   "0804518-70.2023.8.10.0056", 
 #   "0803042-60.2024.8.10.0056", 
 #   "0805337-70.2024.8.10.0056"
#]

# Configura√ß√µes
HEADLESS = True  # Recomendado True para m√∫ltiplos processos
APENAS_SENTENCAS = True
INTERVALO_ENTRE_PROCESSOS = 10  # segundos

# Processar todos
resultados = []

for idx, numero in enumerate(LISTA_PROCESSOS, 1):
    print(f"\n\n{'#'*70}")
    print(f"# PROCESSO {idx}/{len(LISTA_PROCESSOS)}")
    print(f"{'#'*70}")
    
    resultado = processar_processo_completo(
        numero_processo=numero,
        headless=HEADLESS,
        apenas_sentencas=APENAS_SENTENCAS
    )
    
    resultados.append({
        'processo': numero,
        'sucesso': resultado['sucesso'],
        'erro': resultado.get('erro'),
        'total_baixados': resultado.get('total_baixados', 0)
    })
    
    # Intervalo entre processos
    if idx < len(LISTA_PROCESSOS):
        print(f"\n‚è≥ Aguardando {INTERVALO_ENTRE_PROCESSOS}s antes do pr√≥ximo processo...")
        time.sleep(INTERVALO_ENTRE_PROCESSOS)

# Relat√≥rio final
print(f"\n\n{'#'*70}")
print(f"# RELAT√ìRIO FINAL")
print(f"{'#'*70}")

df_resultados = pd.DataFrame(resultados)
print(df_resultados.to_string(index=False))

# Salvar relat√≥rio
relatorio_file = os.path.join(METADATA_DIR, f"relatorio_{datetime.now().strftime('%Y%m%d_%H%M%S')}.csv")
df_resultados.to_csv(relatorio_file, index=False, encoding='utf-8-sig')
print(f"\nüìä Relat√≥rio salvo: {relatorio_file}")

# Estat√≠sticas
total = len(resultados)
sucessos = sum(1 for r in resultados if r['sucesso'])
falhas = total - sucessos
total_docs = sum(r['total_baixados'] for r in resultados)

print(f"\nüìà Estat√≠sticas:")
print(f"   - Total de processos: {total}")
print(f"   - Sucessos: {sucessos}")
print(f"   - Falhas: {falhas}")
print(f"   - Total de documentos baixados: {total_docs}")



######################################################################
# PROCESSO 1/559
######################################################################
# PROCESSANDO PROCESSO: 0000010-14.2005.8.10.0067
üîç Buscando processo: 0000010-14.2005.8.10.0067

‚úÖ Total de documentos encontrados: 7

üéØ Baixando apenas senten√ßas: 1 documento(s)
   ‚úÖ Salvo: sentencas_tjma\pdfs\00000101420058100067_000_07-11-2024_00-18-37_Senten√ßa.html

‚úÖ PROCESSAMENTO CONCLU√çDO COM SUCESSO!

üîö Fechando navegador...

‚è≥ Aguardando 10s antes do pr√≥ximo processo...


######################################################################
# PROCESSO 2/559
######################################################################
# PROCESSANDO PROCESSO: 0000012-95.2016.8.10.0067
üîç Buscando processo: 0000012-95.2016.8.10.0067

‚úÖ Total de documentos encontrados: 4

üéØ Baixando apenas senten√ßas: 1 documento(s)
   ‚úÖ Salvo: sentencas_tjma\pdfs\00000129520168100067_000_08-02-2025_00-18-34_Senten

## 11. Carregar Processos de um CSV

In [13]:
# Se voc√™ tem um CSV com n√∫meros de processos
# Formato esperado: coluna chamada 'numero_processo' ou 'processo'

CSV_PROCESSOS = "tjma_usucapiao_amostra_1.CSV"  # <-- AJUSTE O CAMINHO

# Ler CSV
try:
    df_processos = pd.read_csv(CSV_PROCESSOS, encoding="cp1252", sep=";", on_bad_lines="skip")
    
    # Identificar coluna com n√∫meros
    coluna_numero = None
    for col in ['numero_processo', 'processo', 'numeroProcesso', 'num_processo', 'Processo']:
        if col in df_processos.columns:
            coluna_numero = col
            break
    
    if not coluna_numero:
        print("‚ùå Coluna de n√∫mero de processo n√£o encontrada!")
        print(f"   Colunas dispon√≠veis: {df_processos.columns.tolist()}")
    else:
        LISTA_PROCESSOS = df_processos[coluna_numero].dropna().astype(str).tolist()
        print(f"‚úÖ {len(LISTA_PROCESSOS)} processos carregados do CSV")
        print(f"   Primeiros 5: {LISTA_PROCESSOS[:5]}")
        
        # Agora execute a c√©lula anterior (10) para processar todos
        
except FileNotFoundError:
    print(f"‚ùå Arquivo n√£o encontrado: {CSV_PROCESSOS}")
except Exception as e:
    print(f"‚ùå Erro ao ler CSV: {str(e)}")

‚úÖ 559 processos carregados do CSV
   Primeiros 5: ['0000010-14.2005.8.10.0067', '0000012-95.2016.8.10.0067', '0000017-20.2016.8.10.0067', '0000047-84.2018.8.10.0067', '0000056-46.2018.8.10.0067']


---

## üìö Documenta√ß√£o para o Paper

### Metodologia de Coleta

**Fonte de Dados:**  
Tribunal de Justi√ßa do Maranh√£o (TJMA) - Sistema PJe (Processo Judicial Eletr√¥nico)

**T√©cnica:**  
Web scraping automatizado utilizando Selenium WebDriver para simular navega√ß√£o e extra√ß√£o de documentos p√∫blicos

**Estrutura do Processo:**
1. Consulta p√∫blica via PJe
2. Identifica√ß√£o de processos por n√∫mero CNJ
3. Extra√ß√£o de metadados e documentos
4. Download de senten√ßas e decis√µes

**Conformidade Legal:**
- LGPD: Dados p√∫blicos judiciais
- Resolu√ß√£o n¬∫ 121/2010 CNJ: Publicidade processual
- Acesso via consulta p√∫blica oficial

**Cita√ß√£o Sugerida (ABNT):**

TRIBUNAL DE JUSTI√áA DO MARANH√ÉO. **Sistema PJe - Consulta P√∫blica**. S√£o Lu√≠s, 2024. Dispon√≠vel em: https://pje.tjma.jus.br/pje/ConsultaPublica/listView.seam. Acesso em: [data da consulta].

CONSELHO NACIONAL DE JUSTI√áA. **Justi√ßa em N√∫meros 2024**. Bras√≠lia: CNJ, 2024. Dispon√≠vel em: https://www.cnj.jus.br/pesquisas-judiciarias/justica-em-numeros/. Acesso em: [data].

### Limita√ß√µes

- Apenas processos p√∫blicos (n√£o incluem processos em segredo de justi√ßa)
- Depend√™ncia de disponibilidade do sistema PJe
- Documentos em formato HTML (convers√£o para texto pode ser necess√°ria)

### Estrutura de Dados Gerados

**Metadados (CSV/JSON):**
- N√∫mero do processo
- Data e hora dos documentos
- Tipo de documento
- URLs de acesso
- Classifica√ß√£o (senten√ßa/decis√£o/outro)

**Arquivos:**
- HTML dos documentos
- Metadados estruturados
- Logs de processamento