# Download de Senten√ßas - TJMA
## Teste inicial de extra√ß√£o de dados do PJe

Este notebook realiza um teste simples de download de uma senten√ßa do Tribunal de Justi√ßa do Maranh√£o (TJMA).

**Autor:** Mestrando em Administra√ß√£o P√∫blica - IDP  
**Prop√≥sito:** Pesquisa acad√™mica com dados p√∫blicos  
**Data:** Dezembro/2024

## 1. Instala√ß√£o de Depend√™ncias

Bibliotecas necess√°rias para realizar requisi√ß√µes HTTP e processar dados.

In [None]:
# Instala√ß√£o de bibliotecas (execute apenas na primeira vez)
!pip install requests beautifulsoup4 lxml pandas

## 2. Importa√ß√£o de Bibliotecas

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import os
import time
from datetime import datetime
import pandas as pd

## 3. Configura√ß√£o Inicial

Defini√ß√£o de URLs e par√¢metros para acesso ao PJe do TJMA.

In [None]:
# URLs do TJMA
URL_CONSULTA_PUBLICA = "https://pje.tjma.jus.br/pje/ConsultaPublica/listView.seam"
URL_DOCUMENTOS = "https://pje.tjma.jus.br/pje/Processo/ConsultaDocumento/listView.seam"

# Diret√≥rio para salvar os arquivos
OUTPUT_DIR = "sentencas_tjma"
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Headers para simular navegador
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
}

print(f"‚úì Configura√ß√£o conclu√≠da")
print(f"‚úì Diret√≥rio de sa√≠da: {OUTPUT_DIR}")

## 4. Fun√ß√£o de Consulta de Processo

Esta fun√ß√£o busca informa√ß√µes b√°sicas do processo na consulta p√∫blica do PJe.

In [None]:
def consultar_processo(numero_processo):
    """
    Consulta um processo no PJe do TJMA
    
    Args:
        numero_processo (str): N√∫mero do processo no formato CNJ (ex: 0000000-00.0000.8.10.0000)
    
    Returns:
        dict: Informa√ß√µes do processo ou None em caso de erro
    """
    try:
        session = requests.Session()
        
        # Primeira requisi√ß√£o para obter cookies e ViewState
        print(f"\n[INFO] Acessando p√°gina de consulta p√∫blica...")
        response = session.get(URL_CONSULTA_PUBLICA, headers=HEADERS, timeout=30)
        
        if response.status_code != 200:
            print(f"[ERRO] Falha ao acessar p√°gina: Status {response.status_code}")
            return None
        
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Extrair ViewState (necess√°rio para submeter formul√°rios em JSF)
        viewstate = soup.find('input', {'name': 'javax.faces.ViewState'})
        viewstate_value = viewstate['value'] if viewstate else ''
        
        print(f"[INFO] Buscando processo: {numero_processo}")
        
        # Dados do formul√°rio de consulta
        form_data = {
            'javax.faces.ViewState': viewstate_value,
            'fPP:numProcesso-inputNumeroProcessoDecoration:numProcesso-inputNumeroProcesso': numero_processo,
            'fPP:searchProcessos': 'Pesquisar'
        }
        
        # Submeter consulta
        response = session.post(URL_CONSULTA_PUBLICA, 
                               data=form_data, 
                               headers=HEADERS, 
                               timeout=30)
        
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # Tentar extrair informa√ß√µes b√°sicas
            processo_info = {
                'numero': numero_processo,
                'data_consulta': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
                'html_completo': response.text
            }
            
            print(f"[SUCESSO] Processo encontrado!")
            return processo_info
        else:
            print(f"[ERRO] Falha na consulta: Status {response.status_code}")
            return None
            
    except Exception as e:
        print(f"[ERRO] Exce√ß√£o durante consulta: {str(e)}")
        return None

## 5. Teste com um Processo

**IMPORTANTE:** Insira abaixo um n√∫mero de processo v√°lido do TJMA que voc√™ obteve do dataset da CNJ.

In [None]:
# INSIRA AQUI O N√öMERO DO PROCESSO
# Formato: 0000000-00.0000.8.10.0000
numero_processo_teste = ""  # <-- PREENCHA COM UM N√öMERO REAL

if not numero_processo_teste:
    print("‚ö†Ô∏è  ATEN√á√ÉO: Voc√™ precisa inserir um n√∫mero de processo v√°lido!")
    print("   Exemplo: '0123456-78.2023.8.10.0001'")
else:
    print(f"üîç Iniciando teste com o processo: {numero_processo_teste}")
    print("="*70)
    
    # Executar consulta
    resultado = consultar_processo(numero_processo_teste)
    
    if resultado:
        # Salvar resultado em arquivo
        filename = f"{OUTPUT_DIR}/processo_{numero_processo_teste.replace('-', '').replace('.', '')}.html"
        
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(resultado['html_completo'])
        
        print("\n" + "="*70)
        print(f"‚úì Arquivo salvo: {filename}")
        print(f"‚úì Data da consulta: {resultado['data_consulta']}")
        print("\nüìä Pr√≥ximos passos:")
        print("   1. Examine o arquivo HTML salvo")
        print("   2. Identifique onde est√£o os links para senten√ßas/documentos")
        print("   3. Adaptaremos o c√≥digo para extrair as senten√ßas")
    else:
        print("\n‚ùå N√£o foi poss√≠vel obter informa√ß√µes do processo.")
        print("\nüí° Poss√≠veis causas:")
        print("   - N√∫mero de processo inv√°lido")
        print("   - Processo n√£o est√° no sistema PJe do TJMA")
        print("   - Problema de conex√£o com o site")
        print("   - Processo em segredo de justi√ßa")

## 6. An√°lise Inicial do HTML (ap√≥s executar o teste acima)

In [None]:
# Este c√≥digo ajuda a examinar o HTML retornado
if numero_processo_teste and resultado:
    soup = BeautifulSoup(resultado['html_completo'], 'html.parser')
    
    print("üìã Estrutura b√°sica do HTML:")
    print("="*70)
    
    # Procurar por t√≠tulos e se√ß√µes principais
    titulos = soup.find_all(['h1', 'h2', 'h3', 'h4'])
    if titulos:
        print("\nT√≠tulos encontrados:")
        for titulo in titulos[:10]:  # Limitar aos primeiros 10
            print(f"  - {titulo.name}: {titulo.get_text(strip=True)[:100]}")
    
    # Procurar por links
    links = soup.find_all('a', href=True)
    if links:
        print(f"\nüîó Total de links encontrados: {len(links)}")
        print("\nPrimeiros 10 links:")
        for i, link in enumerate(links[:10], 1):
            texto = link.get_text(strip=True)[:50]
            href = link['href'][:80]
            print(f"  {i}. {texto} -> {href}")
    
    # Procurar por tabelas
    tabelas = soup.find_all('table')
    if tabelas:
        print(f"\nüìä Total de tabelas encontradas: {len(tabelas)}")
else:
    print("‚ö†Ô∏è  Execute primeiro a c√©lula de teste com um n√∫mero de processo v√°lido.")

## 7. Informa√ß√µes Importantes

### Sobre o TJMA:
- O TJMA utiliza o sistema **PJe (Processo Judicial Eletr√¥nico)**
- Processos p√∫blicos podem ser consultados via consulta p√∫blica
- Processos em segredo de justi√ßa n√£o s√£o acess√≠veis publicamente

### Limita√ß√µes:
- Este √© um teste inicial b√°sico
- Precisamos analisar o HTML retornado para identificar onde est√£o as senten√ßas
- Pode ser necess√°rio navegar por m√∫ltiplas p√°ginas
- Respeite o intervalo entre requisi√ß√µes para n√£o sobrecarregar o servidor

### Pr√≥ximos Passos:
1. Analisar o HTML retornado
2. Identificar padr√µes de URLs de documentos/senten√ßas
3. Implementar download de PDFs
4. Criar pipeline de extra√ß√£o em lote

## 8. Alternativa: Teste com API DataJud (caso o PJe seja muito complexo)

O CNJ disponibiliza a API DataJud que pode ser uma alternativa mais robusta.

In [None]:
# Teste alternativo com DataJud
def testar_datajud():
    """
    Testa acesso √† API DataJud do CNJ
    Documenta√ß√£o: https://datajud-wiki.cnj.jus.br/
    """
    print("üîç Testando acesso ao DataJud...")
    print("="*70)
    print("\nüìö DataJud √© a plataforma de dados abertos do CNJ")
    print("   Para usar a API, voc√™ precisar√°:")
    print("   1. Acessar: https://datajud-wiki.cnj.jus.br/api-publica/acesso")
    print("   2. Solicitar uma chave de API")
    print("   3. Usar a API para consultar processos de forma estruturada")
    print("\nüí° O DataJud pode ser mais adequado para pesquisa acad√™mica")
    print("   pois fornece dados estruturados e metadados dos processos.")

# Descomente para executar
# testar_datajud()

---
## Notas Finais

Este notebook foi desenvolvido para fins de **pesquisa acad√™mica** conforme diretrizes da LGPD e normas de acesso a dados p√∫blicos do Poder Judici√°rio.

**Boas pr√°ticas:**
- Sempre identifique adequadamente suas requisi√ß√µes
- Respeite os termos de uso dos sistemas
- Implemente delays entre requisi√ß√µes
- Documente sua metodologia para o artigo acad√™mico
- Cite adequadamente as fontes de dados conforme ABNT

**Contato:** Para d√∫vidas sobre acesso aos dados, consulte o TJMA ou CNJ.