# Extração offline de sentenças do TJMA (1º grau) — **v3**

Esta versão **v3** traz melhorias para garantir robustez em diferentes comarcas e formatos de arquivo:

**Mudanças principais**
1. **Leitura robusta de HTML** (evita `UnicodeDecodeError`): abre em **binário** e usa `UnicodeDammit` (BeautifulSoup) para detectar/normalizar o encoding; se necessário, faz fallback para `latin-1` com `errors='replace'`.
2. **Cargo/gênero sem falsos positivos**: busca apenas **no entorno da assinatura eletrônica** (±400 chars) ou no **rodapé** que contenha "Juiz(a) de Direito"; evita confundir nomes de fórum (ex.: "Fórum Desembargador …") com cargo.
3. **Decisão ampliada**: além de `julgo …` (**PROCEDENTE/IMPROCEDENTE/PARCIALMENTE PROCEDENTE**), reconhece padrões como **REJEITO A INICIAL**, **JULGO/EXTINGO … SEM/COM RESOLUÇÃO DO MÉRITO**, **DEFIRO/INDEFIRO**, **HOMOLOGO**, e a frase **"O pedido é procedente"**.
4. **Número do processo**: captura tanto `PROCESSO Nº …` quanto `Processo: …`.
5. **Vara/Comarca**: suporta cabeçalhos do tipo `JUÍZO DE DIREITO DA 3ª VARA CÍVEL DA COMARCA DE CAXIAS-MA` e variações.

> **Como usar**: coloque seus `.html` em uma pasta e ajuste `PASTA` e `SAIDA_CSV` abaixo. Execute as células em ordem. O notebook não processa automaticamente nada ao abrir.


In [3]:
# -*- coding: utf-8 -*-
import os, re, csv
from bs4 import BeautifulSoup, UnicodeDammit

# CONFIGURAÇÃO (ajuste para sua pasta e nome de saída)
PASTA = "./sentencas_tjma/pdfs"  # pasta onde estão seus .html
SAIDA_CSV = "resultado_tjma_v3.csv"  # nome do arquivo CSV de saída


In [4]:
def read_html_robust(path):
    """Lê HTML em bytes e decodifica de forma robusta.
    - Usa UnicodeDammit (BeautifulSoup) para detectar/normalizar encoding.
    - Se falhar, tenta latin-1 com substituição de caracteres inválidos.
    """
    with open(path, 'rb') as f:
        raw = f.read()
    dammit = UnicodeDammit(raw, is_html=True)
    text = dammit.unicode_markup
    if not text:
        text = raw.decode('latin-1', errors='replace')
    return text


def _clean_nbsp(s):
    return s.replace('\u00A0', ' ').strip() if s else s


def _find_vara_comarca(text):
    """Tenta extrair Vara e Comarca a partir de cabeçalhos e linhas típicas."""
    vara = None
    comarca = None

    # Candidatos de cabeçalho
    candidates = []
    for pat in [r'.*VARA[^\n]*COMARCA[^\n]*', r'JUÍZO[^\n]*VARA[^\n]*COMARCA[^\n]*', r'.*VARA[^\n]*']:
        m = re.search(pat, text, flags=re.IGNORECASE)
        if m:
            candidates.append(m.group(0))
    header_text = '\n'.join(candidates) if candidates else text

    # Vara (suporta "3ª VARA", "Vara Única")
    m_vara = re.search(r'(\d+ª\s*VARA|VARA\s+ÚNICA|\d+ª\s*Vara|Vara\s+Única)', header_text, flags=re.IGNORECASE)
    if m_vara:
        vara = _clean_nbsp(m_vara.group(0))

    # Comarca (suporta "COMARCA DE CAXIAS-MA", "Comarca de Caxias")
    m_comarca = re.search(r'COMARCA\s+DE\s+([A-ZÁÂÃÉÊÍÓÔÕÚÇ\- ]+)(?:/MA|\b)', header_text, flags=re.IGNORECASE)
    if m_comarca:
        comarca = _clean_nbsp(m_comarca.group(1).strip())
    else:
        m_city = re.search(r'Comarca\s+de\s+([A-Za-zÁÂÃÉÊÍÓÔÕÚÇ\- ]+)', text, flags=re.IGNORECASE)
        if m_city:
            comarca = _clean_nbsp(m_city.group(1))
        else:
            # Marcas comuns em rodapé
            m_city2 = re.search(r'(Caxias\s*-?\s*MA|Caxias/MA|Santa\s+Inês/MA|Santa\s+Inês\s*-?\s*MA)', text, flags=re.IGNORECASE)
            if m_city2:
                comarca = _clean_nbsp(m_city2.group(1))

    return vara, comarca


def parse_html(path):
    """Extrai campos estruturados de um HTML de sentença do TJMA."""
    html = read_html_robust(path)
    soup = BeautifulSoup(html, 'html.parser')
    text = soup.get_text('\n')

    # Normalização básica
    norm = re.sub(r'[ \t\r]+', ' ', text)
    norm = re.sub(r'\n{2,}', '\n', norm)

    # Número do processo: suporta "PROCESSO Nº" e "Processo:"
    processo = None
    pm = re.search(r'PROCESSO\s*N[ºo:]\s*([\d\.-]+)', norm, flags=re.IGNORECASE)
    if not pm:
        pm = re.search(r'Processo:\s*([\d\.-]+)', norm, flags=re.IGNORECASE)
    if pm:
        processo = pm.group(1).strip()

    # Vara / Comarca
    vara, comarca = _find_vara_comarca(text)

    # Nome (assinatura)
    nome = None
    name_match = re.search(r'Assinado\s+eletronicamente\s+por:\s*\**\s*([A-ZÁÂÃÉÊÍÓÔÕÚÇ ]+[A-ZÁÂÃÉÊÍÓÔÕÚÇ][^\n\*]*)', norm)
    if name_match:
        nome = re.split(r'\d{2}/\d{2}/\d{4}|https?://', name_match.group(1))[0].strip(' *')

    # Data/hora assinatura (janela após a assinatura)
    assinatura_datahora = None
    if name_match:
        window = norm[name_match.end():name_match.end()+160]
        dm = re.search(r'(\d{2}/\d{2}/\d{4}\s+\d{2}:\d{2}:\d{2})', window)
        if dm:
            assinatura_datahora = dm.group(1)
    else:
        # Fallback: qualquer data/hora no documento
        dm2 = re.search(r'(\d{2}/\d{2}/\d{4}\s+\d{2}:\d{2}:\d{2})', norm)
        if dm2:
            assinatura_datahora = dm2.group(1)

    # ID do documento
    assinatura_id_documento = None
    idm = re.search(r'ID\s+do\s+documento:\s*\*?\*?\s*(\d+)\s*\*?\*?', norm, flags=re.IGNORECASE)
    if idm:
        assinatura_id_documento = idm.group(1)

    # Cargo & gênero (primeiro: entorno da assinatura)
    cargo = None
    genero = 'Indeterminado'
    if name_match:
        s = max(0, name_match.start()-400)
        e = min(len(norm), name_match.end()+400)
        w = norm[s:e]
        if re.search(r'Juíza|Desembargadora', w, flags=re.IGNORECASE):
            genero = 'Feminino'
        elif re.search(r'Juiz\b|Desembargador\b', w, flags=re.IGNORECASE):
            genero = 'Masculino'
        rm = re.search(r'(Juiz(?:\s+de\s+Direito)?|Juíza(?:\s+de\s+Direito)?)', w, flags=re.IGNORECASE)
        if rm:
            cargo = rm.group(1)

    # Fallback cargo/gênero: rodapé "Juiz(a) de Direito"
    if not cargo:
        rf = re.search(r'\n([A-ZÁÂÃÉÊÍÓÔÕÚÇ ]{3,})\nJu[ií]z[a]?\s+de\s+Direito', text, flags=re.IGNORECASE)
        if rf:
            nome = nome or rf.group(1).strip()
            cargo = 'Juiz de Direito'
            genero = 'Masculino'
        rf2 = re.search(r'\n([A-ZÁÂÃÉÊÍÓÔÕÚÇ ]{3,})\nJu[ií]za\s+de\s+Direito', text, flags=re.IGNORECASE)
        if rf2:
            nome = nome or rf2.group(1).strip()
            cargo = 'Juíza de Direito'
            genero = 'Feminino'

    # Decisão
    decisao = None
    # 1) julgo ... (linha)
    m = re.search(r'julgo[^\n]*', text, flags=re.IGNORECASE)
    if m:
        linha = m.group(0)
        if re.search(r'parcialmente\s+procedente', linha, flags=re.IGNORECASE):
            decisao = 'PARCIALMENTE PROCEDENTE'
        elif re.search(r'\bprocedente\b', linha, flags=re.IGNORECASE):
            decisao = 'PROCEDENTE'
        elif re.search(r'\bimprocedente\b', linha, flags=re.IGNORECASE):
            decisao = 'IMPROCEDENTE'
        elif re.search(r'EXTINTO|EXTINÇÃO', linha, flags=re.IGNORECASE):
            # Se aparecer na mesma linha
            if re.search(r'SEM\s+RESOLUÇÃO\s+DO\s+MÉRITO', linha, flags=re.IGNORECASE):
                decisao = 'EXTINTO SEM RESOLUÇÃO DE MÉRITO'
            elif re.search(r'COM\s+RESOLUÇÃO\s+DO\s+MÉRITO', linha, flags=re.IGNORECASE):
                decisao = 'EXTINTO COM RESOLUÇÃO DE MÉRITO'
            else:
                decisao = 'EXTINTO'

    # 2) padrões alternativos
    if not decisao:
        alt_patterns = [
            (r'REJEITO\s+A\s+INICIAL', 'REJEITO A INICIAL'),
            (r'JULGO\s+EXTINTO[^\n]*SEM\s+RESOLUÇÃO\s+DO\s+MÉRITO', 'EXTINTO SEM RESOLUÇÃO DE MÉRITO'),
            (r'EXTINGO[^\n]*SEM\s+RESOLUÇÃO\s+DO\s+MÉRITO', 'EXTINTO SEM RESOLUÇÃO DE MÉRITO'),
            (r'JULGO\s+EXTINTO[^\n]*COM\s+RESOLUÇÃO\s+DO\s+MÉRITO', 'EXTINTO COM RESOLUÇÃO DE MÉRITO'),
            (r'EXTINGO[^\n]*COM\s+RESOLUÇÃO\s+DO\s+MÉRITO', 'EXTINTO COM RESOLUÇÃO DE MÉRITO'),
            (r'\bO\s+pedido\s+é\s+procedente\b', 'PROCEDENTE'),
            (r'HOMOLOGO', 'HOMOLOGO'),
            (r'DEFIRO', 'DEFIRO'),
            (r'INDEFIRO', 'INDEFIRO')
        ]
        for pat, lab in alt_patterns:
            if re.search(pat, norm, flags=re.IGNORECASE):
                decisao = lab
                break

    return {
        'arquivo': os.path.basename(path),
        'processo_numero': processo,
        'vara': vara,
        'comarca': comarca,
        'magistrado_nome': nome,
        'magistrado_genero': genero,
        'magistrado_cargo': cargo,
        'assinatura_datahora': assinatura_datahora,
        'assinatura_id_documento': assinatura_id_documento,
        'decisao': decisao,
    }


In [5]:
# Executar em lote e salvar CSV
registros = []
os.makedirs(PASTA, exist_ok=True)

for fname in os.listdir(PASTA):
    if fname.lower().endswith('.html'):
        path = os.path.join(PASTA, fname)
        try:
            registros.append(parse_html(path))
        except Exception as e:
            registros.append({'arquivo': fname, 'erro': str(e)})

campos = ['arquivo','processo_numero','vara','comarca','magistrado_nome','magistrado_genero','magistrado_cargo','assinatura_datahora','assinatura_id_documento','decisao']
with open(SAIDA_CSV, 'w', newline='', encoding='utf-8') as f:
    w = csv.DictWriter(f, fieldnames=campos)
    w.writeheader()
    for r in registros:
        w.writerow({k: r.get(k) for k in campos})

print(f"Processados {len(registros)} arquivos. Resultado em: {SAIDA_CSV}")


Processados 723 arquivos. Resultado em: resultado_tjma_v3.csv


In [9]:
# TESTES MANUAIS (opcional)
# Substitua pelos caminhos dos arquivos que deseja validar rapidamente
# Exemplo:
resultado = parse_html(f"{PASTA}/caxias-2a-0806299-48.2022.8.10.0029.html")
resultado


{'arquivo': 'caxias-2a-0806299-48.2022.8.10.0029.html',
 'processo_numero': '0806299-48.2022.8.10.0029',
 'vara': None,
 'comarca': 'CAXIAS',
 'magistrado_nome': 'JORGE ANTONIO SALES LEITE',
 'magistrado_genero': 'Masculino',
 'magistrado_cargo': 'Juiz de Direito',
 'assinatura_datahora': '09/09/2025 13:58:22',
 'assinatura_id_documento': '156061659',
 'decisao': None}