# Raspador do CNJ (Conselho Nacional de Justiça)

Este notebook demonstra o uso do raspador para buscar comunicados processuais do CNJ.

**Fonte:** [comunica.pje.jus.br](https://comunica.pje.jus.br/)

**Tipo de dados:** Comunicações processuais (citações, intimações, etc.)

## Importação

In [1]:
import raspe

## Uso Básico

O raspador do CNJ utiliza o parâmetro `pesquisa` para buscas textuais.

In [2]:
# Busca simples por um termo
scraper = raspe.cnj()
dados = scraper.raspar(pesquisa="resolução", paginas=range(1, 6))

print(f"Total de comunicados encontrados: {len(dados)}")
dados.head()

2025-12-19 11:37:08,782 - CNJ - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'resolução', 'paginas': range(1, 6)}
2025-12-19 11:37:08,783 - CNJ - DEBUG - Definindo consulta
2025-12-19 11:37:08,783 - CNJ - DEBUG - {'itensPorPagina': 5, 'texto': 'resolução'}
2025-12-19 11:37:08,783 - CNJ - DEBUG - Definindo n_pags
2025-12-19 11:37:08,784 - CNJ - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:37:08,968 - CNJ - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:37:08,968 - CNJ - DEBUG - Encontradas 2001 páginas
2025-12-19 11:37:08,968 - CNJ - DEBUG - Definindo paginas
2025-12-19 11:37:08,969 - CNJ - DEBUG - Criando diretório de download em /tmp/tmp47n8b9dc/CNJ/20251219113708
Baixando documentos:   0%|          | 0/5 [00:00<?, ?it/s]2025-12-19 11:37:10,971 - CNJ - DEBUG - Baixando página 1
2025-12-19 11:37:10,972 - CNJ - DEBUG - {'itensPorPagina': 5, 'texto': 'resolução', 'pagina': 1}
2025-12-19 11:37:11,045 - CNJ - DEBUG - Response status: 200
2025-12-1

Total de comunicados encontrados: 0


Unnamed: 0,termo_busca


## Parâmetros Disponíveis

| Parâmetro | Tipo | Descrição |
|-----------|------|------------|
| `pesquisa` | str | Termo de busca textual |
| `data_inicio` | str | Data inicial (formato ISO: YYYY-MM-DD) |
| `data_fim` | str | Data final (formato ISO: YYYY-MM-DD) |
| `paginas` | range | Intervalo de páginas a raspar |

## Colunas Retornadas

O raspador do CNJ retorna uma estrutura flexível baseada na API JSON. As colunas podem variar, mas geralmente incluem informações sobre:
- Número do processo
- Tipo de comunicação
- Data de disponibilização
- Órgão julgador
- Partes envolvidas

## Uso Avançado

In [3]:
# Filtrar por intervalo de datas
# Formatos aceitos: YYYY-MM-DD, DD/MM/YYYY, YYYYMMDD
dados_periodo = scraper.raspar(
    pesquisa="citação",
    data_inicio="2024-01-01",
    data_fim="2024-06-30",
    paginas=range(1, 6)
)

print(f"Comunicados no período: {len(dados_periodo)} registros")
dados_periodo.head()

2025-12-19 11:37:24,750 - CNJ - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'citação', 'data_inicio': '2024-01-01', 'data_fim': '2024-06-30', 'paginas': range(1, 6)}
2025-12-19 11:37:24,751 - CNJ - DEBUG - Definindo consulta
2025-12-19 11:37:24,751 - CNJ - DEBUG - {'itensPorPagina': 5, 'texto': 'citação', 'dataDisponibilizacaoInicio': '2024-01-01', 'dataDisponibilizacaoFim': '2024-06-30'}
2025-12-19 11:37:24,752 - CNJ - DEBUG - Definindo n_pags
2025-12-19 11:37:24,752 - CNJ - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:37:25,993 - CNJ - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:37:25,993 - CNJ - DEBUG - Encontradas 2001 páginas
2025-12-19 11:37:25,994 - CNJ - DEBUG - Definindo paginas
2025-12-19 11:37:25,994 - CNJ - DEBUG - Criando diretório de download em /tmp/tmp47n8b9dc/CNJ/20251219113725
Baixando documentos:   0%|          | 0/5 [00:00<?, ?it/s]2025-12-19 11:37:27,995 - CNJ - DEBUG - Baixando página 1
2025-12-19 11:37:27,995 - CNJ -

Comunicados no período: 0 registros


Unnamed: 0,termo_busca


In [4]:
# Limitar quantidade de páginas (útil para testes rápidos)
dados_limitado = scraper.raspar(pesquisa="intimação", paginas=range(1, 6))

print(f"Comunicados (5 páginas): {len(dados_limitado)} registros")
dados_limitado.head()

2025-12-19 11:37:40,189 - CNJ - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'intimação', 'paginas': range(1, 6)}
2025-12-19 11:37:40,190 - CNJ - DEBUG - Definindo consulta
2025-12-19 11:37:40,190 - CNJ - DEBUG - {'itensPorPagina': 5, 'texto': 'intimação'}
2025-12-19 11:37:40,190 - CNJ - DEBUG - Definindo n_pags
2025-12-19 11:37:40,190 - CNJ - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:37:42,897 - CNJ - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:37:42,898 - CNJ - DEBUG - Encontradas 2001 páginas
2025-12-19 11:37:42,898 - CNJ - DEBUG - Definindo paginas
2025-12-19 11:37:42,898 - CNJ - DEBUG - Criando diretório de download em /tmp/tmp47n8b9dc/CNJ/20251219113742
Baixando documentos:   0%|          | 0/5 [00:00<?, ?it/s]2025-12-19 11:37:44,899 - CNJ - DEBUG - Baixando página 1
2025-12-19 11:37:44,900 - CNJ - DEBUG - {'itensPorPagina': 5, 'texto': 'intimação', 'pagina': 1}
2025-12-19 11:37:45,324 - CNJ - DEBUG - Response status: 200
2025-12-1

Comunicados (5 páginas): 0 registros


Unnamed: 0,termo_busca


In [5]:
# Buscar múltiplos termos
termos = ["mandado", "edital", "sentença"]
dados_multiplos = scraper.raspar(pesquisa=termos, paginas=range(1, 3))

# A coluna 'termo_busca' indica qual termo gerou cada resultado
print(f"Total de comunicados: {len(dados_multiplos)}")
dados_multiplos.groupby('termo_busca').size()

2025-12-19 11:37:59,772 - CNJ - INFO - Iniciando raspagem com parâmetros {'pesquisa': ['mandado', 'edital', 'sentença'], 'paginas': range(1, 3)}
2025-12-19 11:37:59,773 - CNJ - INFO - Iniciando raspagem para pesquisa=mandado
2025-12-19 11:37:59,773 - CNJ - DEBUG - Definindo consulta
2025-12-19 11:37:59,773 - CNJ - DEBUG - {'itensPorPagina': 5, 'texto': 'mandado'}
2025-12-19 11:37:59,773 - CNJ - DEBUG - Definindo n_pags
2025-12-19 11:37:59,774 - CNJ - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:38:01,674 - CNJ - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:38:01,675 - CNJ - DEBUG - Encontradas 2001 páginas
2025-12-19 11:38:01,675 - CNJ - DEBUG - Definindo paginas
2025-12-19 11:38:01,676 - CNJ - DEBUG - Criando diretório de download em /tmp/tmp47n8b9dc/CNJ/20251219113801
Baixando documentos:   0%|          | 0/2 [00:00<?, ?it/s]2025-12-19 11:38:03,676 - CNJ - DEBUG - Baixando página 1
2025-12-19 11:38:03,677 - CNJ - DEBUG - {'itensPorPagina': 5, 'text

Total de comunicados: 0


Series([], dtype: int64)

In [6]:
# Verificar colunas disponíveis
print("Colunas disponíveis:")
print(dados.columns.tolist())

Colunas disponíveis:
['termo_busca']


## Exportação dos Dados

In [7]:
# Exportar para Excel
# dados.to_excel("cnj_resultados.xlsx", index=False)

# Exportar para CSV
# dados.to_csv("cnj_resultados.csv", index=False)