Raspador de tribunais e outros sistemas relacionados ao poder judiciário brasileiro.
pip install juscraperuv add juscraperPara instalar a versão mais recente do repositório:
pip install git+https://github.com/jtrecenti/juscraper.gitimport juscraper as jus
# Criar scraper para o TJSP
tjsp = jus.scraper('tjsp')
# Buscar jurisprudência
dados = tjsp.cjpg('golpe do pix', paginas=range(1, 3))
print(f"Encontrados {len(dados)} resultados")
# Visualizar primeiros resultados
dados.head()| Tribunal | Funcionalidades Disponíveis |
|---|---|
| TJSP | cpopg, cposg, cjsg, cjpg, acordao |
| TJRS | cjsg |
| TJPR | cjsg |
| TJDFT | cjsg |
| Nome | Funcionalidades |
|---|---|
| Datajud | listar_processos |
| Jusbr | cpopg, download_documents |
O pacote foi pensado para atender a requisitos básicos de consulta de dados de processos judiciais em alguns tribunais.
Os tribunais implementados vão apresentar os seguintes métodos:
.cpopg(): consulta de processos originários do primeiro grau.cposg(): consulta de processos originários do segundo grau.cjsg(): consulta de jurisprudência
Os métodos .cpopg() e .cposg() recebem como input um número de processo no padrão CNJ (NNNNNNN-DD.AAAA.J.TT.OOOO), com ou sem separadores, e retorna um dict com tabelas dos elementos do processo (dados básicos, partes, movimentações, entre outros específicos por tribunal).
O método .cjsg() recebe como input parâmetros de busca de jurisprudência (que variam por tribunal) e retorna uma tabela com os resultados da consulta. Boa parte dos tribunais apresentam limites de paginação ao realizar buscas muito gerais (i.e. que retornam muitos resultados). Nesses casos, o método dará um aviso ao usuário com o número total de resultados, confirmando se deseja mesmo baixar todos os resultados.
Caso o usuário queira controlar o armazenamento dos arquivos brutos dos processos, deverá implementar as seguintes funções:
.cpopg_download(): baixa o arquivo bruto da consulta de processos originários do primeiro grau, retornando o caminho do arquivo baixado..cpopg_parse(): lê e processa um arquivo bruto ou arquivos dentro de uma pasta resultantes da consulta de processos, retornando odictcom tabelas dos elementos do processo, como na função.cpopg().
O mesmo se aplica para as funções .cposg_download() e .cposg_parse().
Observação: Em alguns tribunais ou situações específicas, a consulta a um processo pode gerar vários arquivos brutos. Por esse motivo, toda consulta cria uma pasta com o número do processo e, dentro dessa pasta, cria os arquivos correspondentes ao download.
Para a função .cjsg(), uma consulta pode resultar
- Controle sobre arquivos brutos: o pacote fornece uma interface para baixar e armazenar arquivos brutos (HTML e JSON, por exemplo) dos processos. Por padrão, no entanto, esses arquivos brutos são descartados assim que os dados são processados, com exceção dos arquivos que apresentaram algum problema na leitura.
Por ser um pacote bastante complexo e também nichado, adotamos algumas restrições sobre o escopo do pacote para que seja simples de usar.
- O pacote não utiliza paralelização, ou seja, se o usuário tiver interesse em realizar requisições em paralelo, deverá desenvolver as adaptações necessárias.
- O pacote não possui absolutamente todas as funcionalidades que os tribunais permitem. Se o usuário tiver interesse em consultar processos em mais tribunais, deverá desenvolver os raspadores.
O pacote juscraper foi criado em python inicialmente com o propósito de ser usado em aulas de Ciência de Dados no Direito do Insper. Portanto, não houve incentivo nem fôlego para criar uma alternativa em R.
Já existem soluções usando o R para esses raspadores, como os pacotes tjsp e stj, mas a comunidade convergiu para soluções em python, que atualmente são mais populares.
Ao utilizar as funções de download cjsg_download e cjpg_download, o parâmetro paginas deve ser um objeto range. Por padrão, range(0, n) fará o download das páginas 1 até n (inclusive), ou seja, range(0, 3) baixa as páginas 1, 2 e 3. Isso torna o comportamento mais intuitivo para o usuário.
Exemplo de uso:
scraper.cjsg_download(pesquisa="dano moral", paginas=range(0, 5)) # Baixa as páginas 1 a 5
scraper.cjpg_download(pesquisa="contrato", paginas=range(0, 2)) # Baixa as páginas 1 e 2Para instalar o pacote em modo desenvolvimento, siga os passos abaixo:
# Clone o repositório (caso ainda não tenha feito)
$ git clone https://github.com/jtrecenti/juscraper.git
$ cd juscraper
# Instale as dependências e o pacote em modo editável
$ uv pip install -e .Interessado em contribuir? Verifique as diretrizes de contribuição. Por favor, note que este projeto é lançado com um Código de Conduta. Ao contribuir para este projeto, você concorda em obedecer às suas termos.
juscraper foi criado por Julio Trecenti. Está licenciado sob os termos da licença MIT.
juscraper foi criado com cookiecutter e o template py-pkgs-cookiecutter.