In [1]:
# -*- coding: utf-8
# Abraji (https://www.abraji.org.br)
# Reinaldo Chaves (reinaldo@abraji.org.br)
# Programa 1 para pegar movimentações de processos na busca do 1º Grau 
# a partir do campo "Nome da parte", um foro de cada vez
# Gera um arquivo com os links diretos de cada processo, que serão lidos no programa 2
#

## Chama bibliotecas e módulos

1 - BeautifulSoup transforma um documento HTML complexo em uma complexa árvore de objetos Python. Mas você só terá que lidar com quatro tipos de objetos - Tag, NavigableString, BeautifulSoup, and Comment

In [2]:
from bs4 import BeautifulSoup, Tag, NavigableString

2 - O BeautifulSoup 4.7+ usa uma biblioteca selecionada chamada Soup Sieve que é instalada ao lado do BeautifulSoup. Você pode importá-lo diretamente e criar padrões de correspondência de seletores CSS

In [3]:
import soupsieve as sv

3 - A biblioteca de requests faz solicitações HTTP em Python

In [4]:
import requests

4 - Expressões regulares

In [5]:
import re

5 - Pandas para datascience

In [6]:
import pandas as pd

6 - Retira acentuações

In [7]:
import unidecode

7 - Para converter strings em datas

In [8]:
from datetime import date

8 - Time para paralisar brevemente

In [9]:
import time

9 - Desabilita avisos

In [10]:
import urllib3; urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

## Funções

Função para retirar acentos

In [11]:
def f(str):
    return (unidecode.unidecode(str))

O tipo de processo não é agrupado em um elemento fácil de segmentar, mas segue o número do processo, portanto, podemos criar uma função simples para extrair o texto logo após a execução, até atingirmos a próxima div:

In [12]:
def get_process_type(el):
    # O texto é encontrado logo após esse filho, então colete o texto até chegarmos ao próximo div
    text = []
    # Você pode usar .next_sibling e .previous_sibling para navegar entre os elementos da página que estão no mesmo nível da árvore de análise
    sibling = el.next_sibling
    while True:
        sibling = sibling.next_sibling
        # A função isinstance() verifica se o objeto (primeiro argumento) é uma instância ou subclasse da classe classinfo(segundo argumento)
        # Uma string corresponde a um pouco de texto dentro de uma tag. BeautifulSoup usa a classe NavigableString para conter esses bits de texto
        if isinstance(sibling, NavigableString):
            text.append(sibling)
        # Um objeto Tag corresponde a uma tag XML ou HTML no documento original
        # Aqui não interessa
        elif isinstance(sibling, Tag):
            if sibling.name == 'div':
                break
    return ''.join(text).strip()

Função principal para ler sites e tags

In [13]:
def le_processos(link_tjsp1, link_tjsp2, link_tjsp3, link_tjsp4, nome, tribunal):
    print(" ")
    print("++++++++++++++++++++++++++++++++++++++++++++++++")
    print(nome)
    
    # Com o uso de uma iteração percorre cada foro para fazer a busca
    for num, row in foro_sp.iterrows():
        foro_cd = str(row['codigo']) # código do foro
        foro = str((row['nome_foro']).strip()) # nome do foro
        print("Foro buscado: " + foro)
        
        # Une as partes dos links para cria o link de consulta da página
        link_consulta = link_tjsp1 + "1" + link_tjsp2 + foro_cd + link_tjsp3 + nome + link_tjsp4
        
        
        # Testa o link com o requests
        try:
            res = requests.get(link_consulta, verify=False) # evita o SSLError
        except (requests.exceptions.HTTPError, requests.exceptions.RequestException, requests.exceptions.ConnectionError, requests.exceptions.Timeout) as e:
            print(str(e))
            return 
        except Exception as e:
            print("Exceção")
            return
        
        # Cria a sopa com a criação de uma parse tree - árvore de análise
        soup =  BeautifulSoup(res.text, "lxml")
    
        # Primeiro testa se a busca tem algum conteúdo    
        if soup.find('td', {'id': 'mensagemRetorno'}) is None:
          
            # seleciona a href da página final
            if soup.find_all('a', style ="padding: 5px;", title="Última página") == []:
                # Significa que a busca tem apenas 1 página
                pagina_final = 1
            else:
                # Busca a posição do número da página
                pagina_final = soup.find_all('a', {'style': 'padding: 5px;'})[1].get('href')
        
                # Seleciona a posicao inicial de interesse
                posicao1 = pagina_final.find('?paginaConsulta=')
                posicao2 = pagina_final[posicao1:posicao1+19]
        
                # retorna apenas o número
                pagina_final = int(''.join(list(filter(str.isdigit, posicao2))))
        
    
            # Inicia busca nas páginas, de acordo com o número de páginas
            for acao in range(1, pagina_final+1):
        
                #  Une as partes dos links para cria o link de consulta da página
                link_consulta = link_tjsp1 + str(acao) + link_tjsp2 + foro_cd + link_tjsp3 + nome + link_tjsp4
                
                print(link_consulta)
        
                # Testa o link com o requests
                try:
                    res = requests.get(link_consulta, verify=False) # evita SSLError
                except (requests.exceptions.HTTPError, requests.exceptions.RequestException, requests.exceptions.ConnectionError, requests.exceptions.Timeout) as e:
                    print(str(e))
                    return 
                except Exception as e:
                    print("Exceção")
                    return
        
                # Cria a sopa com a criação de uma parse tree - árvore de análise
                soup =  BeautifulSoup(res.text, "lxml")
        
                # Cria padrões CSS para encontrar dados que queremos capturar
                # Se você já usou a biblioteca re do Python para expressões regulares, talvez saiba que geralmente é útil pré-compilar um padrão de expressão regular, especialmente se você planeja usá-lo mais de uma vez

                # O mesmo vale para os matchers da Soup Sieve, embora não seja obrigatório

                # Se você tem um padrão que você deseja usar mais de uma vez, pode ser sábio pré-compilá-lo 
                legal_process = sv.compile('div.nuProcesso')
                info1 = sv.compile('br + div.espacamentoLinhas')
                info2 = sv.compile('div.espacamentoLinhas + div.espacamentoLinhas')
                
                # Expressão regular para separar informações de data e local
                date_split = re.compile(r'-\s+(?:\d+\xaa)?')
                # Checar: https://regex101.com
                # - matches the character - literally (case sensitive)
                # \s+ matches any whitespace character (equal to [\r\n\t\f\v ])
                # + Quantifier — Matches between one and unlimited times, as many times as possible, giving back as needed (greedy)

                # Non-capturing group (?:\d+\xaa)?
                # ? Quantifier — Matches between zero and one times, as many times as possible, giving back as needed (greedy)

                # \d+ matches a digit (equal to [0-9])
                # + Quantifier — Matches between one and unlimited times, as many times as possible, giving back as needed (greedy)
                # \xaa matches the character ª with index AA16 (17010 or 2528) literally (case sensitive)

                # Global pattern flags
                # g modifier: global. All matches (don't return after first match)
                # m modifier: multi line. Causes ^ and $ to match the begin/end of each line (not only begin/end of string)
                
                
                # Percorre os filhos contidos na tag
                for child in soup.select('div#listagemDeProcessos *'):
                    
                    # Se é a região com o número do processo
                    if legal_process.match(child):
                        # Guarda o número do processo na lista - dentro de um dicionário
                        processos.append({"process": child.text.strip()})
                
                        # Adiciona outro item, o link processo
                        # O -1 mantém o dicionário na mesma linha
                        processos[-1]['link'] = "https://esaj.tjsp.jus.br" + child.a.get('href')

                        # Guarda o tipo do processo
                        # Chama função 
                        processos[-1]['type'] = get_process_type(child)

                    # Se é a área com o tipo da parte no processo
                    elif info1.match(child):
                        # Armazene o rótulo e o nome necessários
                        processos[-1]['label'], processos[-1]['name'] = [item.strip() for item in child.text.split(':', 1)]
                    elif info2.match(child):
                        # Armazenar data e local
                        processos[-1]['date'], processos[-1]['location'] = [item.strip() for item in date_split.split(child.text.split(':', 1)[1], 1)]
    
        else: 
            # Não encontrou nada na busca
            print('-------------------------------------------------------------')
            print('A busca não foi encontrada para ' + nome + ' e foro ' + foro + ". Cheque manualmente")
            print('-------------------------------------------------------------')

## Execução do código

Acessa nome das partes - Exemplo de nomes empresas de mídia e palavras buscadas

In [14]:
partes = pd.read_excel('dados/partes_buscas.xlsx', Sheet="Planilha1")

In [15]:
partes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 2 columns):
empresa_parte    13 non-null object
tribunal         13 non-null object
dtypes: object(2)
memory usage: 336.0+ bytes


In [16]:
partes.reset_index().head()

Unnamed: 0,index,empresa_parte,tribunal
0,0,Folha de São Caetano,TJ-SP
1,1,Jornal Metropole,TJ-SP
2,2,Jornal,TJ-SP
3,3,TV,TJ-SP
4,4,blog,TJ-SP


Retira os acentos

In [17]:
partes["empresa_parte"] = partes["empresa_parte"].apply(f)

Acessa nomes dos foros de SP

In [18]:
foro_sp = pd.read_excel('dados/foros_justica_sao_paulo.xlsx', Sheet="Planilha2")

In [19]:
foro_sp

Unnamed: 0,codigo,nome_foro
0,91,ANTIGO Foro Distrital de Brás Cubas
1,509,Araçatuba/DEECRIM UR2
2,26,Bauru/DEECRIM UR3
3,502,Campinas/DEECRIM UR4
4,500,DEPRE
5,234,Foro - Corregedoria Geral da Justiça
6,53,Foro Central - Fazenda Pública/Acidentes
7,100,Foro Central Cível
8,52,Foro Central Criminal - Juri
9,50,Foro Central Criminal Barra Funda


Link principal para consulta de processos de primeiro grau

In [20]:
link_tjsp1 = 'https://esaj.tjsp.jus.br/cpopg/trocarPagina.do?paginaConsulta='
# vai o número da página depois
link_tjsp2 = '&conversationId=&dadosConsulta.localPesquisa.cdLocal='
# vai o código do foro depois
link_tjsp3 = '&cbPesquisa=NMPARTE&dadosConsulta.tipoNuProcesso=UNIFICADO&dadosConsulta.valorConsulta='
# vai o nome da parte depois
link_tjsp4 = '&uuidCaptcha=&pbEnviar=Pesquisar'

Cria lista vazia para armazenar dados  

In [21]:
processos = []

Iteração para chamar a busca de cada parte

In [22]:
for num, row in partes.iterrows():
    nome = row['empresa_parte']
    tribunal = row['tribunal']
    time.sleep(5)
    le_processos(link_tjsp1, link_tjsp2, link_tjsp3, link_tjsp4, nome, tribunal)

 
++++++++++++++++++++++++++++++++++++++++++++++++
Folha de Sao Caetano
Foro buscado: ANTIGO Foro Distrital de Brás Cubas
-------------------------------------------------------------
A busca não foi encontrada para Folha de Sao Caetano e foro ANTIGO Foro Distrital de Brás Cubas. Cheque manualmente
-------------------------------------------------------------
Foro buscado: Araçatuba/DEECRIM UR2
-------------------------------------------------------------
A busca não foi encontrada para Folha de Sao Caetano e foro Araçatuba/DEECRIM UR2. Cheque manualmente
-------------------------------------------------------------
Foro buscado: Bauru/DEECRIM UR3
-------------------------------------------------------------
A busca não foi encontrada para Folha de Sao Caetano e foro Bauru/DEECRIM UR3. Cheque manualmente
-------------------------------------------------------------
Foro buscado: Campinas/DEECRIM UR4
-------------------------------------------------------------
A busca não foi encontrad

Converte o dicionário dentro da lista em um dataframe

In [23]:
df_processos = pd.DataFrame(processos, columns = ['process', 'link', 'type', 'label', 'name','date', 'location'])

In [24]:
df_processos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25009 entries, 0 to 25008
Data columns (total 7 columns):
process     25009 non-null object
link        25009 non-null object
type        25009 non-null object
label       25009 non-null object
name        25009 non-null object
date        22403 non-null object
location    22403 non-null object
dtypes: object(7)
memory usage: 1.3+ MB


Filtra pela data

In [25]:
df_processos['date'] = pd.to_datetime(df_processos['date'])

In [26]:
df_processos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25009 entries, 0 to 25008
Data columns (total 7 columns):
process     25009 non-null object
link        25009 non-null object
type        25009 non-null object
label       25009 non-null object
name        25009 non-null object
date        22403 non-null datetime64[ns]
location    22403 non-null object
dtypes: datetime64[ns](1), object(6)
memory usage: 1.3+ MB


In [27]:
mask = (df_processos['date'] >= '2017-05-01') | (df_processos['date'] == '') # junho de 2017
df_processos_filtro = df_processos[mask]

Filtra pelo tipo da parte

In [28]:
df_processos_filtro = df_processos_filtro[(df_processos_filtro['label'] == 'Reqdo') | 
                                          (df_processos_filtro['label'] == 'Autor') | 
                                          (df_processos_filtro['label'] == 'Credor') | 
                                          (df_processos_filtro['label'] == 'Denunciado') | 
                                          (df_processos_filtro['label'] == 'Embargdo') | 
                                          (df_processos_filtro['label'] == 'Exectdo') | 
                                          (df_processos_filtro['label'] == 'Exeqte') | 
                                          (df_processos_filtro['label'] == 'Interesdo.') | 
                                          (df_processos_filtro['label'] == 'Perito') | 
                                          (df_processos_filtro['label'] == 'Recebido em') | 
                                          (df_processos_filtro['label'] == 'Reqda') | 
                                          (df_processos_filtro['label'] == 'Reqdo') | 
                                          (df_processos_filtro['label'] == 'Reqte') | 
                                          (df_processos_filtro['label'] == 'Réu') | 
                                          (df_processos_filtro['label'] == 'TerIntCer') | 
                                          (df_processos_filtro['label'] == 'TerIntInc') ]

In [29]:
df_processos_filtro.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5199 entries, 6 to 25008
Data columns (total 7 columns):
process     5199 non-null object
link        5199 non-null object
type        5199 non-null object
label       5199 non-null object
name        5199 non-null object
date        5199 non-null datetime64[ns]
location    5199 non-null object
dtypes: datetime64[ns](1), object(6)
memory usage: 324.9+ KB


In [30]:
df_processos_filtro.reset_index().head()

Unnamed: 0,index,process,link,type,label,name,date,location
0,6,1614864-57.2018.8.26.0224,https://esaj.tjsp.jus.br/cpopg/show.do?process...,DIREITO TRIBUTÁRIO,Exectdo,Troad Editora e Jornal Expresso Metropolitano ...,2018-08-30,Vara da Fazenda Pública
1,8,1050808-03.2018.8.26.0053,https://esaj.tjsp.jus.br/cpopg/show.do?process...,Base de Cálculo,Reqte,Jornal Gazeta de Sao Paulo - Epp,2018-11-10,Vara de Fazenda Pública
2,9,1045411-60.2018.8.26.0053,https://esaj.tjsp.jus.br/cpopg/show.do?process...,Anulação de Débito Fiscal,Reqte,Jornal Gazeta de São Paulo EPP,2018-09-13,Vara de Fazenda Pública
3,11,1000221-74.2018.8.26.0053,https://esaj.tjsp.jus.br/cpopg/show.do?process...,Anulação de Débito Fiscal,Reqte,Jornal Gazeta de São Paulo Ltda - Epp,2018-05-01,Vara de Fazenda Pública
4,12,1042815-40.2017.8.26.0053,https://esaj.tjsp.jus.br/cpopg/show.do?process...,Antecipação de Tutela / Tutela Específica,Reqte,Jornal Gazeta de São Paulo - Epp,2017-09-13,Vara do Juizado Especial da Fazenda Pública


Salva um arquivo estruturado

In [31]:
df_processos_filtro.to_excel('resultados/processos_tjsp_22ago.xlsx',sheet_name='Sheet1')