In [1]:
# -*- coding: utf-8
# Abraji (https://www.abraji.org.br)
# Reinaldo Chaves (reinaldo@abraji.org.br)
# Programa para buscas de processos no TJ-GO a partir de um nome
#

In [61]:
from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
import os
import time

In [62]:
# Verifica diretório atual

In [63]:
print(os.getcwd())

C:\Users\Administrador\Desktop\repo\raspatribunais_tjgo


In [64]:
# Indica os locais do Chrome e do Chromedriver

In [None]:
# Estão são os locais de exemplo em um computador da ESPM com Windows - cada computador varia o endereço

In [65]:
CHROME = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'
CHROMEDRIVER = r'C:\Users\Administrador\Desktop\chromedriver_win32\chromedriver'

In [66]:
# Definir opções do Chrome 
chrome_options = webdriver.chrome.options.Options()
chrome_options.add_argument('--window-size=1920,1080')
chrome_options.binary_location = CHROME

# Esta opção deixa o navegador fora da tela, ao fundo
# chrome_options.add_argument('--headless')

In [67]:
# Indica a url principal para buscas

In [68]:
link = 'https://pjd.tjgo.jus.br/BuscaProcessoPublica?PaginaAtual=2&Passo=7'

In [69]:
# Exemplo de um nome para busca

In [70]:
nome = "MARCONI FERREIRA PERILLO JUNIOR"

In [71]:
# Cria a variável que vai abrigar o webdriver e abre o Chrome remoto

In [72]:
browser = webdriver.Chrome(CHROMEDRIVER, options = chrome_options)

In [73]:
# Acessa o link

In [74]:
browser.get(link)

In [None]:
# Preenche o campo do nome da parte

In [None]:
# Para isso é procurado o XPath

In [None]:
# XPath é definido como caminho XML (Extensible Markup Language). 
# É uma sintaxe ou linguagem para encontrar qualquer elemento na página da Web usando a expressão do caminho XML. 
# XPath também é usado para encontrar a localização de qualquer elemento em uma página da Web usando a estrutura HTML DOM (O DOM representa um documento com uma árvore lógica)
# Use o Inspecionar (botão direito do mouse ou Ctrl+Shift+I)
# Mais sobre XPATH: https://pt.stackoverflow.com/questions/286409/o-que-%C3%A9-e-para-qu%C3%AA-serve-o-xpath-fornecido-nas-ferramentas-de-desenvolvedor-do-n

In [15]:
browser.find_element_by_xpath("//*[@id='NomeParte']").send_keys(nome)

In [16]:
# Clica o botão de busca
# Em momentos de tráfego intenso às vezes este comando precisa ser executado uma segunda vez para retornar resultado na tela

In [18]:
browser.find_element_by_xpath("//*[@id='btnBuscarProcPublico']").click()

In [None]:
# O que este site retorna é uma tabela bem definida com colunas e linhas
# O pandas tem um comando que lê e transforma estas tabelas de HTML em dataframes
# Basta indicar o local exato da tabela, que também pode ser encontrado com o Inspecionar

In [21]:
df = pd.read_html(browser.find_element_by_id('divTabela').get_attribute('outerHTML'))

In [22]:
# Neste caso temos que depois indicar que apenas o primeiro item do dataframe (0) deverá ser usado

In [23]:
df1 = pd.DataFrame(df[0])

In [24]:
df1

Unnamed: 0,Mensagens,Número Processo,Polo Ativo,Polo Passivo,Data da Distribuição
0,,5196250.77,MARCONI FERREIRA PERILLO JUNIOR,JUNIO ALVES ARAÚJO (MAJOR ARAÚJO),15/08/2016
1,,5274034.33,MARCONI FERREIRA PERILLO JUNIOR,QUID NOVI CONSULTORIA LTDA - ME,20/10/2016
2,,5093864.32,JAYME EDUARDO RINCON,DIRETÓRIO MUNICIPAL DO PMDB DE GUAPÓ,28/03/2017
3,,5093973.46,MARCONI FERREIRA PERILLO JUNIOR,DIRETÓRIO MUNICIPAL DO PMDB DE GUAPÓ,28/03/2017
4,,5192692.63,KOWALSKY DO CARMO COSTA RIBEIRO,MARCONI FERREIRA PERILLO JUNIOR,23/06/2017
5,,5207679.7,MARCONI FERREIRA PERILLO JUNIOR,DIRETÓRIO MUNICIPAL DO PMDB DE GUAPÓ,04/07/2017
6,,5215174.5,KOWALSKY DO CARMO COSTA RIBEIRO,MARCONI FERREIRA PERILLO JUNIOR,10/07/2017
7,,5339814.8,RONALDO RAMOS CAIADO,MARCONI FERREIRA PERILLO JUNIOR,21/09/2017
8,,5341184.94,MARCONI FERREIRA PERILLO JUNIOR,CLOVES REGES MAIA,22/09/2017
9,,5377660.34,MARCONI FERREIRA PERILLO JUNIOR,DIRETORIO MUNICIPAL DO PMDB DE GUAPÓ,16/10/2017


In [None]:
# Exemplo de procura na página pelo botão '›'

In [25]:
next_page = browser.find_element_by_xpath("//*[@id='divTabela']/div[2]/div[2]/div[4]/div[2]/ul/li[8]/a").text
next_page

'›'

In [26]:
# Captura a frase que mostra a paginação dos resultados

In [27]:
frase_pag = browser.find_element_by_xpath("//*[@id='divTabela']/div[2]/div[2]/div[4]/div[1]/span[1]").text
frase_pag

'Exibindo 1 até 15 de 116 linhas'

In [28]:
# Separa os resultados em uma lista

In [29]:
separa = frase_pag.split()
separa

['Exibindo', '1', 'até', '15', 'de', '116', 'linhas']

In [30]:
# No caso o número total de processos sempre será o último número na frase, ou o penúltimo item da lista

In [31]:
num = int(separa[-2])
num

116

In [32]:
# Cada página de resultado tem 15 linhas
# Então com uma divisão arredondada eu posso descobrir o número de páginas de resultados

In [33]:
pags = round(num / 15)
pags

8

In [None]:
# Iteração para capturar todas páginas, a partir do número de páginas

In [34]:
for item in range(1, pags+1):
    print(item)
    # Primeira vezes
    if item == 1:
        df_inicial = pd.read_html(browser.find_element_by_id('divTabela').get_attribute('outerHTML'))
        df_final = pd.DataFrame(df_inicial[0])
    # Seguintes
    else:
        # Preventivamente faz uma pausa 
        time.sleep(6)
        browser.find_element_by_xpath("//*[@id='divTabela']/div[2]/div[2]/div[4]/div[2]/ul/li[8]/a").click()
        time.sleep(6)
        df_inicial = pd.read_html(browser.find_element_by_id('divTabela').get_attribute('outerHTML'))
        df_final_0 = pd.DataFrame(df_inicial[0])
        # Adiciona ao dataframe já existente
        df_final = pd.concat([df_final, df_final_0])
    

1
2
3
4
5
6
7
8


In [35]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 116 entries, 0 to 10
Data columns (total 5 columns):
Mensagens               0 non-null float64
Número Processo         116 non-null float64
Polo Ativo              116 non-null object
Polo Passivo            116 non-null object
Data da Distribuição    116 non-null object
dtypes: float64(2), object(3)
memory usage: 5.4+ KB


In [36]:
df_final.tail()

Unnamed: 0,Mensagens,Número Processo,Polo Ativo,Polo Passivo,Data da Distribuição
6,,5409187.33,Pirocenter Distribuidora De Fogos Artificiais,Marconi Ferreira Perillo Junior,03/07/2019
7,,5461687.35,MARCONI FERREIRA PERILLO JUNIOR,Ministério Público Do Estado De Goiás,02/08/2019
8,,5520704.43,MARCONI FERREIRA PERILLO JUNIOR,JUIZA DE DIREITO DA 4ª VARA DA FAZENDA PÚBLICA...,03/09/2019
9,,5521033.55,MARCONI FERREIRA PERILLO JUNIOR,JUIZA DE DIREITO DA 4ª VARA DA FAZENDA PÚBLICA...,03/09/2019
10,,5521353.8,MARCONI FERREIRA PERILLO JUNIOR,JUIZA DE DIREITO DA 4ª VARA DA FAZENDA PÚBLICA...,03/09/2019


In [40]:
# Fecha o driver
browser.quit()

In [None]:
# Rotina de limpeza para incluir um 0 sempre que o processo terminar um número apenas após o "."

In [37]:
def limpeza1(linha):
    documento = str(linha["Número Processo"])
    separa = documento.split(".")
    if len(separa[-1]) == 1:
        novo = "0" + separa[-1]
        retorna = separa[0] + "." + novo
        return retorna
    else:
        return documento
    
df_final["Número Processo"] = df_final.apply(limpeza1, axis=1)

In [38]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 116 entries, 0 to 10
Data columns (total 5 columns):
Mensagens               0 non-null float64
Número Processo         116 non-null object
Polo Ativo              116 non-null object
Polo Passivo            116 non-null object
Data da Distribuição    116 non-null object
dtypes: float64(1), object(4)
memory usage: 5.4+ KB


In [39]:
df_final['Número Processo']

0     5196250.77
1     5274034.33
2     5093864.32
3     5093973.46
4     5192692.63
         ...    
6     5409187.33
7     5461687.35
8     5520704.43
9     5521033.55
10    5521353.08
Name: Número Processo, Length: 116, dtype: object

In [144]:
# Fase 2
# Entrar em cada página de processo a partir do número

In [None]:
# Cria uma lista vazia para acumular os resultados

In [56]:
processos = []

In [None]:
# Abre o Chrome e acessa o link principal de novo

In [57]:
browser = webdriver.Chrome(CHROMEDRIVER, options = chrome_options)

browser.get(link)

In [None]:
# Iteração no dataframe criado acima

In [58]:
for num, row in df_final.iterrows():
    # Preenche variaveis com alguns dados do dataframe
    processo = str(row['Número Processo'])
    polo_ativo = row['Polo Ativo']
    polo_passivo = row['Polo Passivo']
    
    print(processo)

    # Limpa o campo de número de processo a cada busca
    browser.find_element_by_xpath("//*[@id='ProcessoNumero']").clear()

    # Preenche o campo do número do processo
    browser.find_element_by_xpath("//*[@id='ProcessoNumero']").send_keys(processo)

    # Um ponto de problemas muito comum em raspagens repetitivas é a tela demorar para ser carregada
    # Por isso WebDriverWait e o until impõe uma espera de até 60 segundos para o botão estar carregado
    # Este tempo poderá ter que ser maior dependendo do dia e hora de acesso
    WebDriverWait(browser, 60).until(EC.element_to_be_clickable((By.XPATH, "//*[@id='btnBuscarProcPublico']"))).click()
    
    # Também dependendo da hora e dia o botão precisa ser pressionado duas vezes
    #browser.find_element_by_xpath("//*[@id='btnBuscarProcPublico']").click()
    
    # Espera preventiva para site não tornar acesso difícil
    time.sleep(6)

    # Procura mensagem na tela que indica que processo não foi encontrado
    try: 
        encontra = browser.find_element_by_xpath("//*[@id='mensagem-conteudo']").text.strip()
    except NoSuchElementException:
        encontra = "sem_essa_informacao"
    
    # Procura mensagem na tela que indica que processo está em segredo de justiça
    try: 
        p_segredo = browser.find_element_by_xpath("//*[@id='tituloBoxMaiorCapaProcesso']").text.strip()
    except NoSuchElementException:
        p_segredo = "sem_essa_informacao"

    # Procura mensagem na tela que indica que processo tem número duplicado
    try: 
        duplo = browser.find_element_by_xpath("//*[@id='divTabela']/div[2]/div[2]/div[4]/div[1]/span[1]").text.strip()
        duplo = duplo[0:9]
    except NoSuchElementException:
        duplo = "sem_essa_informacao"

    
    # Verifica se condições acima surgiram
    if encontra != "x\nNenhum Processo foi localizado para os parâmetros informados." and p_segredo != "Informações do Processo em Segredo de Justiça" and duplo != 'Exibindo ':
        
        # Testa se cada informação do processo está disponível
        
        try:
            area = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[1]").text
        except NoSuchElementException:
            area = "sem_essa_informacao"
    
        try:
            serventia = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[2]").text
        except NoSuchElementException:
            serventia = "sem_essa_informacao"
    
        try:
            valor = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[3]").text
        except NoSuchElementException:
            valor = "sem_essa_informacao"
    
        try:
            fase = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[5]").text
        except NoSuchElementException:
            fase = "sem_essa_informacao"
    
        try:
            segredo = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[6]/i").text
        except NoSuchElementException:
            segredo = "sem_essa_informacao"
    
        try:
            situacao = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[7]").text
        except NoSuchElementException:
            situacao = "sem_essa_informacao"
    
        try:
            data_distribuicao = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[9]").text
        except NoSuchElementException:
            data_distribuicao = "sem_essa_informacao"
    
        try:
            classe = browser.find_element_by_xpath("/html/body/div[3]/div/section/div/div[2]/div/div[3]/div[2]/div/div[2]/div[2]/div[1]/div/div[2]/dl/dd[11]").text
        except NoSuchElementException:
            classe = "sem_essa_informacao"
        
        try:    
            assunto1 = browser.find_element_by_xpath("//*[@id='conteudoLista']/div[1]/div/div[2]/dl/dd[12]/table/tbody/tr/td").text
        except NoSuchElementException:
            assunto1 = "sem_essa_informacao"
        
        try:    
            assunto2 = browser.find_element_by_xpath("//*[@id='conteudoLista']/div[1]/div/div[2]/dl/dd[13]/table/tbody/tr/td").text
        except NoSuchElementException:
            assunto1 = "sem_essa_informacao"
    
        try:
            ativos = browser.find_element_by_xpath("//*[@id='poloAtivoTable']").text
        except NoSuchElementException:
            ativos = "sem_essa_informacao"
        
        try:
            passivos = browser.find_element_by_xpath("//*[@id='poloPassivoTable']").text
        except NoSuchElementException:
            passivos = "sem_essa_informacao"
    
    
        # Adiciona resultados coletados num dicionário dentro da lista
        processos.append({'processo': processo, 
                          'polo_ativo': polo_ativo, 
                          'polo_passivo': polo_passivo, 
                          'area': area, 
                          'serventia': serventia, 
                          'valor': valor, 
                          'fase': fase, 
                          'segredo': segredo,
                          'situacao': situacao,
                          'data_distribuicao': data_distribuicao,
                          'classe': classe,
                          'assunto1': assunto1,
                          'assunto2': assunto2,
                          'ativos': ativos,
                          'passivos': passivos  
                         })    
    
        # Clica no botão de voltar, com cuidados de tempo
        WebDriverWait(browser, 60).until(EC.element_to_be_clickable((By.XPATH, "/html/body/div[3]/div/div/section/div/h2/div/a/i"))).click()
        time.sleep(6)
    
    # Se o processo tem problemas    
    elif encontra == "x\nNenhum Processo foi localizado para os parâmetros informados.":
        print("Processo não encontrado: ", processo)
    
    elif p_segredo == "Informações do Processo em Segredo de Justiça":
        print("Processo com segredo de Justiça: ", processo)
        browser.get(link)
        time.sleep(6)

    elif duplo == 'Exibindo ':
        print("Processo possivelmente duplicado: ", processo)
        browser.get(link)
        time.sleep(6)

5196250.77
5274034.33
5093864.32
5093973.46
5192692.63
5207679.07
5215174.05
5339814.08
Processo não encontrado:  5339814.08
5341184.94
5377660.34
5379591.72
5428542.97
5455594.68
5037383.15
5376723.87
5426947.29
5473741.11
5542376.44
5050049.14
5070484.09
5085283.57
5107881.05
5130461.85
5226949.05
5244436.29
5305805.24
5320140.07
5330507.09
Processo não encontrado:  5330507.09
5462744.88
5477909.78
5496705.61
5522471.75
288112.79
175769.09
109675.64
Processo com segredo de Justiça:  109675.64
129120.68
214873.09
Processo não encontrado:  214873.09
214893.81
310974.92
7063744.16
117240.11
162128.65
162133.87
163788.94
184207.38
197360.29
204511.58
275159.63
297110.97
371487.55
381188.04
Processo não encontrado:  381188.04
406263.05
Processo não encontrado:  406263.05
9838.31
86259.62
157391.82
174247.24
174248.09
230381.71
Processo possivelmente duplicado:  230381.71
249133.91
301894.02
305332.58
67658.71
255926.12
302467.06
308571.14
439854.79
452026.14
454027.11
454033.18
47389.74
1

In [None]:
# Transforma lista em dataframe

In [59]:
df_resultado = pd.DataFrame(processos)

In [60]:
df_resultado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105 entries, 0 to 104
Data columns (total 15 columns):
processo             105 non-null object
polo_ativo           105 non-null object
polo_passivo         105 non-null object
area                 105 non-null object
serventia            105 non-null object
valor                105 non-null object
fase                 105 non-null object
segredo              105 non-null object
situacao             105 non-null object
data_distribuicao    105 non-null object
classe               105 non-null object
assunto1             105 non-null object
assunto2             105 non-null object
ativos               105 non-null object
passivos             105 non-null object
dtypes: object(15)
memory usage: 12.4+ KB


In [None]:
# Salva resultado

In [61]:
df_resultado.to_csv('teste_17nov.csv', index=False)