# Este script visa obter os dados do datajud (api), para tal:

Apresenta todas as etapas de processamento dos dados brutos dos processos para:

1 - Copiar os processos da tabela processos_jusbrasil_chave para a tabela processos_unicos_chaves, ignorando aqui os repetidos e os que a ementa é menor que 200 caracteres e os que não tem MEI no texto
2 - LImpa os numeros dos processos, que podem ter letras e texto misturado

3 - Identifica o endpoint do tribunal de cada processo

4 - COmpo pode ter mais de um numero de processo por porcesso, identifica qual deles está retornando valores ao consultar o endpoint no datajud

5 - Apresenta o codigo SQL para limpar processos repetidos (os unicos)

6 - Consulta o datajus para trazer mais informações dos processos

In [1]:
import re
import psycopg2
from IPython.display import clear_output
# Função para limpar o número do processo
def clean_processo(numero_processo):
    # Remove todos os caracteres que não sejam números ou espaços
    numero_limpo = re.sub(r'[^0-9\s]', '', numero_processo)
    return numero_limpo

def clean_processo_espaco(numero_processo):
    # Remove todos os caracteres que não sejam números
    numero_limpo = re.sub(r'[^0-9]', '', numero_processo)
    return numero_limpo

# Função para fazer o split dos números após limpar
def split_processo(numero_limpo):
    return numero_limpo.split()




Selecinando os registros relacionados ao tema e inserindo na nova tabela

INSERT INTO processos_jusbrasil_unicos
SELECT *
FROM processos_jusbrasil_chave_dia AS pj 
WHERE 
    (LOWER(pj.ementa_completa) LIKE '%microempreendedorindividual%'
    OR LOWER(pj.ementa_completa) LIKE '%micro empreendedor individual%'
    OR LOWER(pj.ementa_completa) LIKE '%microempreendedor individual%'
    OR LOWER(pj.ementa_completa) LIKE '% mei %'
    OR LOWER(pj.ementa_completa) LIKE '%portal do empreendedor%'
    OR LOWER(pj.ementa_completa) LIKE '%m i c r o e m p r e e n d e d o r i n d i v i d u a l%'
    OR LOWER(pj.ementa_completa) LIKE '%micro-empreendedor individual%'
    OR LOWER(pj.ementa_completa) LIKE '%microempreendedor indiv%'
    OR LOWER(pj.ementa_completa) LIKE '%micro-empreendedor indiv%'
    OR LOWER(pj.ementa_completa) LIKE '% m e i %'
    OR LOWER(pj.ementa_completa) LIKE '% m.e.i %'
    OR LOWER(pj.ementa_completa) LIKE '%micro empresario individual%'
    OR LOWER(pj.ementa_completa) LIKE '%micro-empresário individual%'
    OR LOWER(pj.ementa_completa) LIKE '%microempresário individual%'
    OR LOWER(pj.ementa_completa) LIKE '%micro-empresário indiv%'
    OR LOWER(pj.ementa_completa) LIKE '%microempresário indiv%'
    OR LOWER(pj.ementa_completa) LIKE '%micro empreendedor%'
    OR LOWER(pj.ementa_completa) LIKE '%microempreendedor%')
    AND LENGTH(pj.ementa_completa) > 100
    AND NOT EXISTS (
        SELECT 1 FROM processos_jusbrasil_unicos u
        WHERE u.numero_processo = pj.numero_processo OR u.id = pj.id
    )
ON CONFLICT (id) 
DO UPDATE SET 
    numero_processo = EXCLUDED.numero_processo,
    ementa_completa = EXCLUDED.ementa_completa;



In [2]:
# Dicionário com as siglas dos tribunais e seus respectivos endpoints
endpoints = {
    "TST": "https://api-publica.datajud.cnj.jus.br/api_publica_tst/_search",
    "TSE": "https://api-publica.datajud.cnj.jus.br/api_publica_tse/_search",
    "STJ": "https://api-publica.datajud.cnj.jus.br/api_publica_stj/_search",
    "STM": "https://api-publica.datajud.cnj.jus.br/api_publica_stm/_search",
    "TRF-1": "https://api-publica.datajud.cnj.jus.br/api_publica_trf1/_search",
    "TRF-2": "https://api-publica.datajud.cnj.jus.br/api_publica_trf2/_search",
    "TRF-3": "https://api-publica.datajud.cnj.jus.br/api_publica_trf3/_search",
    "TRF-4": "https://api-publica.datajud.cnj.jus.br/api_publica_trf4/_search",
    "TRF-5": "https://api-publica.datajud.cnj.jus.br/api_publica_trf5/_search",
    "TRF-6": "https://api-publica.datajud.cnj.jus.br/api_publica_trf6/_search",
    "TJ-AC": "https://api-publica.datajud.cnj.jus.br/api_publica_tjac/_search",
    "TJ-AL": "https://api-publica.datajud.cnj.jus.br/api_publica_tjal/_search",
    "TJ-AM": "https://api-publica.datajud.cnj.jus.br/api_publica_tjam/_search",
    "TJ-AP": "https://api-publica.datajud.cnj.jus.br/api_publica_tjap/_search",
    "TJ-BA": "https://api-publica.datajud.cnj.jus.br/api_publica_tjba/_search",
    "TJ-CE": "https://api-publica.datajud.cnj.jus.br/api_publica_tjce/_search",
    "TJ-DF": "https://api-publica.datajud.cnj.jus.br/api_publica_tjdft/_search",
    "TJ-ES": "https://api-publica.datajud.cnj.jus.br/api_publica_tjes/_search",
    "TJ-GO": "https://api-publica.datajud.cnj.jus.br/api_publica_tjgo/_search",
    "TJ-MA": "https://api-publica.datajud.cnj.jus.br/api_publica_tjma/_search",
    "TJ-MG": "https://api-publica.datajud.cnj.jus.br/api_publica_tjmg/_search",
    "TJ-MS": "https://api-publica.datajud.cnj.jus.br/api_publica_tjms/_search",
    "TJ-MT": "https://api-publica.datajud.cnj.jus.br/api_publica_tjmt/_search",
    "TJ-PA": "https://api-publica.datajud.cnj.jus.br/api_publica_tjpa/_search",
    "TJ-PB": "https://api-publica.datajud.cnj.jus.br/api_publica_tjpb/_search",
    "TJ-PE": "https://api-publica.datajud.cnj.jus.br/api_publica_tjpe/_search",
    "TJ-PI": "https://api-publica.datajud.cnj.jus.br/api_publica_tjpi/_search",
    "TJ-PR": "https://api-publica.datajud.cnj.jus.br/api_publica_tjpr/_search",
    "TJ-RJ": "https://api-publica.datajud.cnj.jus.br/api_publica_tjrj/_search",
    "TJ-RN": "https://api-publica.datajud.cnj.jus.br/api_publica_tjrn/_search",
    "TJ-RO": "https://api-publica.datajud.cnj.jus.br/api_publica_tjro/_search",
    "TJ-RR": "https://api-publica.datajud.cnj.jus.br/api_publica_tjrr/_search",
    "TJ-RS": "https://api-publica.datajud.cnj.jus.br/api_publica_tjrs/_search",
    "TJ-SC": "https://api-publica.datajud.cnj.jus.br/api_publica_tjsc/_search",
    "TJ-SE": "https://api-publica.datajud.cnj.jus.br/api_publica_tjse/_search",
    "TJ-SP": "https://api-publica.datajud.cnj.jus.br/api_publica_tjsp/_search",
    "TJ-TO": "https://api-publica.datajud.cnj.jus.br/api_publica_tjto/_search",
    "TRT-1": "https://api-publica.datajud.cnj.jus.br/api_publica_trt1/_search",
    "TRT-2": "https://api-publica.datajud.cnj.jus.br/api_publica_trt2/_search",
    "TRT-3": "https://api-publica.datajud.cnj.jus.br/api_publica_trt3/_search",
    "TRT-4": "https://api-publica.datajud.cnj.jus.br/api_publica_trt4/_search",
    "TRT-5": "https://api-publica.datajud.cnj.jus.br/api_publica_trt5/_search",
    "TRT-6": "https://api-publica.datajud.cnj.jus.br/api_publica_trt6/_search",
    "TRT-7": "https://api-publica.datajud.cnj.jus.br/api_publica_trt7/_search",
    "TRT-8": "https://api-publica.datajud.cnj.jus.br/api_publica_trt8/_search",
    "TRT-9": "https://api-publica.datajud.cnj.jus.br/api_publica_trt9/_search",
    "TRT-10": "https://api-publica.datajud.cnj.jus.br/api_publica_trt10/_search",
    "TRT-11": "https://api-publica.datajud.cnj.jus.br/api_publica_trt11/_search",
    "TRT-12": "https://api-publica.datajud.cnj.jus.br/api_publica_trt12/_search",
    "TRT-13": "https://api-publica.datajud.cnj.jus.br/api_publica_trt13/_search",
    "TRT-14": "https://api-publica.datajud.cnj.jus.br/api_publica_trt14/_search",
    "TRT-15": "https://api-publica.datajud.cnj.jus.br/api_publica_trt15/_search",
    "TRT-16": "https://api-publica.datajud.cnj.jus.br/api_publica_trt16/_search",
    "TRT-17": "https://api-publica.datajud.cnj.jus.br/api_publica_trt17/_search",
    "TRT-18": "https://api-publica.datajud.cnj.jus.br/api_publica_trt18/_search",
    "TRT-19": "https://api-publica.datajud.cnj.jus.br/api_publica_trt19/_search",
    "TRT-20": "https://api-publica.datajud.cnj.jus.br/api_publica_trt20/_search",
    "TRT-21": "https://api-publica.datajud.cnj.jus.br/api_publica_trt21/_search",
    "TRT-22": "https://api-publica.datajud.cnj.jus.br/api_publica_trt22/_search",
    "TRT-23": "https://api-publica.datajud.cnj.jus.br/api_publica_trt23/_search",
    "TRT-24": "https://api-publica.datajud.cnj.jus.br/api_publica_trt24/_search",
    "TNU": "https://api-publica.datajud.cnj.jus.br/api_publica_tnu/_search",
    "TRE-PR": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-pr/_search",
    "TRE-RN": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-rn/_search",
    "TRE-MG": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-mg/_search",
    "TRE-ES": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-es/_search",
    "TRE-PB": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-pb/_search",
    "TRE-SP": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-sp/_search",
    "TRE-CE": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-ce/_search",
    "TRE-GO": "https://api-publica.datajud.cnj.jus.br/api_publica_tre-go/_search"
}






In [3]:
numero_processo_limpo = clean_processo_espaco('10373526920238260001 SÃO PAULO')
numero_processo_limpo

'10373526920238260001'

Tribunais que não consegui identificar endpoint

OBTENDO O ENDEREÇO DOS ENDPOINTS E ARMAZENANDO NA TABELA PARA CONSULTA POSTERIOR

In [4]:
import psycopg2

# Conecte-se ao banco de dados
conn = psycopg2.connect(
    host="localhost",
    database="postgres",
    user="postgres",
    password="admin",    
    port= '5432'
)

# Ative o autocommit para garantir que cada update seja comitado automaticamente
conn.autocommit = True

# Crie um cursor para executar consultas
cur = conn.cursor()

# Execute a consulta SQL para selecionar os números de processo e os tribunais que não tem o endpoint determinado
cur.execute('SELECT numero_processo_limpo, tribunal FROM processos where endpoint is null and qtd_tokens_ementa > 100')

# Busque todos os resultados
processos = cur.fetchall()

# Para cada número de processo e tribunal, limpe e faça o split, e atualize o endpoint
for processo in processos:
    numero_processo = processo[0]  # Cada linha retorna uma tupla, pegue o primeiro valor (numero_processo)
    tribunal = processo[1]  # O segundo valor é o tribunal

    print(numero_processo)  # Imprime os números

    # Identifica o endpoint com base no tribunal
    endpoint = endpoints.get(tribunal, None)  # Obtém o endpoint a partir do dicionário, retorna None se não encontrar

    # Atualiza a tabela com o endpoint
    if endpoint:
        cur.execute('UPDATE public.processos_jusbrasil_unicos SET endpoint = %s WHERE numero_processo = %s', (endpoint, numero_processo))
        print(f" {endpoint}")
    else:
        print(f"Tribunal {tribunal} não encontrado para o processo {numero_processo}")

    # Confirma as alterações a cada update para não acumular na memória
    conn.commit()

    # Limpa a saída para mostrar atualizações em tempo real (opcional, útil em notebooks)
    clear_output(wait=True)

# Feche o cursor e a conexão
cur.close()
conn.close()


DEN 1092623
Tribunal TCE-MG não encontrado para o processo DEN 1092623


Alguns tribunais não tem endpoint:

select distinct(tribunal), count(*) endpoint from processos_jusbrasil_unicos where endpoint is null group by tribunal
Tribunal qtd processos
"STF"	    20
"TCE-MG"	6
"TCE-MS"	13
"TCE-PE"	59
"TCE-PR"	1
"TCU"	    3
"TRE-BA"	1
"TRE-RJ"	2
"TRE-SC"	1
"TRE-TO"	2

IDENTIFICANDO DA LISTA DOS NUMEROS DE PROCESSO QUAL É O POSSÍVEL DE CONSULTAR NO DATAJUD E ARMAZENANDO os dados dele

In [5]:
import requests
import json
import psycopg2
from IPython.display import clear_output

def clean_processo(numero_processo):
    # Remove todos os caracteres que não são números ou espaços
    numero_processo = numero_processo.replace("  ", ". ")
    return re.sub(r'[^0-9\s]', '', numero_processo)

def split_processo(numero_processo_limpo):
    # Divide o número do processo no espaço e retorna uma lista de partes
    numeros = numero_processo_limpo.split(' ')
    lista_limpa = [item for item in numeros if item]
    return lista_limpa

# Função para processar e inserir os dados no banco
def processa_e_insere_dados(response, numero_processo, cursor, conn):
    if response.status_code == 200:
        try:
            json_response = response.json()
        except json.JSONDecodeError:
            print(f"Resposta inválida em JSON para o processo {numero_processo}")
            return

        if json_response.get('hits', {}).get('total', {}).get('value', 0) > 0:
            dados = json_response['hits']['hits'][0]['_source']

            # Extraindo informações
            codigo_municipio = dados.get('orgaoJulgador', {}).get('codigoMunicipioIBGE')
            tribunal = dados.get('tribunal')
            data_hora_atualizacao = dados.get('dataHoraUltimaAtualizacao')
            grau = dados.get('grau')
            data_ajuizamento = dados.get('dataAjuizamento')
            nivel_sigilo = dados.get('nivelSigilo')
            formato_codigo = dados.get('formato', {}).get('codigo')
            formato_nome = dados.get('formato', {}).get('nome')
            sistema_codigo = dados.get('sistema', {}).get('codigo')
            sistema_nome = dados.get('sistema', {}).get('nome')
            orgao_julgador = json.dumps(dados.get('orgaoJulgador', {}))  # Salvando orgaoJulgador como JSON
            assunto_codigo = None
            assunto_nome = None
            segundo_assunto_codigo = None
            segundo_assunto_nome = None

            # Processando movimentos e convertendo para string JSON
            movimentos = json.dumps(dados.get('movimentos', []))  # Salvando movimentos como JSON

            # Processamento dos 'assuntos'
            try:
                if 'assuntos' in dados and dados['assuntos']:
                    primeiro_assunto = dados['assuntos'][0]
                    assunto_codigo = primeiro_assunto.get('codigo')
                    assunto_nome = primeiro_assunto.get('nome')

                    # Verifica se existe um segundo assunto na lista
                    if len(dados['assuntos']) > 1:
                        segundo_assunto = dados['assuntos'][1]
                        segundo_assunto_codigo = segundo_assunto.get('codigo')
                        segundo_assunto_nome = segundo_assunto.get('nome')
                    else:
                        segundo_assunto_codigo = None
                        segundo_assunto_nome = None

                else:
                    assunto_codigo = None
                    assunto_nome = None
                    segundo_assunto_codigo = None
                    segundo_assunto_nome = None

            except Exception as e:
                assunto_codigo = None
                assunto_nome = None
                segundo_assunto_codigo = None
                segundo_assunto_nome = None
                print(f"Erro ao processar 'assuntos' para o processo {numero_processo}: {e}")

            # Inserindo dados no banco de dados
            cursor.execute("""
                INSERT INTO public.processos_datajud (
                    numeroprocesso, classe_nome, codigomunicipioibge, tribunal, 
                    datahoraultimaatualizacao, grau, dataajuizamento, assunto_codigo, 
                    assunto_nome, nivelSigilo, formato_codigo, formato_nome, sistema_codigo, sistema_nome, 
                    orgaoJulgador, movimentos,
                    assunto_codigo_2, assunto_nome_2
                ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            """, (
                dados.get('numeroProcesso'),
                dados.get('classe', {}).get('nome'),
                codigo_municipio,
                tribunal,
                data_hora_atualizacao,
                grau,
                data_ajuizamento,
                assunto_codigo,
                assunto_nome,
                nivel_sigilo,
                formato_codigo,
                formato_nome,
                sistema_codigo,
                sistema_nome,
                orgao_julgador,  # orgaoJulgador como JSON string
                movimentos,  # movimentos como JSON string
                segundo_assunto_codigo,
                segundo_assunto_nome
            ))

            conn.commit()  # Commit após cada inserção
            print(f"Dados inseridos para o processo: {numero_processo}")
        else:
            print(f"Nenhum dado encontrado para o processo: {numero_processo}")
    else:
        print(f"Erro ao consultar o processo {numero_processo}: {response.status_code} - {response.text}")


def consulta():

    # Conecte-se ao banco de dados
    conn = psycopg2.connect(
        host="localhost",
        database="postgres",
        user="postgres",
        password="admin",    
        port= '5432'
    )

    # Crie um cursor para executar consultas
    cur = conn.cursor()
    contador = 0

    # Execute a consulta SQL para selecionar os números de processo, tribunais e endpoints que não foram consultados
    cur.execute('''
    SELECT jus.numero_processo, jus.tribunal, jus.endpoint, jud.numeroprocesso, jus.id
    FROM public.processos_jusbrasil_unicos jus
    LEFT JOIN processos_datajud jud 
    ON jus.processo_consulta = jud.numeroprocesso
    WHERE jud.numeroprocesso IS NULL and endpoint is not null  order by id desc;
    ''')

    # Busque todos os resultados
    processos = cur.fetchall()

    # Para cada número de processo, tribunal e endpoint, consulte o Datajud
    for processo in processos:
        contador += 1
        numero_processo_original = processo[0]  # Número do processo original (sem tratamento)
        tribunal = processo[1]                  # Tribunal (ex.: "TRF1", "TST", etc.)
        endpoint = processo[2]                  # Endpoint para o tribunal correspondente
        if(numero_processo_original):
            # Limpa o número do processo
            numero_processo_limpo = clean_processo(numero_processo_original)

            # Faz o split do número limpo
            numeros = split_processo(numero_processo_limpo)

            print(f"Números Limpos: {numeros}")  # Imprime os números após o split

            if endpoint:  # Verifica se o endpoint está presente
                processo_encontrado = None

                # Itera sobre todos os números de processos limpos
                for numero in numeros:
                    numero = clean_processo_espaco(numero)
                    payload = json.dumps({
                        "query": {
                            "match": {
                                "numeroProcesso": numero
                            }
                        }
                    })

                    headers = {
                        'Authorization': 'APIKey cDZHYzlZa0JadVREZDJCendQbXY6SkJlTzNjLV9TRENyQk1RdnFKZGRQdw==',
                        'Content-Type': 'application/json'
                    }

                    # Consulta à API do Datajud
                    response = requests.post(endpoint, headers=headers, data=payload)

                    if response.status_code == 200:
                        response_json = response.json()
                        hits_total_value = response_json.get("hits", {}).get("total", {}).get("value", 0)

                        if hits_total_value > 0:
                            processo_encontrado = numero
                            print(f"Processo {numero} retornou {hits_total_value} resultados.")
                            break  # Interrompe a busca ao encontrar um processo válido
                    else:
                        print(f"Erro na consulta à API do Datajud para o processo {numero}. Status code: {response.status_code}")

                if processo_encontrado:
                    cur.execute('UPDATE public.processos_jusbrasil_unicos SET processo_consulta = %s WHERE numero_processo = %s', (processo_encontrado, numero_processo_original))
                    conn.commit()
                    processa_e_insere_dados(response, processo_encontrado, cur, conn)
                    clear_output(wait=True)
                    print(f"Registro = '{contador}'")

                else:
                    print(f"Nenhum processo válido encontrado para {numero_processo_original}.")
                    clear_output(wait=True)
        else:
            print(f"Endpoint não encontrado para o tribunal {tribunal} no processo {numero_processo_original}")

    # Feche o cursor e a conexão
    cur.close()
    conn.close()


In [6]:
def processa_e_insere_dados(response, numero_processo, cursor, conn):
    if response.status_code == 200:
        try:
            json_response = response.json()
        except json.JSONDecodeError:
            print(f"Resposta inválida em JSON para o processo {numero_processo}")
            return

        if json_response.get('hits', {}).get('total', {}).get('value', 0) > 0:
            dados = json_response['hits']['hits'][0]['_source']

            # Verifique se o processo já existe na tabela
            cursor.execute("SELECT 1 FROM public.processos_datajud WHERE numeroprocesso = %s", (dados.get('numeroProcesso'),))
            if cursor.fetchone():
                print(f"Processo {numero_processo} já existe na tabela `processos_datajud`. Ignorando inserção.")
                return

            # Extraindo informações
            codigo_municipio = dados.get('orgaoJulgador', {}).get('codigoMunicipioIBGE')
            tribunal = dados.get('tribunal')
            data_hora_atualizacao = dados.get('dataHoraUltimaAtualizacao')
            grau = dados.get('grau')
            data_ajuizamento = dados.get('dataAjuizamento')
            nivel_sigilo = dados.get('nivelSigilo')
            formato_codigo = dados.get('formato', {}).get('codigo')
            formato_nome = dados.get('formato', {}).get('nome')
            sistema_codigo = dados.get('sistema', {}).get('codigo')
            sistema_nome = dados.get('sistema', {}).get('nome')
            orgao_julgador = json.dumps(dados.get('orgaoJulgador', {}))  # Salvando orgaoJulgador como JSON
            assunto_codigo = None
            assunto_nome = None
            segundo_assunto_codigo = None
            segundo_assunto_nome = None

            # Processando movimentos e convertendo para string JSON
            movimentos = json.dumps(dados.get('movimentos', []))  # Salvando movimentos como JSON

            # Processamento dos 'assuntos'
            try:
                if 'assuntos' in dados and dados['assuntos']:
                    primeiro_assunto = dados['assuntos'][0]
                    assunto_codigo = primeiro_assunto.get('codigo')
                    assunto_nome = primeiro_assunto.get('nome')

                    # Verifica se existe um segundo assunto na lista
                    if len(dados['assuntos']) > 1:
                        segundo_assunto = dados['assuntos'][1]
                        segundo_assunto_codigo = segundo_assunto.get('codigo')
                        segundo_assunto_nome = segundo_assunto.get('nome')
                    else:
                        segundo_assunto_codigo = None
                        segundo_assunto_nome = None

            except Exception as e:
                print(f"Erro ao processar 'assuntos' para o processo {numero_processo}: {e}")

            # Inserindo dados no banco de dados
            cursor.execute("""
                INSERT INTO public.processos_datajud (
                    numeroprocesso, classe_nome, codigomunicipioibge, tribunal, 
                    datahoraultimaatualizacao, grau, dataajuizamento, assunto_codigo, 
                    assunto_nome, nivelSigilo, formato_codigo, formato_nome, sistema_codigo, sistema_nome, 
                    orgaoJulgador, movimentos,
                    assunto_codigo_2, assunto_nome_2
                ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            """, (
                dados.get('numeroProcesso'),
                dados.get('classe', {}).get('nome'),
                codigo_municipio,
                tribunal,
                data_hora_atualizacao,
                grau,
                data_ajuizamento,
                assunto_codigo,
                assunto_nome,
                nivel_sigilo,
                formato_codigo,
                formato_nome,
                sistema_codigo,
                sistema_nome,
                orgao_julgador,  # orgaoJulgador como JSON string
                movimentos,  # movimentos como JSON string
                segundo_assunto_codigo,
                segundo_assunto_nome
            ))

            conn.commit()  # Commit após cada inserção
            print(f"Dados inseridos para o processo: {numero_processo}")
        else:
            print(f"Nenhum dado encontrado para o processo: {numero_processo}")
    else:
        print(f"Erro ao consultar o processo {numero_processo}: {response.status_code} - {response.text}")

In [7]:
import time
def executar_periodicamente():
    while True:
        consulta()
        # Aguarda 10 minutois antes de executar novamente
        time.sleep(600)

In [None]:
executar_periodicamente()

Números Limpos: ['00241807120155240031']
Nenhum processo válido encontrado para 0024180-71.2015.5.24.0031.


# Apagar os processos repetidos

WITH duplicados AS (
    SELECT 
        id,
        ROW_NUMBER() OVER (PARTITION BY processo_consulta ORDER BY id) AS rn
    FROM 
        processos.processos_unicos_chave
)
DELETE FROM processos.processos_unicos_chave
WHERE id IN (
    -- Apaga os duplicados, mantendo apenas o primeiro registro de cada grupo de 'processo_consulta'
    SELECT id
    FROM duplicados
    WHERE rn > 1
)
OR id IN (
    -- Apaga registros onde 'processo_consulta' está vazio ou 'ementa_completa' tem menos de 200 caracteres
    SELECT id
    FROM processos.processos_unicos_chave
    WHERE processo_consulta IS NULL
    OR processo_consulta = ''
);

