# BIBLIOTECAS

In [37]:
import pandas as pd
import numpy as np
import glob
import os

# CARREGAMENTO

## CARREGAMENTO, LIMPEZA E TRATAMENTO DOS ARQUIVOS INDIVIDUALMENTE

### 1 - arquivo_csv_1:

In [38]:
arquivo_csv_1 = ('uploads/analise_txcg_2025.csv')
df_1 = pd.read_csv(arquivo_csv_1, sep='#', encoding='utf-8')
print(df_1.shape)

# Limpeza e tratamento das datas do arquivo_csv_1
# 1. Converter as colunas de data para datetime
df_1['data_distribuicao'] = pd.to_datetime(df_1['data_distribuicao'], errors='coerce')
df_1['data_baixa'] = pd.to_datetime(df_1['data_baixa'], errors='coerce')

# 2. Verificar quantas datas inválidas temos
print(f"\nDatas inválidas na conversão:")
print(f"- data_distribuicao: {df_1['data_distribuicao'].isna().sum()} valores NaT")
print(f"- data_baixa: {df_1['data_baixa'].isna().sum()} valores NaT")

# 3. Extrair o ano de cada data
df_1['ano_distribuicao'] = df_1['data_distribuicao'].dt.year
df_1['ano_baixa'] = df_1['data_baixa'].dt.year

# 4. Fazer a limpeza: manter apenas registros em que:
#    - ano_distribuicao <= ANO (ou é NaN)
#    - ano_baixa == ANO (ou é NaN)
ANO = 2025
df_limpo1 = df_1[
    (
        (df_1['ano_distribuicao'] <= ANO)
    ) & 
    (
        (df_1['ano_baixa'] == ANO) | 
        (df_1['ano_baixa'].isna())
    )
].copy()

print(f"\nShape após limpeza: {df_limpo1.shape}")
print(f"Registros removidos: {len(df_1) - len(df_limpo1)}")

# 5. Verificação detalhada
print(f"\nVerificação dos anos nas datas:")
print(f"Anos únicos em data_distribuicao: {sorted(df_limpo1['ano_distribuicao'].dropna().unique().astype(int))}")
print(f"Anos únicos em data_baixa: {sorted(df_limpo1['ano_baixa'].dropna().unique().astype(int))}")

# 6. Mostrar exemplos de registros removidos (se houver)
if len(df_1) > len(df_limpo1):
    df_removidos = df_1[~df_1.index.isin(df_limpo1.index)]
    print(f"\nExemplo de registros removidos:")
    print(df_removidos[['data_distribuicao', 'data_baixa', 'ano_distribuicao', 'ano_baixa']].head())
    
    # Contar motivo da remoção
    print(f"\nMotivo da remoção:")
    # Distribuição > ANO
    ANO = 2025
    dist_maior_ANO = df_1[df_1['ano_distribuicao'] > ANO]
    dist_nula = df_1[df_1['ano_distribuicao'].isna()]
    baixa_maior_ANO = df_1[df_1['ano_baixa'] > ANO]
    baixa_menor_ANO = df_1[df_1['ano_baixa'] < ANO]

    print(f"- data_distribuicao > {ANO}: {len(dist_maior_ANO)} registros")
    print(f"- data_distribuicao NULA: {len(dist_nula)} registros")
    print(f"- data_baixa > {ANO}: {len(baixa_maior_ANO)} registros")
    print(f"- data_baixa < {ANO}: {len(baixa_menor_ANO)} registros")
    
    # Intersecção (ambos > ANO)
    ambos_maior_ANO = df_1[(df_1['ano_distribuicao'] > ANO) & (df_1['ano_baixa'] > ANO)]
    print(f"- ambos > {ANO}: {len(ambos_maior_ANO)} registros")

# 7. Opcional: Remover as colunas auxiliares de ano se não precisar mais
# df_limpo = df_limpo.drop(columns=['ano_distribuicao', 'ano_baixa'])

# 8. Mostrar estatísticas do dataframe limpo
print(f"\n{'='*50}")
print("RESUMO DO DATAFRAME LIMPO:")
print(f"{'='*50}")
print(f"Total de registros: {len(df_limpo1)}")
print(f"Total de colunas: {len(df_limpo1.columns)}")
print(f"\nPrimeiras linhas:")
print(df_limpo1.head())
print(f"\nTipos de dados:")
print(df_limpo1.dtypes)

# 9. Verificar valores nulos nas datas
print(f"\nValores nulos nas datas (após limpeza):")
print(f"- data_distribuicao: {df_limpo1['data_distribuicao'].isna().sum()} nulos ({df_limpo1['data_distribuicao'].isna().sum()/len(df_limpo1)*100:.1f}%)")
print(f"- data_baixa: {df_limpo1['data_baixa'].isna().sum()} nulos ({df_limpo1['data_baixa'].isna().sum()/len(df_limpo1)*100:.1f}%)")

  df_1 = pd.read_csv(arquivo_csv_1, sep='#', encoding='utf-8')


(3053996, 64)

Datas inválidas na conversão:
- data_distribuicao: 2 valores NaT
- data_baixa: 1532336 valores NaT

Shape após limpeza: (3052502, 66)
Registros removidos: 1494

Verificação dos anos nas datas:
Anos únicos em data_distribuicao: [np.int64(1858), np.int64(1920), np.int64(1932), np.int64(1939), np.int64(1941), np.int64(1944), np.int64(1948), np.int64(1952), np.int64(1953), np.int64(1956), np.int64(1958), np.int64(1959), np.int64(1963), np.int64(1964), np.int64(1965), np.int64(1966), np.int64(1967), np.int64(1968), np.int64(1969), np.int64(1970), np.int64(1971), np.int64(1972), np.int64(1973), np.int64(1974), np.int64(1975), np.int64(1976), np.int64(1977), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(1985), np.int64(1986), np.int64(1987), np.int64(1988), np.int64(1989), np.int64(1990), np.int64(1991), np.int64(1992), np.int64(1993), np.int64(1994), np.int64(1995), np.int64(1996), np.int64(1997), np.in

In [40]:
df_limpo1.sample(5)

Unnamed: 0,processo_id,comarca,comarca_id,entrancia,serventia,codg_serventia_cnj,vara_oficial_id,origem,is_conhecimento,grupo_cnj_id,...,data_remessa_instancia_inferior,is_desconsiderar_estatistica,is_acao_coletiva,data_julgamento_considerada,gabinete,codg_gabinete_cnj,gabinete_codigo_cnj,vara_oficial_codigo_cnj,ano_distribuicao,ano_baixa
2087082,1568469,NERÓPOLIS,84,INTERMEDIÁRIA,"2ª Vara Judicial (Fazendas Públicas, Criminal,...",,9143,PROJUDI,f,4,...,,f,f,,,,,85135,2007.0,
1014332,60589,GOIÂNIA,47,FINAL,1º CEJUSC DOS PARCEIROS,,10723,PROJUDI,t,9,...,,f,f,2025-12-10,,,,90488,2025.0,2025.0
2858256,7490737,TRIBUNAL DE JUSTIÇA,128,FINAL,VICE-PRESIDÊNCIA DO TRIBUNAL DE JUSTIÇA,GAB22222GO,10030,PROJUDI,f,8,...,,f,f,2025-08-28,VICE-PRESIDÊNCIA DO TRIBUNAL DE JUSTIÇA,GAB22222GO,87841.0,87841,2025.0,
2733319,6257741,TRIBUNAL DE JUSTIÇA,128,FINAL,GABINETE DES. JEOVA SARDINHA DE MORAES,GAB39784GO,434,PROJUDI,f,8,...,,f,f,2024-10-31,GABINETE DES. JEOVA SARDINHA DE MORAES,GAB39784GO,52590.0,52590,2024.0,2025.0
2750747,5860257,TRIBUNAL DE JUSTIÇA,128,FINAL,GABINETE DES. JOSÉ RICARDO MARCOS MACHADO,GAB00041GO,9819,PROJUDI,f,8,...,,f,f,2024-11-12,GABINETE DES. JOSÉ RICARDO MARCOS MACHADO,GAB00041GO,87400.0,87400,2024.0,2025.0


In [41]:
# Validação do dataframe
df_limpo1.info()
df_limpo_distribuicao = df_limpo1[(df_limpo1['ano_distribuicao'] == 2026)].head(10)
df_limpo_baixa = df_limpo1[(df_limpo1['ano_baixa'] == 2026)].head(10)

print('###################### data_distribuicao com ano ######################')
print(df_limpo_distribuicao)
print('######################### data_baixa com ano ##########################')
print(df_limpo_baixa)

<class 'pandas.core.frame.DataFrame'>
Index: 3052502 entries, 0 to 3053995
Data columns (total 66 columns):
 #   Column                           Dtype         
---  ------                           -----         
 0   processo_id                      int64         
 1   comarca                          object        
 2   comarca_id                       int64         
 3   entrancia                        object        
 4   serventia                        object        
 5   codg_serventia_cnj               object        
 6   vara_oficial_id                  int64         
 7   origem                           object        
 8   is_conhecimento                  object        
 9   grupo_cnj_id                     int64         
 10  is_recurso                       object        
 11  processo                         object        
 12  natureza                         object        
 13  codg_natureza                    float64       
 14  fase                             object

In [42]:
# Gerar o arquivo analise_txcg_ANO_clean.csv limpo
output_filename_csv_1 = 'dataclean/analise_txcg_2025_clean.csv'
os.makedirs(os.path.dirname(output_filename_csv_1), exist_ok=True)
df_limpo1.to_csv(output_filename_csv_1, index=False, sep='#', encoding='utf-8-sig')

# CARREGAMENTO POR ARQUIVO CSV

In [89]:
arquivo_csv = ('dataclean/analise_txcg_2020_clean.csv')
df = pd.read_csv(arquivo_csv, sep='#', encoding='utf-8')
print(df.shape)

  df = pd.read_csv(arquivo_csv, sep='#', encoding='utf-8')


(2717327, 66)


# VALIDAÇÕES RÁPIDAS

In [90]:
df.head()

Unnamed: 0,processo_id,comarca,comarca_id,entrancia,serventia,codg_serventia_cnj,vara_oficial_id,origem,is_conhecimento,grupo_cnj_id,...,data_remessa_instancia_inferior,is_desconsiderar_estatistica,is_acao_coletiva,data_julgamento_considerada,gabinete,codg_gabinete_cnj,gabinete_codigo_cnj,vara_oficial_codigo_cnj,ano_distribuicao,ano_baixa
0,4879723,ABADIÂNIA,1,INICIAL,Vara Judicial,SJ100002GO,42,PROJUDI,t,4,...,,f,f,2020-05-25,,,,11501,2016,2020.0
1,8022271,ABADIÂNIA,1,INICIAL,Vara Judicial,SJ100002GO,42,PROJUDI,t,1,...,,f,f,,,,,11501,2020,
2,8192850,ABADIÂNIA,1,INICIAL,Vara Judicial,SJ100002GO,42,PROJUDI,t,4,...,,f,f,,,,,11501,2020,
3,3761744,ABADIÂNIA,1,INICIAL,Vara Judicial,SJ100002GO,42,SPG,f,4,...,,f,f,2020-08-07,,,,11501,2019,2020.0
4,7228992,ABADIÂNIA,1,INICIAL,Vara Judicial,SJ100002GO,42,PROJUDI,f,4,...,,f,f,,,,,11501,2009,


In [91]:
pendentes = df[
    (df['nome_area_acao'] == 'civel') & 
    (df['comarca'] == 'INHUMAS')
]['data_baixa'].isna().sum()

print(f"Quantidade de valores nulos em 'data_baixa': {pendentes}")

Quantidade de valores nulos em 'data_baixa': 2733


In [45]:
# SERVENTIA 
pendentes = df[
    (df['serventia'] == '1ª Vara Cível') & 
    (df['comarca'] == 'ANÁPOLIS')
]['data_baixa'].isna().sum()

print(f"Quantidade de valores nulos em 'data_baixa': {pendentes}")

Quantidade de valores nulos em 'data_baixa': 4857


In [92]:
baixados = df[
    (df['nome_area_acao'] == 'civel') & 
    (df['comarca'] == 'INHUMAS')
]['data_baixa'].notna().sum()

print(f"Quantidade de valores não-nulos em 'data_baixa': {baixados}")

Quantidade de valores não-nulos em 'data_baixa': 706


In [46]:
# SERVENTIA
baixados = df[
    (df['serventia'] == '1ª Vara Cível') & 
    (df['comarca'] == 'ANÁPOLIS')
]['data_baixa'].notna().sum()

print(f"Quantidade de valores não-nulos em 'data_baixa': {baixados}")

Quantidade de valores não-nulos em 'data_baixa': 2061


# LIMPEZA E TRATAMENTO

In [93]:
# Verificar o nome correto das colunas (pode haver diferenças de acentuação ou espaços)
colunas = df.columns.tolist()

# Encontrar as colunas de data corretamente
coluna_serventia = [col for col in colunas if 'serventia' in col.lower()][0]
coluna_distribuicao = [col for col in colunas if 'data_distribuicao' in col.lower()][0]
coluna_baixa = [col for col in colunas if 'data_baixa' in col.lower()][0]
coluna_area_acao = [col for col in colunas if 'nome_area_acao' in col.lower()][0]
coluna_processo_id = [col for col in colunas if 'processo_id' in col.lower()][0]
coluna_comarca = [col for col in colunas if 'comarca' in col.lower()][0]

# Renomear colunas para garantir consistência
df = df.rename(columns={
coluna_distribuicao: 'data_distribuicao',
coluna_baixa: 'data_baixa',
coluna_area_acao: 'nome_area_acao',
coluna_processo_id: 'numero',
coluna_comarca: 'comarca',
coluna_serventia: 'serventia'
})

# DATASETS DE ESTATÍSTICAS (ANUAL) >> Comarca >> Área de Ação

In [94]:
# Gerando o Dataframe com a Taxa de Congestionamento Anual:
# 0) Garantir datetime
df['data_distribuicao'] = pd.to_datetime(df['data_distribuicao'], errors='coerce')
df['data_baixa'] = pd.to_datetime(df['data_baixa'], errors='coerce')

keys = ['comarca', 'nome_area_acao'] # Altere aqui para fazer os agrupamentos

# 1) Cópia 
df_f = df.copy()

# 2.1) Referência anual
df_f['ano_dist'] = df_f['data_distribuicao'].dt.to_period('Y')
df_f['ano_baixa'] = df_f['data_baixa'].dt.to_period('Y')

# 3.1) Fluxos anuais
# Distribuídos por ano (fluxo)
dist_ano_base = (
    df_f.groupby(keys + ['ano_dist'])
        .size()
        .rename('Distribuidos_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_dist': 'ano_ref'})
)

# Baixados por ano (fluxo)
baix_ano_base = (
    df_f.dropna(subset=['data_baixa'])
        .groupby(keys + ['ano_baixa'])
        .size()
        .rename('Baixados_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_baixa': 'ano_ref'})
)

# Calcular valores acumulados
# Distribuídos acumulados
dist_acum = dist_ano_base.copy()
dist_acum = dist_acum.sort_values(['comarca', 'nome_area_acao', 'ano_ref'])
dist_acum['Distribuidos_acum_ano'] = dist_acum.groupby(keys)['Distribuidos_fluxo_anual'].cumsum()

# Baixados acumulados
baix_acum = baix_ano_base.copy()
baix_acum = baix_acum.sort_values(['comarca', 'nome_area_acao', 'ano_ref'])
baix_acum['Baixados_acum_ano'] = baix_acum.groupby(keys)['Baixados_fluxo_anual'].cumsum()

# Pendentes acumulados = Distribuídos acumulados - Baixados acumulados
pend_acum = dist_acum[keys + ['ano_ref', 'Distribuidos_acum_ano']].copy()
pend_acum = pend_acum.merge(
    baix_acum[keys + ['ano_ref', 'Baixados_acum_ano']], 
    on=keys + ['ano_ref'], 
    how='left'
)
pend_acum['Baixados_acum_ano'] = pend_acum['Baixados_acum_ano'].fillna(0).astype(int)
pend_acum['Pendentes_acum_ano'] = pend_acum['Distribuidos_acum_ano'] - pend_acum['Baixados_acum_ano']

# 6.1) Dataframe anual (APENAS COM AS COLUNAS SOLICITADAS)
df_global_anual = dist_ano_base[['comarca', 'nome_area_acao', 'ano_ref', 'Distribuidos_fluxo_anual']].copy()

# Adicionar Baixados_fluxo_anual
df_global_anual = df_global_anual.merge(
    baix_ano_base[['comarca', 'nome_area_acao', 'ano_ref', 'Baixados_fluxo_anual']],
    on=['comarca', 'nome_area_acao', 'ano_ref'],
    how='left'
)

# Adicionar Pendentes_acum_ano
df_global_anual = df_global_anual.merge(
    pend_acum[['comarca', 'nome_area_acao', 'ano_ref', 'Pendentes_acum_ano']],
    on=['comarca', 'nome_area_acao', 'ano_ref'],
    how='left'
)

# Adicionar Distribuidos_acum_ano (apenas para cálculo, depois removemos)
df_global_anual = df_global_anual.merge(
    dist_acum[['comarca', 'nome_area_acao', 'ano_ref', 'Distribuidos_acum_ano']],
    on=['comarca', 'nome_area_acao', 'ano_ref'],
    how='left'
)

# Preencher NaN com 0 e Converter para int
df_global_anual['Baixados_fluxo_anual'] = df_global_anual['Baixados_fluxo_anual'].fillna(0).astype(int)
df_global_anual['Pendentes_acum_ano'] = df_global_anual['Pendentes_acum_ano'].fillna(0).astype(int)
df_global_anual['Distribuidos_fluxo_anual'] = df_global_anual['Distribuidos_fluxo_anual'].astype(int)
df_global_anual['Distribuidos_acum_ano'] = df_global_anual['Distribuidos_acum_ano'].astype(int)

# Renomear colunas EXATAMENTE como solicitado
df_global_anual = df_global_anual.rename(columns={
    'Distribuidos_fluxo_anual': 'Distribuidos_ano',
    'Baixados_fluxo_anual': 'Baixados_ano',
    'Pendentes_acum_ano': 'Pendentes_ano'
})

# Calcular taxa anual CORRETA: Pendentes_ano / Distribuidos_acum_ano
df_global_anual['Taxa_Cong_anual (%)'] = np.where(
    df_global_anual['Distribuidos_acum_ano'] > 0,
    (df_global_anual['Pendentes_ano'] / df_global_anual['Distribuidos_acum_ano']) * 100,
    0
).round(2)

# Remover a coluna auxiliar Distribuidos_acum_ano
df_global_anual = df_global_anual.drop('Distribuidos_acum_ano', axis=1)

# Ordenar por comarca, serventia e ano
df_global_anual = df_global_anual.sort_values(['comarca', 'nome_area_acao', 'ano_ref'])

# DATASETS DE ESTATÍSTICAS (ANUAL) >> Comarca >> Serventia

In [11]:
# Gerando o Dataframe com a Taxa de Congestionamento Anual:
# 0) Garantir datetime
df['data_distribuicao'] = pd.to_datetime(df['data_distribuicao'], errors='coerce')
df['data_baixa'] = pd.to_datetime(df['data_baixa'], errors='coerce')

keys = ['comarca', 'serventia'] # Altere aqui para fazer os agrupamentos

# 1) Cópia 
df_f = df.copy()

# 2.1) Referência anual
df_f['ano_dist'] = df_f['data_distribuicao'].dt.to_period('Y')
df_f['ano_baixa'] = df_f['data_baixa'].dt.to_period('Y')

# 3.1) Fluxos anuais
# Distribuídos por ano (fluxo)
dist_ano_base = (
    df_f.groupby(keys + ['ano_dist'])
        .size()
        .rename('Distribuidos_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_dist': 'ano_ref'})
)

# Baixados por ano (fluxo)
baix_ano_base = (
    df_f.dropna(subset=['data_baixa'])
        .groupby(keys + ['ano_baixa'])
        .size()
        .rename('Baixados_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_baixa': 'ano_ref'})
)

# Calcular valores acumulados
# Distribuídos acumulados
dist_acum = dist_ano_base.copy()
dist_acum = dist_acum.sort_values(['comarca', 'serventia', 'ano_ref'])
dist_acum['Distribuidos_acum_ano'] = dist_acum.groupby(keys)['Distribuidos_fluxo_anual'].cumsum()

# Baixados acumulados
baix_acum = baix_ano_base.copy()
baix_acum = baix_acum.sort_values(['comarca', 'serventia', 'ano_ref'])
baix_acum['Baixados_acum_ano'] = baix_acum.groupby(keys)['Baixados_fluxo_anual'].cumsum()

# Pendentes acumulados = Distribuídos acumulados - Baixados acumulados
pend_acum = dist_acum[keys + ['ano_ref', 'Distribuidos_acum_ano']].copy()
pend_acum = pend_acum.merge(
    baix_acum[keys + ['ano_ref', 'Baixados_acum_ano']], 
    on=keys + ['ano_ref'], 
    how='left'
)
pend_acum['Baixados_acum_ano'] = pend_acum['Baixados_acum_ano'].fillna(0).astype(int)
pend_acum['Pendentes_acum_ano'] = pend_acum['Distribuidos_acum_ano'] - pend_acum['Baixados_acum_ano']

# 6.1) Dataframe anual (APENAS COM AS COLUNAS SOLICITADAS)
df_global_anual = dist_ano_base[['comarca', 'serventia', 'ano_ref', 'Distribuidos_fluxo_anual']].copy()

# Adicionar Baixados_fluxo_anual
df_global_anual = df_global_anual.merge(
    baix_ano_base[['comarca', 'serventia', 'ano_ref', 'Baixados_fluxo_anual']],
    on=['comarca', 'serventia', 'ano_ref'],
    how='left'
)

# Adicionar Pendentes_acum_ano
df_global_anual = df_global_anual.merge(
    pend_acum[['comarca', 'serventia', 'ano_ref', 'Pendentes_acum_ano']],
    on=['comarca', 'serventia', 'ano_ref'],
    how='left'
)

# Adicionar Distribuidos_acum_ano (apenas para cálculo, depois removemos)
df_global_anual = df_global_anual.merge(
    dist_acum[['comarca', 'serventia', 'ano_ref', 'Distribuidos_acum_ano']],
    on=['comarca', 'serventia', 'ano_ref'],
    how='left'
)

# Preencher NaN com 0 e Converter para int
df_global_anual['Baixados_fluxo_anual'] = df_global_anual['Baixados_fluxo_anual'].fillna(0).astype(int)
df_global_anual['Pendentes_acum_ano'] = df_global_anual['Pendentes_acum_ano'].fillna(0).astype(int)
df_global_anual['Distribuidos_fluxo_anual'] = df_global_anual['Distribuidos_fluxo_anual'].astype(int)
df_global_anual['Distribuidos_acum_ano'] = df_global_anual['Distribuidos_acum_ano'].astype(int)

# Renomear colunas EXATAMENTE como solicitado
df_global_anual = df_global_anual.rename(columns={
    'Distribuidos_fluxo_anual': 'Distribuidos_ano',
    'Baixados_fluxo_anual': 'Baixados_ano',
    'Pendentes_acum_ano': 'Pendentes_ano'
})

# Calcular taxa anual CORRETA: Pendentes_ano / Distribuidos_acum_ano
df_global_anual['Taxa_Cong_anual (%)'] = np.where(
    df_global_anual['Distribuidos_acum_ano'] > 0,
    (df_global_anual['Pendentes_ano'] / df_global_anual['Distribuidos_acum_ano']) * 100,
    0
).round(2)

# Remover a coluna auxiliar Distribuidos_acum_ano
df_global_anual = df_global_anual.drop('Distribuidos_acum_ano', axis=1)

# Ordenar por comarca, serventia e ano
df_global_anual = df_global_anual.sort_values(['comarca', 'serventia', 'ano_ref'])

In [95]:
# Validação mais refinada
ano_alvo = 2020
df_global_anual[
    (df_global_anual['comarca'] == 'INHUMAS') & 
    (df_global_anual['nome_area_acao'] == 'civel') &
    (df_global_anual['ano_ref'].dt.year == ano_alvo)
].head()

Unnamed: 0,comarca,nome_area_acao,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
10541,INHUMAS,civel,2020,876,706,2733,79.47


In [None]:
# Validação mais refinada sgrupado por SERVENTIA
ano_alvo = 2025
df_global_anual[
    (df_global_anual['comarca'] == 'ANÁPOLIS') & 
    (df_global_anual['serventia'] == '1ª Vara Cível') &
    (df_global_anual['ano_ref'].dt.year == ano_alvo)
].head()

Unnamed: 0,comarca,serventia,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
319,ANÁPOLIS,1ª Vara Cível,2025,2369,2061,4857,70.21


In [96]:
# Filtrando o ANO para exração ANUAL
ano_alvo = 2020
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
df_ano.head()

Unnamed: 0,comarca,nome_area_acao,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
20,ABADIÂNIA,civel,2020,164,192,688,78.18
39,ABADIÂNIA,criminal,2020,273,215,598,73.55
77,ABADIÂNIA,familia - interior,2020,191,202,471,69.99
112,ABADIÂNIA,fazenda publica mista,2020,96,133,1004,88.3
122,ABADIÂNIA,infancia e juventude civel,2020,9,15,25,62.5


In [17]:
# Filtrando o ANO para exração ANUAL agrupado SERVENTIA
ano_alvo = 2025
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
df_ano.head()

Unnamed: 0,comarca,serventia,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
26,ABADIÂNIA,Vara Judicial,2025,1938,2270,2781,55.06
59,ACREÚNA,"1ª Vara Judicial (Família e Sucessões, Infânci...",2025,1630,1816,1825,50.12
90,ACREÚNA,"2ª Vara Judicial (Fazendas Públicas, Criminal,...",2025,1212,1901,2457,56.38
125,ALEXÂNIA,Vara Judicial,2025,3827,5112,5957,53.82
160,ALTO PARAÍSO DE GOIÁS,Vara Judicial,2025,1813,2453,4490,64.67


# GRAVA ARQUIVO ANUAL NA PASTA RESULTS

In [97]:
# Grava cada arquivo ANUAL na pasta results
ano_alvo = 2020
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
os.makedirs("results", exist_ok=True)
df_ano.to_csv(f"results/tx_{ano_alvo}.csv", sep=",", index=False, encoding="utf-8-sig")

In [67]:
# Grava cada arquivo ANUAL agrupado por SERVENTIA na pasta results
ano_alvo = 2025
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
os.makedirs("results", exist_ok=True)
df_ano.to_csv(f"results/tx_serv_{ano_alvo}.csv", sep=",", index=False, encoding="utf-8-sig")

# MERGE DOS ARQUIVOS ANUAIS DA PASTA RESULTS

In [98]:
# Listar os arquivos CSV agrupados por ÁREA DE AÇÃO na pasta 'results'
arquivo_csv = glob.glob('results/tx_*.csv')
# Carregar os arquivos CSV e concatenar em um único DataFrame
dfs = []
for arquivo in arquivo_csv:  # lista/iterável com os caminhos tipo 'tx_2020.csv', 'tx_2021.csv', ...
    df_ano = pd.read_csv(arquivo, sep=',', encoding='utf-8')
    dfs.append(df_ano)

df_results_anual = pd.concat(dfs, ignore_index=True)

print(df_results_anual.shape)

(7691, 7)


In [68]:
# Listar os arquivos CSV agrupados por SERVENTIA na pasta 'results'
arquivo_csv = glob.glob('results/tx_serv_*.csv')
# Carregar os arquivos CSV e concatenar em um único DataFrame
dfs = []
for arquivo in arquivo_csv:  # lista/iterável com os caminhos tipo 'tx_2020.csv', 'tx_2021.csv', ...
    df_ano = pd.read_csv(arquivo, sep=',', encoding='utf-8')
    dfs.append(df_ano)

df_results_anual = pd.concat(dfs, ignore_index=True)

print(df_results_anual.shape)

(3309, 7)


In [101]:
# Validação Rápida do arquivo ANUAL concatenado
df_results_anual.sample(5)

Unnamed: 0,comarca,nome_area_acao,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
5799,ITAUÇU,civel,2024,79,80,347,81.26
1102,SANTA TEREZINHA DE GOIÁS,infancia e juventude civel,2020,5,4,10,71.43
854,NIQUELÂNDIA,familia - interior,2020,395,357,976,73.22
4334,GOIANDIRA,juizado especial criminal,2023,99,112,91,44.83
5638,GOIANÉSIA,juizado especial criminal,2024,376,315,667,67.92


# GRAVA ARQUIVO ANUAL CONCATENADO, NO FORMATO CSV, NA PASTA RESULTS_CONCAT

In [102]:
# Agrupados por ÁREA DE AÇÃO
os.makedirs("results_concat", exist_ok=True)
df_results_anual.to_csv("results_concat/tx_cong_anual.csv", sep=',', encoding='utf-8')

In [70]:
# Agrupados por SERVENTIA
os.makedirs("results_concat", exist_ok=True)
df_results_anual.to_csv("results_concat/tx_cong_anual_serv.csv", sep=',', encoding='utf-8')