# BIBLIOTECAS

In [1]:
import pandas as pd
import numpy as np
import glob
import os

# CARREGAMENTO

## CARREGAMENTO, LIMPEZA E TRATAMENTO DOS ARQUIVOS INDIVIDUALMENTE

### 1 - arquivo_csv_1:

In [11]:
arquivo_csv_1 = ('uploads/processos_1.csv')
df_1 = pd.read_csv(arquivo_csv_1, sep='#', encoding='utf-8')
print(df_1.shape)

# Limpeza e tratamento das datas do arquivo_csv_1
# 1. Converter as colunas de data para datetime
df_1['data_distribuicao'] = pd.to_datetime(df_1['data_distribuicao'], errors='coerce')
df_1['data_baixa'] = pd.to_datetime(df_1['data_baixa'], errors='coerce')

# 2. Verificar quantas datas inválidas temos
print(f"\nDatas inválidas na conversão:")
print(f"- data_distribuicao: {df_1['data_distribuicao'].isna().sum()} valores NaT")
print(f"- data_baixa: {df_1['data_baixa'].isna().sum()} valores NaT")

# 3. Extrair o ano de cada data
df_1['ano_distribuicao'] = df_1['data_distribuicao'].dt.year
df_1['ano_baixa'] = df_1['data_baixa'].dt.year

# 4. Fazer a limpeza: manter apenas registros em que:
#    - ano_distribuicao <= 2020 (ou é NaN)
#    - ano_baixa <= 2020 (ou é NaN)
df_limpo1 = df_1[
    (
        (df_1['ano_distribuicao'] <= 2020)
    ) & 
    (
        (df_1['ano_baixa'] == 2020) | 
        (df_1['ano_baixa'].isna())
    )
].copy()

print(f"\nShape após limpeza: {df_limpo1.shape}")
print(f"Registros removidos: {len(df_1) - len(df_limpo1)}")

# 5. Verificação detalhada
print(f"\nVerificação dos anos nas datas:")
print(f"Anos únicos em data_distribuicao: {sorted(df_limpo1['ano_distribuicao'].dropna().unique().astype(int))}")
print(f"Anos únicos em data_baixa: {sorted(df_limpo1['ano_baixa'].dropna().unique().astype(int))}")

# 6. Mostrar exemplos de registros removidos (se houver)
if len(df_1) > len(df_limpo1):
    df_removidos = df_1[~df_1.index.isin(df_limpo1.index)]
    print(f"\nExemplo de registros removidos:")
    print(df_removidos[['data_distribuicao', 'data_baixa', 'ano_distribuicao', 'ano_baixa']].head())
    
    # Contar motivo da remoção
    print(f"\nMotivo da remoção:")
    # Distribuição > 2020
    ANO = 2020
    dist_maior_ANO = df_1[df_1['ano_distribuicao'] > ANO]
    dist_nula = df_1[df_1['ano_distribuicao'].isna()]
    baixa_maior_ANO = df_1[df_1['ano_baixa'] > ANO]
    baixa_menor_ANO = df_1[df_1['ano_baixa'] < ANO]

    print(f"- data_distribuicao > {ANO}: {len(dist_maior_ANO)} registros")
    print(f"- data_distribuicao NULA: {len(dist_nula)} registros")
    print(f"- data_baixa > {ANO}: {len(baixa_maior_ANO)} registros")
    print(f"- data_baixa < {ANO}: {len(baixa_menor_ANO)} registros")
    
    # Intersecção (ambos > ANO)
    ambos_maior_ANO = df_1[(df_1['ano_distribuicao'] > ANO) & (df_1['ano_baixa'] > ANO)]
    print(f"- ambos > {ANO}: {len(ambos_maior_ANO)} registros")

# 7. Opcional: Remover as colunas auxiliares de ano se não precisar mais
# df_limpo = df_limpo.drop(columns=['ano_distribuicao', 'ano_baixa'])

# 8. Mostrar estatísticas do dataframe limpo
print(f"\n{'='*50}")
print("RESUMO DO DATAFRAME LIMPO:")
print(f"{'='*50}")
print(f"Total de registros: {len(df_limpo1)}")
print(f"Total de colunas: {len(df_limpo1.columns)}")
print(f"\nPrimeiras linhas:")
print(df_limpo1.head())
print(f"\nTipos de dados:")
print(df_limpo1.dtypes)

# 9. Verificar valores nulos nas datas
print(f"\nValores nulos nas datas (após limpeza):")
print(f"- data_distribuicao: {df_limpo1['data_distribuicao'].isna().sum()} nulos ({df_limpo1['data_distribuicao'].isna().sum()/len(df_limpo1)*100:.1f}%)")
print(f"- data_baixa: {df_limpo1['data_baixa'].isna().sum()} nulos ({df_limpo1['data_baixa'].isna().sum()/len(df_limpo1)*100:.1f}%)")

  df_1 = pd.read_csv(arquivo_csv_1, sep='#', encoding='utf-8')


(1318140, 64)

Datas inválidas na conversão:
- data_distribuicao: 0 valores NaT
- data_baixa: 552132 valores NaT

Shape após limpeza: (1318130, 66)
Registros removidos: 10

Verificação dos anos nas datas:
Anos únicos em data_distribuicao: [np.int64(1858), np.int64(1879), np.int64(1919), np.int64(1920), np.int64(1921), np.int64(1928), np.int64(1931), np.int64(1941), np.int64(1944), np.int64(1946), np.int64(1947), np.int64(1948), np.int64(1950), np.int64(1952), np.int64(1953), np.int64(1958), np.int64(1960), np.int64(1961), np.int64(1963), np.int64(1966), np.int64(1967), np.int64(1968), np.int64(1969), np.int64(1971), np.int64(1972), np.int64(1973), np.int64(1974), np.int64(1975), np.int64(1976), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(1985), np.int64(1986), np.int64(1987), np.int64(1988), np.int64(1989), np.int64(1990), np.int64(1991), np.int64(1992), np.int64(1993), np.int64(1994), np.int64(1995), np.int64

In [14]:
# Gerar o arquivo processos_1.csv limpo
output_filename_csv_1 = 'dataclean/processos_1.csv'
os.makedirs(os.path.dirname(output_filename_csv_1), exist_ok=True)
df_limpo1.to_csv(output_filename_csv_1, index=False, sep='#', encoding='utf-8-sig')

### 2 - arquivo_csv_2:

In [19]:
arquivo_csv_2 = ('uploads/processos_2.csv')
df_2 = pd.read_csv(arquivo_csv_2, sep='#', encoding='utf-8')
print(df_2.shape)

# Limpeza e tratamento das datas do arquivo_csv_1
# 1. Converter as colunas de data para datetime
df_2['data_distribuicao'] = pd.to_datetime(df_2['data_distribuicao'], errors='coerce')
df_2['data_baixa'] = pd.to_datetime(df_2['data_baixa'], errors='coerce')

# 2. Verificar quantas datas inválidas temos
print(f"\nDatas inválidas na conversão:")
print(f"- data_distribuicao: {df_2['data_distribuicao'].isna().sum()} valores NaT")
print(f"- data_baixa: {df_2['data_baixa'].isna().sum()} valores NaT")

# 3. Extrair o ano de cada data
df_2['ano_distribuicao'] = df_2['data_distribuicao'].dt.year
df_2['ano_baixa'] = df_2['data_baixa'].dt.year

# 4. Fazer a limpeza: manter apenas registros em que:
#    - ano_distribuicao <= 2021
#    - ano_baixa == 2021 (ou é NaN)
df_limpo2 = df_2[
    (
        (df_2['ano_distribuicao'] <= 2021)
    ) & 
    (
        (df_2['ano_baixa'] == 2021) | 
        (df_2['ano_baixa'].isna())
    )
].copy()

print(f"\nShape após limpeza: {df_limpo2.shape}")
print(f"Registros removidos: {len(df_2) - len(df_limpo2)}")

# 5. Verificação detalhada
print(f"\nVerificação dos anos nas datas:")
print(f"Anos únicos em data_distribuicao: {sorted(df_limpo2['ano_distribuicao'].dropna().unique().astype(int))}")
print(f"Anos únicos em data_baixa: {sorted(df_limpo2['ano_baixa'].dropna().unique().astype(int))}")

# 6. Mostrar exemplos de registros removidos (se houver)
if len(df_2) > len(df_limpo2):
    df_removidos = df_2[~df_2.index.isin(df_limpo2.index)]
    print(f"\nExemplo de registros removidos:")
    print(df_removidos[['data_distribuicao', 'data_baixa', 'ano_distribuicao', 'ano_baixa']].head())
    
    # Contar motivo da remoção
    print(f"\nMotivo da remoção:")
    # Distribuição > 2021
    ANO = 2021
    dist_maior_ANO = df_2[df_2['ano_distribuicao'] > ANO]
    dist_nula = df_2[df_2['ano_distribuicao'].isna()]
    baixa_maior_ANO = df_2[df_2['ano_baixa'] > ANO]
    baixa_menor_ANO = df_2[df_2['ano_baixa'] < ANO]
    
    print(f"- data_distribuicao > {ANO}: {len(dist_maior_ANO)} registros")
    print(f"- data_distribuicao NULA: {len(dist_nula)} registros")
    print(f"- data_baixa > {ANO}: {len(baixa_maior_ANO)} registros")
    print(f"- data_baixa < {ANO}: {len(baixa_menor_ANO)} registros")
    
    # Intersecção (ambos > ANO)
    ambos_maior_ANO = df_2[(df_2['ano_distribuicao'] > ANO) & (df_2['ano_baixa'] > ANO)]
    print(f"- ambos > {ANO}: {len(ambos_maior_ANO)} registros")

# 7. Opcional: Remover as colunas auxiliares de ano se não precisar mais
# df_limpo = df_limpo.drop(columns=['ano_distribuicao', 'ano_baixa'])

# 8. Mostrar estatísticas do dataframe limpo
print(f"\n{'='*50}")
print("RESUMO DO DATAFRAME LIMPO:")
print(f"{'='*50}")
print(f"Total de registros: {len(df_limpo2)}")
print(f"Total de colunas: {len(df_limpo2.columns)}")
print(f"\nPrimeiras linhas:")
print(df_limpo2.head())
print(f"\nTipos de dados:")
print(df_limpo2.dtypes)

# 9. Verificar valores nulos nas datas
print(f"\nValores nulos nas datas (após limpeza):")
print(f"- data_distribuicao: {df_limpo2['data_distribuicao'].isna().sum()} nulos ({df_limpo2['data_distribuicao'].isna().sum()/len(df_limpo2)*100:.1f}%)")
print(f"- data_baixa: {df_limpo2['data_baixa'].isna().sum()} nulos ({df_limpo2['data_baixa'].isna().sum()/len(df_limpo2)*100:.1f}%)")

  df_2 = pd.read_csv(arquivo_csv_2, sep='#', encoding='utf-8')


(1550409, 64)

Datas inválidas na conversão:
- data_distribuicao: 1 valores NaT
- data_baixa: 534902 valores NaT

Shape após limpeza: (1550406, 66)
Registros removidos: 3

Verificação dos anos nas datas:
Anos únicos em data_distribuicao: [np.int64(1916), np.int64(1926), np.int64(1932), np.int64(1936), np.int64(1947), np.int64(1952), np.int64(1954), np.int64(1955), np.int64(1956), np.int64(1960), np.int64(1961), np.int64(1963), np.int64(1964), np.int64(1966), np.int64(1967), np.int64(1968), np.int64(1970), np.int64(1971), np.int64(1972), np.int64(1973), np.int64(1975), np.int64(1976), np.int64(1977), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(1985), np.int64(1986), np.int64(1987), np.int64(1988), np.int64(1989), np.int64(1990), np.int64(1991), np.int64(1992), np.int64(1993), np.int64(1994), np.int64(1995), np.int64(1996), np.int64(1997), np.int64(1998), np.int64(1999), np.int64(2000), np.int64(2001), np.int64(

In [20]:
# Gerar o arquivo processos_2.csv limpo
output_filename_csv_2 = 'dataclean/processos_2.csv'
os.makedirs(os.path.dirname(output_filename_csv_2), exist_ok=True)
df_limpo2.to_csv(output_filename_csv_2, index=False, sep='#', encoding='utf-8-sig')

### 3 - arquivo_csv_3:

In [21]:
arquivo_csv_3 = ('uploads/processos_3.csv')
df_3 = pd.read_csv(arquivo_csv_3, sep='#', encoding='utf-8')
print(df_3.shape)

# Limpeza e tratamento das datas do arquivo_csv_1
# 1. Converter as colunas de data para datetime
df_3['data_distribuicao'] = pd.to_datetime(df_3['data_distribuicao'], errors='coerce')
df_3['data_baixa'] = pd.to_datetime(df_3['data_baixa'], errors='coerce')

# 2. Verificar quantas datas inválidas temos
print(f"\nDatas inválidas na conversão:")
print(f"- data_distribuicao: {df_3['data_distribuicao'].isna().sum()} valores NaT")
print(f"- data_baixa: {df_3['data_baixa'].isna().sum()} valores NaT")

# 3. Extrair o ano de cada data
df_3['ano_distribuicao'] = df_3['data_distribuicao'].dt.year
df_3['ano_baixa'] = df_3['data_baixa'].dt.year

# 4. Fazer a limpeza: manter apenas registros em que:
#    - ano_distribuicao <= 2022
#    - ano_baixa <== 2022 (ou é NaN)
df_limpo3 = df_3[
    (
        (df_3['ano_distribuicao'] <= 2022)
    ) & 
    (
        (df_3['ano_baixa'] == 2022) | 
        (df_3['ano_baixa'].isna())
    )
].copy()

print(f"\nShape após limpeza: {df_limpo3.shape}")
print(f"Registros removidos: {len(df_3) - len(df_limpo3)}")

# 5. Verificação detalhada
print(f"\nVerificação dos anos nas datas:")
print(f"Anos únicos em data_distribuicao: {sorted(df_limpo3['ano_distribuicao'].dropna().unique().astype(int))}")
print(f"Anos únicos em data_baixa: {sorted(df_limpo3['ano_baixa'].dropna().unique().astype(int))}")

# 6. Mostrar exemplos de registros removidos (se houver)
if len(df_3) > len(df_limpo3):
    df_removidos = df_3[~df_3.index.isin(df_limpo3.index)]
    print(f"\nExemplo de registros removidos:")
    print(df_removidos[['data_distribuicao', 'data_baixa', 'ano_distribuicao', 'ano_baixa']].head())
    
    # Contar motivo da remoção
    print(f"\nMotivo da remoção:")
    # Distribuição > 2022
    ANO = 2022
    dist_maior_ANO = df_3[df_3['ano_distribuicao'] > ANO]
    dist_nula = df_3[df_3['ano_distribuicao'].isna()]
    baixa_maior_ANO = df_3[df_3['ano_baixa'] > ANO]
    baixa_menor_ANO = df_3[df_3['ano_baixa'] < ANO]
    
    print(f"- data_distribuicao > {ANO}: {len(dist_maior_ANO)} registros")
    print(f"- data_distribuicao NULA: {len(dist_nula)} registros")
    print(f"- data_baixa > {ANO}: {len(baixa_maior_ANO)} registros")
    print(f"- data_baixa < {ANO}: {len(baixa_menor_ANO)} registros")
    
    # Intersecção (ambos > ANO)
    ambos_maior_ANO = df_3[(df_3['ano_distribuicao'] > ANO) & (df_3['ano_baixa'] > ANO)]
    print(f"- ambos > {ANO}: {len(ambos_maior_ANO)} registros")

# 7. Opcional: Remover as colunas auxiliares de ano se não precisar mais
# df_limpo = df_limpo.drop(columns=['ano_distribuicao', 'ano_baixa'])

# 8. Mostrar estatísticas do dataframe limpo
print(f"\n{'='*50}")
print("RESUMO DO DATAFRAME LIMPO:")
print(f"{'='*50}")
print(f"Total de registros: {len(df_limpo3)}")
print(f"Total de colunas: {len(df_limpo3.columns)}")
print(f"\nPrimeiras linhas:")
print(df_limpo3.head())
print(f"\nTipos de dados:")
print(df_limpo3.dtypes)

# 9. Verificar valores nulos nas datas
print(f"\nValores nulos nas datas (após limpeza):")
print(f"- data_distribuicao: {df_limpo3['data_distribuicao'].isna().sum()} nulos ({df_limpo3['data_distribuicao'].isna().sum()/len(df_limpo3)*100:.1f}%)")
print(f"- data_baixa: {df_limpo3['data_baixa'].isna().sum()} nulos ({df_limpo3['data_baixa'].isna().sum()/len(df_limpo3)*100:.1f}%)")

  df_3 = pd.read_csv(arquivo_csv_3, sep='#', encoding='utf-8')


(1745039, 64)

Datas inválidas na conversão:
- data_distribuicao: 0 valores NaT
- data_baixa: 577822 valores NaT

Shape após limpeza: (1745039, 66)
Registros removidos: 0

Verificação dos anos nas datas:
Anos únicos em data_distribuicao: [np.int64(1919), np.int64(1920), np.int64(1925), np.int64(1926), np.int64(1927), np.int64(1928), np.int64(1933), np.int64(1936), np.int64(1938), np.int64(1940), np.int64(1941), np.int64(1942), np.int64(1943), np.int64(1944), np.int64(1946), np.int64(1948), np.int64(1950), np.int64(1952), np.int64(1954), np.int64(1956), np.int64(1957), np.int64(1958), np.int64(1959), np.int64(1960), np.int64(1961), np.int64(1963), np.int64(1964), np.int64(1965), np.int64(1966), np.int64(1967), np.int64(1968), np.int64(1969), np.int64(1970), np.int64(1971), np.int64(1972), np.int64(1973), np.int64(1974), np.int64(1975), np.int64(1976), np.int64(1977), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(

In [22]:
# Gerar o arquivo processos_3.csv limpo
output_filename_csv_3 = 'dataclean/processos_3.csv'
os.makedirs(os.path.dirname(output_filename_csv_3), exist_ok=True)
df_limpo3.to_csv(output_filename_csv_3, index=False, sep='#', encoding='utf-8-sig')

### 4 - arquivo_csv_4:

In [24]:
arquivo_csv_4 = ('uploads/processos_4.csv')
df_4 = pd.read_csv(arquivo_csv_4, sep='#', encoding='utf-8')
print(df_4.shape)

# Limpeza e tratamento das datas do arquivo_csv_1
# 1. Converter as colunas de data para datetime
df_4['data_distribuicao'] = pd.to_datetime(df_4['data_distribuicao'], errors='coerce')
df_4['data_baixa'] = pd.to_datetime(df_4['data_baixa'], errors='coerce')

# 2. Verificar quantas datas inválidas temos
print(f"\nDatas inválidas na conversão:")
print(f"- data_distribuicao: {df_4['data_distribuicao'].isna().sum()} valores NaT")
print(f"- data_baixa: {df_4['data_baixa'].isna().sum()} valores NaT")

# 3. Extrair o ano de cada data
df_4['ano_distribuicao'] = df_4['data_distribuicao'].dt.year
df_4['ano_baixa'] = df_4['data_baixa'].dt.year

# 4. Fazer a limpeza: manter apenas registros em que:
#    - ano_distribuicao <= 2023
#    - ano_baixa == 2023 (ou é NaN)
df_limpo4 = df_4[
    (
        (df_4['ano_distribuicao'] <= 2023)
    ) & 
    (
        (df_4['ano_baixa'] == 2023) | 
        (df_4['ano_baixa'].isna())
    )
].copy()

print(f"\nShape após limpeza: {df_limpo4.shape}")
print(f"Registros removidos: {len(df_4) - len(df_limpo4)}")

# 5. Verificação detalhada
print(f"\nVerificação dos anos nas datas:")
print(f"Anos únicos em data_distribuicao: {sorted(df_limpo4['ano_distribuicao'].dropna().unique().astype(int))}")
print(f"Anos únicos em data_baixa: {sorted(df_limpo4['ano_baixa'].dropna().unique().astype(int))}")

# 6. Mostrar exemplos de registros removidos (se houver)
if len(df_4) > len(df_limpo4):
    df_removidos = df_4[~df_4.index.isin(df_limpo4.index)]
    print(f"\nExemplo de registros removidos:")
    print(df_removidos[['data_distribuicao', 'data_baixa', 'ano_distribuicao', 'ano_baixa']].head())
    
    # Contar motivo da remoção
    print(f"\nMotivo da remoção:")
    # Distribuição > 2023
    ANO = 2023
    dist_maior_ANO = df_4[df_4['ano_distribuicao'] > ANO]
    dist_nula = df_4[df_4['ano_distribuicao'].isna()]
    baixa_maior_ANO = df_4[df_4['ano_baixa'] > ANO]
    baixa_menor_ANO = df_4[df_4['ano_baixa'] < ANO]
    
    print(f"- data_distribuicao > {ANO}: {len(dist_maior_ANO)} registros")
    print(f"- data_distribuicao NULA: {len(dist_nula)} registros")
    print(f"- data_baixa > {ANO}: {len(baixa_maior_ANO)} registros")
    print(f"- data_baixa < {ANO}: {len(baixa_menor_ANO)} registros")
    
    # Intersecção (ambos > ANO)
    ambos_maior_ANO = df_4[(df_4['ano_distribuicao'] > ANO) & (df_4['ano_baixa'] > ANO)]
    print(f"- ambos > {ANO}: {len(ambos_maior_ANO)} registros")

# 7. Opcional: Remover as colunas auxiliares de ano se não precisar mais
# df_limpo = df_limpo.drop(columns=['ano_distribuicao', 'ano_baixa'])

# 8. Mostrar estatísticas do dataframe limpo
print(f"\n{'='*50}")
print("RESUMO DO DATAFRAME LIMPO:")
print(f"{'='*50}")
print(f"Total de registros: {len(df_limpo4)}")
print(f"Total de colunas: {len(df_limpo4.columns)}")
print(f"\nPrimeiras linhas:")
print(df_limpo4.head())
print(f"\nTipos de dados:")
print(df_limpo4.dtypes)

# 9. Verificar valores nulos nas datas
print(f"\nValores nulos nas datas (após limpeza):")
print(f"- data_distribuicao: {df_limpo4['data_distribuicao'].isna().sum()} nulos ({df_limpo4['data_distribuicao'].isna().sum()/len(df_limpo4)*100:.1f}%)")
print(f"- data_baixa: {df_limpo4['data_baixa'].isna().sum()} nulos ({df_limpo4['data_baixa'].isna().sum()/len(df_limpo4)*100:.1f}%)")

  df_4 = pd.read_csv(arquivo_csv_4, sep='#', encoding='utf-8')


(1777227, 64)

Datas inválidas na conversão:
- data_distribuicao: 0 valores NaT
- data_baixa: 625373 valores NaT

Shape após limpeza: (1777227, 66)
Registros removidos: 0

Verificação dos anos nas datas:
Anos únicos em data_distribuicao: [np.int64(1903), np.int64(1904), np.int64(1911), np.int64(1917), np.int64(1922), np.int64(1930), np.int64(1939), np.int64(1950), np.int64(1953), np.int64(1959), np.int64(1960), np.int64(1961), np.int64(1964), np.int64(1965), np.int64(1966), np.int64(1967), np.int64(1968), np.int64(1969), np.int64(1970), np.int64(1971), np.int64(1972), np.int64(1973), np.int64(1974), np.int64(1975), np.int64(1976), np.int64(1977), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(1985), np.int64(1986), np.int64(1987), np.int64(1988), np.int64(1989), np.int64(1990), np.int64(1991), np.int64(1992), np.int64(1993), np.int64(1994), np.int64(1995), np.int64(1996), np.int64(1997), np.int64(1998), np.int64(

In [25]:
# Gerar o arquivo processos_4.csv limpo
output_filename_csv_4 = 'dataclean/processos_4.csv'
os.makedirs(os.path.dirname(output_filename_csv_4), exist_ok=True)
df_limpo4.to_csv(output_filename_csv_4, index=False, sep='#', encoding='utf-8-sig')

### 5 - arquivo_csv_5:

In [27]:
arquivo_csv_5 = ('uploads/processos_5.csv')
df_5 = pd.read_csv(arquivo_csv_5, sep='#', encoding='utf-8')
print(df_5.shape)

# Limpeza e tratamento das datas do arquivo_csv_1
# 1. Converter as colunas de data para datetime
df_5['data_distribuicao'] = pd.to_datetime(df_5['data_distribuicao'], errors='coerce')
df_5['data_baixa'] = pd.to_datetime(df_5['data_baixa'], errors='coerce')

# 2. Verificar quantas datas inválidas temos
print(f"\nDatas inválidas na conversão:")
print(f"- data_distribuicao: {df_5['data_distribuicao'].isna().sum()} valores NaT")
print(f"- data_baixa: {df_5['data_baixa'].isna().sum()} valores NaT")

# 3. Extrair o ano de cada data
df_5['ano_distribuicao'] = df_5['data_distribuicao'].dt.year
df_5['ano_baixa'] = df_5['data_baixa'].dt.year

# 4. Fazer a limpeza: manter apenas registros em que:
#    - ano_distribuicao <= 2024
#    - ano_baixa == 2024 (ou é NaN)
df_limpo5 = df_5[
    (
        (df_5['ano_distribuicao'] <= 2024)
    ) & 
    (
        (df_5['ano_baixa'] == 2024) | 
        (df_5['ano_baixa'].isna())
    )
].copy()

print(f"\nShape após limpeza: {df_limpo5.shape}")
print(f"Registros removidos: {len(df_5) - len(df_limpo5)}")

# 5. Verificação detalhada
print(f"\nVerificação dos anos nas datas:")
print(f"Anos únicos em data_distribuicao: {sorted(df_limpo5['ano_distribuicao'].dropna().unique().astype(int))}")
print(f"Anos únicos em data_baixa: {sorted(df_limpo5['ano_baixa'].dropna().unique().astype(int))}")

# 6. Mostrar exemplos de registros removidos (se houver)
if len(df_5) > len(df_limpo5):
    df_removidos = df_5[~df_5.index.isin(df_limpo5.index)]
    print(f"\nExemplo de registros removidos:")
    print(df_removidos[['data_distribuicao', 'data_baixa', 'ano_distribuicao', 'ano_baixa']].head())
    
    # Contar motivo da remoção
    print(f"\nMotivo da remoção:")
    # Distribuição > 2024
    ANO = 2024
    dist_maior_ANO = df_5[df_5['ano_distribuicao'] > ANO]
    dist_nula = df_5[df_5['ano_distribuicao'].isna()]
    baixa_maior_ANO = df_5[df_5['ano_baixa'] > ANO]
    baixa_menor_ANO = df_5[df_5['ano_baixa'] < ANO]
    
    print(f"- data_distribuicao > {ANO}: {len(dist_maior_ANO)} registros")
    print(f"- data_distribuicao NULA: {len(dist_nula)} registros")
    print(f"- data_baixa > {ANO}: {len(baixa_maior_ANO)} registros")
    print(f"- data_baixa < {ANO}: {len(baixa_menor_ANO)} registros")
    
    # Intersecção (ambos > ANO)
    ambos_maior_ANO = df_5[(df_5['ano_distribuicao'] > ANO) & (df_5['ano_baixa'] > ANO)]
    print(f"- ambos > {ANO}: {len(ambos_maior_ANO)} registros")

# 7. Opcional: Remover as colunas auxiliares de ano se não precisar mais
# df_limpo = df_limpo.drop(columns=['ano_distribuicao', 'ano_baixa'])

# 8. Mostrar estatísticas do dataframe limpo
print(f"\n{'='*50}")
print("RESUMO DO DATAFRAME LIMPO:")
print(f"{'='*50}")
print(f"Total de registros: {len(df_limpo5)}")
print(f"Total de colunas: {len(df_limpo5.columns)}")
print(f"\nPrimeiras linhas:")
print(df_limpo5.head())
print(f"\nTipos de dados:")
print(df_limpo5.dtypes)

# 9. Verificar valores nulos nas datas
print(f"\nValores nulos nas datas (após limpeza):")
print(f"- data_distribuicao: {df_limpo5['data_distribuicao'].isna().sum()} nulos ({df_limpo5['data_distribuicao'].isna().sum()/len(df_limpo5)*100:.1f}%)")
print(f"- data_baixa: {df_limpo5['data_baixa'].isna().sum()} nulos ({df_limpo5['data_baixa'].isna().sum()/len(df_limpo5)*100:.1f}%)")

  df_5 = pd.read_csv(arquivo_csv_5, sep='#', encoding='utf-8')


(2034015, 64)

Datas inválidas na conversão:
- data_distribuicao: 0 valores NaT
- data_baixa: 689931 valores NaT

Shape após limpeza: (2034015, 66)
Registros removidos: 0

Verificação dos anos nas datas:
Anos únicos em data_distribuicao: [np.int64(1903), np.int64(1942), np.int64(1956), np.int64(1957), np.int64(1961), np.int64(1962), np.int64(1963), np.int64(1968), np.int64(1969), np.int64(1970), np.int64(1971), np.int64(1972), np.int64(1973), np.int64(1974), np.int64(1975), np.int64(1976), np.int64(1977), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(1985), np.int64(1986), np.int64(1987), np.int64(1988), np.int64(1989), np.int64(1990), np.int64(1991), np.int64(1992), np.int64(1993), np.int64(1994), np.int64(1995), np.int64(1996), np.int64(1997), np.int64(1998), np.int64(1999), np.int64(2000), np.int64(2001), np.int64(2002), np.int64(2003), np.int64(2004), np.int64(2005), np.int64(2006), np.int64(2007), np.int64(

In [28]:
# Gerar o arquivo processos_5.csv limpo
output_filename_csv_5 = 'dataclean/processos_5.csv'
os.makedirs(os.path.dirname(output_filename_csv_5), exist_ok=True)
df_limpo5.to_csv(output_filename_csv_5, index=False, sep='#', encoding='utf-8-sig')

### 6 - arquivo_csv_6:

In [29]:
arquivo_csv_6 = ('uploads/processos_6.csv')
df_6 = pd.read_csv(arquivo_csv_6, sep='#', encoding='utf-8')
print(df_6.shape)

# Limpeza e tratamento das datas do arquivo_csv_1
# 1. Converter as colunas de data para datetime
df_6['data_distribuicao'] = pd.to_datetime(df_6['data_distribuicao'], errors='coerce')
df_6['data_baixa'] = pd.to_datetime(df_6['data_baixa'], errors='coerce')

# 2. Verificar quantas datas inválidas temos
print(f"\nDatas inválidas na conversão:")
print(f"- data_distribuicao: {df_6['data_distribuicao'].isna().sum()} valores NaT")
print(f"- data_baixa: {df_6['data_baixa'].isna().sum()} valores NaT")

# 3. Extrair o ano de cada data
df_6['ano_distribuicao'] = df_6['data_distribuicao'].dt.year
df_6['ano_baixa'] = df_6['data_baixa'].dt.year

# 4. Fazer a limpeza: manter apenas registros em que:
#    - ano_distribuicao <= 2025
#    - ano_baixa == 2025 (ou é NaN)
df_limpo6 = df_6[
    (
        (df_6['ano_distribuicao'] <= 2025)
    ) & 
    (
        (df_6['ano_baixa'] == 2025) | 
        (df_6['ano_baixa'].isna())
    )
].copy()

print(f"\nShape após limpeza: {df_limpo6.shape}")
print(f"Registros removidos: {len(df_6) - len(df_limpo6)}")

# 5. Verificação detalhada
print(f"\nVerificação dos anos nas datas:")
print(f"Anos únicos em data_distribuicao: {sorted(df_limpo6['ano_distribuicao'].dropna().unique().astype(int))}")
print(f"Anos únicos em data_baixa: {sorted(df_limpo6['ano_baixa'].dropna().unique().astype(int))}")

# 6. Mostrar exemplos de registros removidos (se houver)
if len(df_6) > len(df_limpo6):
    df_removidos = df_6[~df_6.index.isin(df_limpo6.index)]
    print(f"\nExemplo de registros removidos:")
    print(df_removidos[['data_distribuicao', 'data_baixa', 'ano_distribuicao', 'ano_baixa']].head())
    
    # Contar motivo da remoção
    print(f"\nMotivo da remoção:")
    # Distribuição > 2023
    ANO = 2025
    dist_maior_ANO = df_6[df_6['ano_distribuicao'] > ANO]
    dist_nula = df_6[df_6['ano_distribuicao'].isna()]
    baixa_maior_ANO = df_6[df_6['ano_baixa'] > ANO]
    baixa_menor_ANO = df_6[df_6['ano_baixa'] < ANO]
    
    print(f"- data_distribuicao > {ANO}: {len(dist_maior_ANO)} registros")
    print(f"- data_distribuicao NULA: {len(dist_nula)} registros")
    print(f"- data_baixa > {ANO}: {len(baixa_maior_ANO)} registros")
    print(f"- data_baixa < {ANO}: {len(baixa_menor_ANO)} registros")
    
    # Intersecção (ambos > ANO)
    ambos_maior_ANO = df_6[(df_6['ano_distribuicao'] > ANO) & (df_6['ano_baixa'] > ANO)]
    print(f"- ambos > {ANO}: {len(ambos_maior_ANO)} registros")

# 7. Opcional: Remover as colunas auxiliares de ano se não precisar mais
# df_limpo = df_limpo.drop(columns=['ano_distribuicao', 'ano_baixa'])

# 8. Mostrar estatísticas do dataframe limpo
print(f"\n{'='*50}")
print("RESUMO DO DATAFRAME LIMPO:")
print(f"{'='*50}")
print(f"Total de registros: {len(df_limpo6)}")
print(f"Total de colunas: {len(df_limpo6.columns)}")
print(f"\nPrimeiras linhas:")
print(df_limpo6.head())
print(f"\nTipos de dados:")
print(df_limpo6.dtypes)

# 9. Verificar valores nulos nas datas
print(f"\nValores nulos nas datas (após limpeza):")
print(f"- data_distribuicao: {df_limpo6['data_distribuicao'].isna().sum()} nulos ({df_limpo6['data_distribuicao'].isna().sum()/len(df_limpo6)*100:.1f}%)")
print(f"- data_baixa: {df_limpo6['data_baixa'].isna().sum()} nulos ({df_limpo6['data_baixa'].isna().sum()/len(df_limpo6)*100:.1f}%)")

  df_6 = pd.read_csv(arquivo_csv_6, sep='#', encoding='utf-8')


(1906711, 64)

Datas inválidas na conversão:
- data_distribuicao: 1 valores NaT
- data_baixa: 597192 valores NaT

Shape após limpeza: (1906710, 66)
Registros removidos: 1

Verificação dos anos nas datas:
Anos únicos em data_distribuicao: [np.int64(1932), np.int64(1941), np.int64(1948), np.int64(1953), np.int64(1967), np.int64(1968), np.int64(1970), np.int64(1971), np.int64(1972), np.int64(1973), np.int64(1974), np.int64(1975), np.int64(1976), np.int64(1977), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(1985), np.int64(1986), np.int64(1987), np.int64(1988), np.int64(1989), np.int64(1990), np.int64(1991), np.int64(1992), np.int64(1993), np.int64(1994), np.int64(1995), np.int64(1996), np.int64(1997), np.int64(1998), np.int64(1999), np.int64(2000), np.int64(2001), np.int64(2002), np.int64(2003), np.int64(2004), np.int64(2005), np.int64(2006), np.int64(2007), np.int64(2008), np.int64(2009), np.int64(2010), np.int64(

In [30]:
# Gerar o arquivo processos_6.csv limpo
output_filename_csv_6 = 'dataclean/processos_6.csv'
os.makedirs(os.path.dirname(output_filename_csv_6), exist_ok=True)
df_limpo6.to_csv(output_filename_csv_6, index=False, sep='#', encoding='utf-8-sig')

# CARREGAMENTO POR ARQUIVO CSV

In [55]:
arquivo_csv = ('dataclean/processos_6.csv')
df = pd.read_csv(arquivo_csv, sep='#', encoding='utf-8')
print(df.shape)

  df = pd.read_csv(arquivo_csv, sep='#', encoding='utf-8')


(1906710, 66)


# VALIDAÇÕES RÁPIDAS

In [57]:
df.head()

Unnamed: 0,processo_id,comarca,comarca_id,entrancia,serventia,codg_serventia_cnj,vara_oficial_id,origem,is_conhecimento,grupo_cnj_id,...,data_remessa_instancia_inferior,is_desconsiderar_estatistica,is_acao_coletiva,data_julgamento_considerada,gabinete,codg_gabinete_cnj,gabinete_codigo_cnj,vara_oficial_codigo_cnj,ano_distribuicao,ano_baixa
0,7630291,INHUMAS,54,INTERMEDIÁRIA,"Vara Criminal (crime em geral, crimes dolosos ...",,10380,SEEU,f,4,...,,f,f,,,,,88141,2025.0,
1,7680724,NOVO GAMA,87,INTERMEDIÁRIA,"1ª Vara Criminal (Crimes em Geral, Crimes Dolo...",,8664,SEEU,f,4,...,,f,f,,,,,84642,2025.0,
2,7756661,GOIÂNIA,47,FINAL,3ª Vara de Execução Penal,,2792,SEEU,f,4,...,,f,f,,,,,78754,2025.0,
3,7781258,APARECIDA DE GOIÂNIA,9,FINAL,2ª Vara Criminal dos Crimes Dolosos contra a V...,,9844,SEEU,f,4,...,,f,f,,,,,87309,2025.0,
4,7590217,GOIÂNIA,47,FINAL,1ª Vara de Execução Penal,,121,SEEU,f,4,...,,f,f,,,,,11419,2025.0,


In [58]:
pendentes = df[
    (df['nome_area_acao'] == 'civel') & 
    (df['comarca'] == 'INHUMAS')
]['data_baixa'].isna().sum()

print(f"Quantidade de valores nulos em 'data_baixa': {pendentes}")

Quantidade de valores nulos em 'data_baixa': 991


In [29]:
# SERVENTIA 
pendentes = df[
    (df['serventia'] == '1ª Vara (Cível, Criminal - crime em geral e exec penais - e da Inf e da Juv)') & 
    (df['comarca'] == 'GOIÁS')
]['data_baixa'].isna().sum()

print(f"Quantidade de valores nulos em 'data_baixa': {pendentes}")

Quantidade de valores nulos em 'data_baixa': 0


In [59]:
baixados = df[
    (df['nome_area_acao'] == 'civel') & 
    (df['comarca'] == 'INHUMAS')
]['data_baixa'].notna().sum()

print(f"Quantidade de valores não-nulos em 'data_baixa': {baixados}")

Quantidade de valores não-nulos em 'data_baixa': 1578


In [71]:
# SERVENTIA
baixados = df[
    (df['serventia'] == '1ª Vara Cível') & 
    (df['comarca'] == 'ANÁPOLIS')
]['data_baixa'].notna().sum()

print(f"Quantidade de valores não-nulos em 'data_baixa': {baixados}")

Quantidade de valores não-nulos em 'data_baixa': 1763


# LIMPEZA E TRATAMENTO

In [58]:
# Verificar o nome correto das colunas (pode haver diferenças de acentuação ou espaços)
colunas = df.columns.tolist()

# Encontrar as colunas de data corretamente
coluna_serventia = [col for col in colunas if 'serventia' in col.lower()][0]
coluna_distribuicao = [col for col in colunas if 'data_distribuicao' in col.lower()][0]
coluna_baixa = [col for col in colunas if 'data_baixa' in col.lower()][0]
coluna_area_acao = [col for col in colunas if 'nome_area_acao' in col.lower()][0]
coluna_processo_id = [col for col in colunas if 'processo_id' in col.lower()][0]
coluna_comarca = [col for col in colunas if 'comarca' in col.lower()][0]

# Renomear colunas para garantir consistência
df = df.rename(columns={
coluna_distribuicao: 'data_distribuicao',
coluna_baixa: 'data_baixa',
coluna_area_acao: 'nome_area_acao',
coluna_processo_id: 'numero',
coluna_comarca: 'comarca',
coluna_serventia: 'serventia'
})

# DATASETS DE ESTATÍSTICAS (ANUAL) >> Comarca >> Área de Ação

In [None]:
# Gerando o Dataframe com a Taxa de Congestionamento Anual:
# 0) Garantir datetime
df['data_distribuicao'] = pd.to_datetime(df['data_distribuicao'], errors='coerce')
df['data_baixa'] = pd.to_datetime(df['data_baixa'], errors='coerce')

keys = ['comarca', 'nome_area_acao'] # Altere aqui para fazer os agrupamentos

# 1) Cópia 
df_f = df.copy()

# 2.1) Referência anual
df_f['ano_dist'] = df_f['data_distribuicao'].dt.to_period('Y')
df_f['ano_baixa'] = df_f['data_baixa'].dt.to_period('Y')

# 3.1) Fluxos anuais
# Distribuídos por ano (fluxo)
dist_ano_base = (
    df_f.groupby(keys + ['ano_dist'])
        .size()
        .rename('Distribuidos_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_dist': 'ano_ref'})
)

# Baixados por ano (fluxo)
baix_ano_base = (
    df_f.dropna(subset=['data_baixa'])
        .groupby(keys + ['ano_baixa'])
        .size()
        .rename('Baixados_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_baixa': 'ano_ref'})
)

# Calcular valores acumulados
# Distribuídos acumulados
dist_acum = dist_ano_base.copy()
dist_acum = dist_acum.sort_values(['comarca', 'nome_area_acao', 'ano_ref'])
dist_acum['Distribuidos_acum_ano'] = dist_acum.groupby(keys)['Distribuidos_fluxo_anual'].cumsum()

# Baixados acumulados
baix_acum = baix_ano_base.copy()
baix_acum = baix_acum.sort_values(['comarca', 'nome_area_acao', 'ano_ref'])
baix_acum['Baixados_acum_ano'] = baix_acum.groupby(keys)['Baixados_fluxo_anual'].cumsum()

# Pendentes acumulados = Distribuídos acumulados - Baixados acumulados
pend_acum = dist_acum[keys + ['ano_ref', 'Distribuidos_acum_ano']].copy()
pend_acum = pend_acum.merge(
    baix_acum[keys + ['ano_ref', 'Baixados_acum_ano']], 
    on=keys + ['ano_ref'], 
    how='left'
)
pend_acum['Baixados_acum_ano'] = pend_acum['Baixados_acum_ano'].fillna(0).astype(int)
pend_acum['Pendentes_acum_ano'] = pend_acum['Distribuidos_acum_ano'] - pend_acum['Baixados_acum_ano']

# 6.1) Dataframe anual (APENAS COM AS COLUNAS SOLICITADAS)
df_global_anual = dist_ano_base[['comarca', 'nome_area_acao', 'ano_ref', 'Distribuidos_fluxo_anual']].copy()

# Adicionar Baixados_fluxo_anual
df_global_anual = df_global_anual.merge(
    baix_ano_base[['comarca', 'nome_area_acao', 'ano_ref', 'Baixados_fluxo_anual']],
    on=['comarca', 'nome_area_acao', 'ano_ref'],
    how='left'
)

# Adicionar Pendentes_acum_ano
df_global_anual = df_global_anual.merge(
    pend_acum[['comarca', 'nome_area_acao', 'ano_ref', 'Pendentes_acum_ano']],
    on=['comarca', 'nome_area_acao', 'ano_ref'],
    how='left'
)

# Adicionar Distribuidos_acum_ano (apenas para cálculo, depois removemos)
df_global_anual = df_global_anual.merge(
    dist_acum[['comarca', 'nome_area_acao', 'ano_ref', 'Distribuidos_acum_ano']],
    on=['comarca', 'nome_area_acao', 'ano_ref'],
    how='left'
)

# Preencher NaN com 0 e Converter para int
df_global_anual['Baixados_fluxo_anual'] = df_global_anual['Baixados_fluxo_anual'].fillna(0).astype(int)
df_global_anual['Pendentes_acum_ano'] = df_global_anual['Pendentes_acum_ano'].fillna(0).astype(int)
df_global_anual['Distribuidos_fluxo_anual'] = df_global_anual['Distribuidos_fluxo_anual'].astype(int)
df_global_anual['Distribuidos_acum_ano'] = df_global_anual['Distribuidos_acum_ano'].astype(int)

# Renomear colunas EXATAMENTE como solicitado
df_global_anual = df_global_anual.rename(columns={
    'Distribuidos_fluxo_anual': 'Distribuidos_ano',
    'Baixados_fluxo_anual': 'Baixados_ano',
    'Pendentes_acum_ano': 'Pendentes_ano'
})

# Calcular taxa anual CORRETA: Pendentes_ano / Distribuidos_acum_ano
df_global_anual['Taxa_Cong_anual (%)'] = np.where(
    df_global_anual['Distribuidos_acum_ano'] > 0,
    (df_global_anual['Pendentes_ano'] / df_global_anual['Distribuidos_acum_ano']) * 100,
    0
).round(2)

# Remover a coluna auxiliar Distribuidos_acum_ano
df_global_anual = df_global_anual.drop('Distribuidos_acum_ano', axis=1)

# Ordenar por comarca, serventia e ano
df_global_anual = df_global_anual.sort_values(['comarca', 'nome_area_acao', 'ano_ref'])

# DATASETS DE ESTATÍSTICAS (ANUAL) >> Comarca >> Serventia

In [59]:
# Gerando o Dataframe com a Taxa de Congestionamento Anual:
# 0) Garantir datetime
df['data_distribuicao'] = pd.to_datetime(df['data_distribuicao'], errors='coerce')
df['data_baixa'] = pd.to_datetime(df['data_baixa'], errors='coerce')

keys = ['comarca', 'serventia'] # Altere aqui para fazer os agrupamentos

# 1) Cópia 
df_f = df.copy()

# 2.1) Referência anual
df_f['ano_dist'] = df_f['data_distribuicao'].dt.to_period('Y')
df_f['ano_baixa'] = df_f['data_baixa'].dt.to_period('Y')

# 3.1) Fluxos anuais
# Distribuídos por ano (fluxo)
dist_ano_base = (
    df_f.groupby(keys + ['ano_dist'])
        .size()
        .rename('Distribuidos_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_dist': 'ano_ref'})
)

# Baixados por ano (fluxo)
baix_ano_base = (
    df_f.dropna(subset=['data_baixa'])
        .groupby(keys + ['ano_baixa'])
        .size()
        .rename('Baixados_fluxo_anual')
        .reset_index()
        .rename(columns={'ano_baixa': 'ano_ref'})
)

# Calcular valores acumulados
# Distribuídos acumulados
dist_acum = dist_ano_base.copy()
dist_acum = dist_acum.sort_values(['comarca', 'serventia', 'ano_ref'])
dist_acum['Distribuidos_acum_ano'] = dist_acum.groupby(keys)['Distribuidos_fluxo_anual'].cumsum()

# Baixados acumulados
baix_acum = baix_ano_base.copy()
baix_acum = baix_acum.sort_values(['comarca', 'serventia', 'ano_ref'])
baix_acum['Baixados_acum_ano'] = baix_acum.groupby(keys)['Baixados_fluxo_anual'].cumsum()

# Pendentes acumulados = Distribuídos acumulados - Baixados acumulados
pend_acum = dist_acum[keys + ['ano_ref', 'Distribuidos_acum_ano']].copy()
pend_acum = pend_acum.merge(
    baix_acum[keys + ['ano_ref', 'Baixados_acum_ano']], 
    on=keys + ['ano_ref'], 
    how='left'
)
pend_acum['Baixados_acum_ano'] = pend_acum['Baixados_acum_ano'].fillna(0).astype(int)
pend_acum['Pendentes_acum_ano'] = pend_acum['Distribuidos_acum_ano'] - pend_acum['Baixados_acum_ano']

# 6.1) Dataframe anual (APENAS COM AS COLUNAS SOLICITADAS)
df_global_anual = dist_ano_base[['comarca', 'serventia', 'ano_ref', 'Distribuidos_fluxo_anual']].copy()

# Adicionar Baixados_fluxo_anual
df_global_anual = df_global_anual.merge(
    baix_ano_base[['comarca', 'serventia', 'ano_ref', 'Baixados_fluxo_anual']],
    on=['comarca', 'serventia', 'ano_ref'],
    how='left'
)

# Adicionar Pendentes_acum_ano
df_global_anual = df_global_anual.merge(
    pend_acum[['comarca', 'serventia', 'ano_ref', 'Pendentes_acum_ano']],
    on=['comarca', 'serventia', 'ano_ref'],
    how='left'
)

# Adicionar Distribuidos_acum_ano (apenas para cálculo, depois removemos)
df_global_anual = df_global_anual.merge(
    dist_acum[['comarca', 'serventia', 'ano_ref', 'Distribuidos_acum_ano']],
    on=['comarca', 'serventia', 'ano_ref'],
    how='left'
)

# Preencher NaN com 0 e Converter para int
df_global_anual['Baixados_fluxo_anual'] = df_global_anual['Baixados_fluxo_anual'].fillna(0).astype(int)
df_global_anual['Pendentes_acum_ano'] = df_global_anual['Pendentes_acum_ano'].fillna(0).astype(int)
df_global_anual['Distribuidos_fluxo_anual'] = df_global_anual['Distribuidos_fluxo_anual'].astype(int)
df_global_anual['Distribuidos_acum_ano'] = df_global_anual['Distribuidos_acum_ano'].astype(int)

# Renomear colunas EXATAMENTE como solicitado
df_global_anual = df_global_anual.rename(columns={
    'Distribuidos_fluxo_anual': 'Distribuidos_ano',
    'Baixados_fluxo_anual': 'Baixados_ano',
    'Pendentes_acum_ano': 'Pendentes_ano'
})

# Calcular taxa anual CORRETA: Pendentes_ano / Distribuidos_acum_ano
df_global_anual['Taxa_Cong_anual (%)'] = np.where(
    df_global_anual['Distribuidos_acum_ano'] > 0,
    (df_global_anual['Pendentes_ano'] / df_global_anual['Distribuidos_acum_ano']) * 100,
    0
).round(2)

# Remover a coluna auxiliar Distribuidos_acum_ano
df_global_anual = df_global_anual.drop('Distribuidos_acum_ano', axis=1)

# Ordenar por comarca, serventia e ano
df_global_anual = df_global_anual.sort_values(['comarca', 'serventia', 'ano_ref'])

In [62]:
# Validação mais refinada
ano_alvo = 2025
df_global_anual[
    (df_global_anual['comarca'] == 'INHUMAS') & 
    (df_global_anual['nome_area_acao'] == 'civel') &
    (df_global_anual['ano_ref'].dt.year == ano_alvo)
].head()

Unnamed: 0,comarca,nome_area_acao,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
7857,INHUMAS,civel,2025,1289,1578,991,38.58


In [33]:
# Validação mais refinada sgrupado por SERVENTIA
ano_alvo = 2022
df_global_anual[
    (df_global_anual['comarca'] == 'GOIÁS') & 
    (df_global_anual['serventia'] == '1ª Vara (Cível, Criminal - crime em geral e exec penais - e da Inf e da Juv)') &
    (df_global_anual['ano_ref'].dt.year == ano_alvo)
].head()

Unnamed: 0,comarca,serventia,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)


In [63]:
# Filtrando o ANO para exração ANUAL
ano_alvo = 2025
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
df_ano.head()

Unnamed: 0,comarca,nome_area_acao,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
17,ABADIÂNIA,civel,2025,364,260,322,55.33
33,ABADIÂNIA,criminal,2025,241,365,118,24.43
42,ABADIÂNIA,execucao penal,2025,84,40,69,63.3
55,ABADIÂNIA,familia - interior,2025,206,251,135,34.97
78,ABADIÂNIA,fazenda publica mista,2025,84,342,61,15.14


In [66]:
# Filtrando o ANO para exração ANUAL agrupado SERVENTIA
ano_alvo = 2025
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
df_ano.head()

Unnamed: 0,comarca,serventia,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
25,ABADIÂNIA,Vara Judicial,2025,1632,2075,1088,34.4
50,ACREÚNA,"1ª Vara Judicial (Família e Sucessões, Infânci...",2025,1354,1622,864,34.75
79,ACREÚNA,"2ª Vara Judicial (Fazendas Públicas, Criminal,...",2025,1000,1645,775,32.02
110,ALEXÂNIA,Vara Judicial,2025,3288,4011,2172,35.13
140,ALTO PARAÍSO DE GOIÁS,Vara Judicial,2025,1559,2038,1191,36.88


# GRAVA ARQUIVO ANUAL NA PASTA RESULTS

In [64]:
# Grava cada arquivo ANUAL na pasta results
ano_alvo = 2025
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
os.makedirs("results", exist_ok=True)
df_ano.to_csv(f"results/tx_{ano_alvo}.csv", sep=",", index=False, encoding="utf-8-sig")

In [67]:
# Grava cada arquivo ANUAL agrupado por SERVENTIA na pasta results
ano_alvo = 2025
df_ano = df_global_anual[df_global_anual['ano_ref'].dt.year == ano_alvo]
os.makedirs("results", exist_ok=True)
df_ano.to_csv(f"results/tx_serv_{ano_alvo}.csv", sep=",", index=False, encoding="utf-8-sig")

# MERGE DOS ARQUIVOS ANUAIS DA PASTA RESULTS

In [65]:
# Listar os arquivos CSV na pasta 'results'
arquivo_csv = glob.glob('results/tx_*.csv')
# Carregar os arquivos CSV e concatenar em um único DataFrame
dfs = []
for arquivo in arquivo_csv:  # lista/iterável com os caminhos tipo 'tx_2020.csv', 'tx_2021.csv', ...
    df_ano = pd.read_csv(arquivo, sep=',', encoding='utf-8')
    dfs.append(df_ano)

df_results_anual = pd.concat(dfs, ignore_index=True)

print(df_results_anual.shape)

(7698, 7)


In [68]:
# Listar os arquivos CSV agrupados por SERVENTIA na pasta 'results'
arquivo_csv = glob.glob('results/tx_serv_*.csv')
# Carregar os arquivos CSV e concatenar em um único DataFrame
dfs = []
for arquivo in arquivo_csv:  # lista/iterável com os caminhos tipo 'tx_2020.csv', 'tx_2021.csv', ...
    df_ano = pd.read_csv(arquivo, sep=',', encoding='utf-8')
    dfs.append(df_ano)

df_results_anual = pd.concat(dfs, ignore_index=True)

print(df_results_anual.shape)

(3309, 7)


In [69]:
# Validação Rápida do arquivo ANUAL concatenado
df_results_anual.tail()

Unnamed: 0,comarca,serventia,ano_ref,Distribuidos_ano,Baixados_ano,Pendentes_ano,Taxa_Cong_anual (%)
3304,ÁGUAS LINDAS DE GOIÁS,"2ª Vara Cível, Família e Sucessões",2025,2274,1663,1757,51.37
3305,ÁGUAS LINDAS DE GOIÁS,"2ª Vara de Fazendas Públicas, Registros Públic...",2025,195,3614,123,3.29
3306,ÁGUAS LINDAS DE GOIÁS,3ª Vara Criminal (crimes em geral),2025,625,1147,305,21.01
3307,ÁGUAS LINDAS DE GOIÁS,Juizado Especial Cível e Criminal,2025,3074,3799,1805,32.21
3308,ÁGUAS LINDAS DE GOIÁS,Juizado de Violência Doméstica e Familiar cont...,2025,2154,2754,763,21.69


# GRAVA ARQUIVO ANUAL CONCATENADO, NO FORMATO CSV, NA PASTA RESULTS_CONCAT

In [None]:
# Agrupados por ÁREA DE AÇÃO
os.makedirs("results_concat", exist_ok=True)
df_results_anual.to_csv("results_concat/tx_cong_anual.csv", sep=',', encoding='utf-8')

In [70]:
# Agrupados por SERVENTIA
os.makedirs("results_concat", exist_ok=True)
df_results_anual.to_csv("results_concat/tx_cong_anual_serv.csv", sep=',', encoding='utf-8')