| título | projeto | versão | data | autores | status |
| :--- | :--- | :--- | :--- | :--- | :--- |
| CRISP-DM — Fase 2: Data Understanding | Projeção da Taxa de Congestionamento — Justiça Estadual (GO) | 1.2 | 13-11-2025 | Júlio César e Lays de Freitas | Rascunho |

Esse Notebook contém a **Análise Exploratória dos Dados (EDA)**.

### BIBLIOTECAS

In [6]:
import pandas as pd
import numpy as np
import sys
import matplotlib.pyplot as plt
import glob

### CONFIGURAÇÕES, CARREGAMENTO E FORMATO DO DATASET

In [7]:
# Configurações Iniciais
plt.style.use('ggplot')
pd.set_option('display.max_columns', None)

# 1) Carregar e concatenar os dados dos processos judiciais da pasta uploads
# Listar os arquivos CSV na pasta 'uploads'
arquivos_csv = glob.glob('uploads/processos_*.csv')

# Carregar os arquivos CSV e concatenar em um único DataFrame
dfs = []
for arquivo in arquivos_csv:
    
    df_temp = pd.read_csv(arquivo, sep=',', encoding='utf-8')
    dfs.append(df_temp)

df = pd.concat(dfs, ignore_index=True)

print("\n=== Arquivo carregado com sucesso! ===")
print("Dimensões (linhas, colunas):", df.shape)

# Guardar uma cópia de trabalho
df_cp = df.copy()


=== Arquivo carregado com sucesso! ===
Dimensões (linhas, colunas): (3245632, 10)


### DICIONÁRIO DE DADOS
 
>- `processos`: Número (id) dos processos judiciais
>- `data_distribuicao`: Data de entrada do processo judicial
>- `data_baixa`: Data de baixa do processo judicial
>- `entrancia`: Classificação das comarcas (*INICIAL, INTERMEDIÁRIA, FINAL*)
>- `comarca`: A comarca é a área geográfica onde um juiz de primeiro ou de segundo de grau exerce sua jurisdição, podendo abranger um ou mais municípios.
>- `serventia`: órgão ou local onde os serviços judiciais ou extrajudiciais são realizados, como cartórios (*serventia extrajudicial*) ou varas (*serventia judicial*)
>- `nome_area_acao`: Refere-se a uma área de especialização dentro do Poder Judiciário (*como Varas Cíveis, Varas Criminais, Varas de Família, Juizados Especiais, etc.*)
>- `is_segredo_justica`: Tipo do processo se tramita em segredo de justiça ou não
>- `codg_classe`: Código da classe
>- `codg_assuntos`: Código do assunto



### TIPOS DOS ATRIBUTOS

In [8]:
df_cp.dtypes

processo               object
data_distribuicao      object
data_baixa             object
entrancia              object
comarca                object
serventia              object
nome_area_acao         object
is_segredo_justica       bool
codg_classe           float64
codg_assuntos          object
dtype: object

### AMOSTRA DE DADOS

In [9]:
df_cp.sample(10)

Unnamed: 0,processo,data_distribuicao,data_baixa,entrancia,comarca,serventia,nome_area_acao,is_segredo_justica,codg_classe,codg_assuntos
3183558,5733709.41.2025.8.09.0051,2025-09-10,,FINAL,GOIÂNIA,7ª Vara Criminal dos crimes punidos com reclus...,upj criminal,False,355.0,15034
3050198,5591355.31.2025.8.09.0006,2025-07-26,,FINAL,ANÁPOLIS,5ª Vara Cível,upj civel,False,81.0,9582
212283,5224427.41.2022.8.09.0051,2022-04-19,2022-07-08,FINAL,TRIBUNAL DE JUSTIÇA,GABINETE DES. FERNANDO DE MELLO XAVIER,camara civel,False,202.0,10436
12056,5012555.79.2022.8.09.0029,2022-01-12,2024-07-18,INTERMEDIÁRIA,CATALÃO,1º Juizado Especial Cível e Criminal,upj juizado especial criminal,False,10944.0,3402
2204898,5854967.52.2024.8.09.0051,2024-09-05,2024-10-01,FINAL,GOIÂNIA,18ª Vara Cível e Ambiental,civel,False,7.0,9597
1725039,5135889.39.2024.8.09.0011,2024-02-29,,FINAL,APARECIDA DE GOIÂNIA,"Vara da Fazenda Púb. Municipal, de Reg. Púb. e...",fazenda publica municipal - execucao fiscal,False,1116.0,5952
2940101,5475399.49.2025.8.09.0011,2025-06-17,,FINAL,APARECIDA DE GOIÂNIA,1ª Vara Cível,upj civel,False,7.0,9196
1129478,5390358.12.2023.8.09.0100,2023-06-22,2024-03-15,INTERMEDIÁRIA,LUZIÂNIA,1ª Vara (Cível e da Faz. Púb. Estadual),civel,False,7.0,7772
2534613,5044999.71.2025.8.09.0091,2025-01-22,2025-08-06,INTERMEDIÁRIA,JARAGUÁ,Vara das Fazendas Públicas e Registro Público ...,fazenda publica mista,False,1682.0,7925
3156238,5704487.22.2025.8.09.0150,2025-09-01,,INTERMEDIÁRIA,TRINDADE,Juizado Especial Cível e Criminal,juizado especial civel,False,12154.0,4980


### VALORES NULOS

In [10]:
totalNulos = (df_cp.isnull()).sum()
totalNulos

processo                    0
data_distribuicao           0
data_baixa            1022011
entrancia                   0
comarca                     0
serventia                   0
nome_area_acao              0
is_segredo_justica          0
codg_classe                 3
codg_assuntos               0
dtype: int64

In [11]:
# Percentual de Nulos
percentualNulos = (totalNulos/len(df_cp))*100
percentualNulos

processo               0.000000
data_distribuicao      0.000000
data_baixa            31.488813
entrancia              0.000000
comarca                0.000000
serventia              0.000000
nome_area_acao         0.000000
is_segredo_justica     0.000000
codg_classe            0.000092
codg_assuntos          0.000000
dtype: float64

O atributo `data_baixa` apresenta o maior percentual de valores nulos no dataset, o que é esperado e justificável: a ausência de data indica que os processos correspondentes ainda não foram concluídos ou baixados, permanecendo em andamento.

### DESCRIÇÃO ESTATÍSTICA

In [12]:
df_cp.describe()

Unnamed: 0,codg_classe
count,3245629.0
mean,3417.819
std,5332.938
min,7.0
25%,156.0
50%,307.0
75%,10933.0
max,15620.0


Como o método `describe()` opera exclusivamente com atributos numéricos, e a única coluna numérica presente no dataset é `cod_classe` (que funciona como identificador), esta análise preliminar mostra-se insuficiente para uma compreensão estatística abrangente do dataframe. Para obter insights estatísticos relevantes ao problema em questão, será necessário realizar transformações e criar features numéricas na próxima etapa da metodologia **CRISP-DM**: a fase de **Preparação dos Dados (Data Preparation)**.