In [1]:
# Importando bibliotecas
import pandas as pd 
import numpy as np
import datetime as dt

In [15]:
# Classe para manipulação e análise de dados
class AnaliseDados:
    
    def __init__(self, caminho_arquivo: str): 
        """ 
        Inicializa a classe com um DataFrame e o caminho do arquivo csv.
    
        Args:
            caminho_arquivo: Caminho para o arquivo csv.
        """
        
        self.df = pd.read_csv('C:/Users/Sara de Castro/Desktop/TJ-GO/UFG/IntroducaoProgramacao/ProjetoPython1.3/Processos_Inhumas.csv')
        self.nome_arquivo = 'C:/Users/Sara de Castro/Desktop/TJ-GO/UFG/IntroducaoProgramacao/ProjetoPython1.3/Processos_Inhumas.csv'

    def visualizar_dataframe(self, n: int = 5) -> pd.DataFrame:
        """
        Exibe uma visualização do DataFrame.
        
        Args:
            n (int): Número de linhas a serem exibidas (padrão: 5).
        
        Retorns:
            DataFrame com as primeiras n linhas.
        """
        
        return self.df.head(n)
    
    
    def listar_colunas(self) -> list[str]:
        """
        Lista todas as colunas disponíveis no DataFrame.
        """
        colunas = list(self.df.columns)
        print("Colunas disponíveis:")
        for i, coluna in enumerate(colunas, 1):
            print(f"{i}. {coluna}")
        return colunas
    
    
    def selecionar_colunas(self, colunas: list[str]) -> pd.DataFrame:
        """ 
        Retorna um DataFrame apenas com as colunas selecionadas.
    
        Args:
            colunas: Lista com os nomes das colunas desejadas.
        """
        return self.df[colunas] 
    
        
    def distribuidos_por_ano(self, ano: int) -> int:
        """
        Conta quantas datas existem de um ano específico na coluna 'data_distribuicao',
        ignorando valores NaN.
        
        Args:
            ano: Ano específico para filtrar
            
        Returns:
            Número de datas no ano especificado
        """
        # Verifica se a coluna existe
        coluna_data = 'data_distribuicao'
        if coluna_data not in self.df.columns:
            raise ValueError(f"A coluna '{coluna_data}' não existe no DataFrame")
        
        try:
            # Converte coluna para datetime e lida com NaN
            datas = pd.to_datetime(self.df[coluna_data], errors='coerce')
            
            # Filtra por ano e conta valores não-nulos
            contagem = datas[datas.dt.year == ano].count()
            
            return contagem
        
        except Exception as e:
            raise ValueError(f"Erro ao processar a coluna '{coluna_data}': {str(e)}")

    
    def baixados_por_ano(self, ano: int) -> int:
        """
        Conta quantas datas existem de um ano específico na coluna 'data_baixa',
        ignorando valores NaN.
        
        Args:
            ano: Ano específico para filtrar
            
        Returns:
            Número de datas no ano especificado
        """
        # Verifica se a coluna existe
        coluna_data = 'data_baixa'
        if coluna_data not in self.df.columns:
            raise ValueError(f"A coluna '{coluna_data}' não existe no DataFrame")
        
        try:
            # Converte coluna para datetime e lida com NaN
            datas = pd.to_datetime(self.df[coluna_data], errors='coerce')
            
            # Filtra por ano e conta valores não-nulos
            contagem = datas[datas.dt.year == ano].count()
            
            return contagem
        
        except Exception as e:
            raise ValueError(f"Erro ao processar a coluna '{coluna_data}': {str(e)}")
            
    
    def pendentes_por_ano(self, ano: int) -> int:
        """
        Conta apenas o número total de valores NaN na coluna 'data_baixa' filtrados 
        pelo ano especificado da coluna 'data_distribuicao' que tenham o mesmo processo_id.
        
        Args:
            ano: Ano específico para filtrar na coluna 'data_distribuicao'
            
        Returns:
            Número inteiro representando a contagem total de NaN na coluna 'data_baixa'
        """
        # Verifica se as colunas necessárias existem
        colunas_necessarias = ['data_distribuicao', 'data_baixa', 'processo_id']
        for coluna in colunas_necessarias:
            if coluna not in self.df.columns:
                raise ValueError(f"A coluna '{coluna}' não existe no DataFrame")
        
        try:
            # Cria uma cópia do DataFrame para manipulação
            df_temp = self.df.copy()
            
            # Converte a coluna data_distribuicao para datetime
            df_temp['data_dist_dt'] = pd.to_datetime(df_temp['data_distribuicao'], errors='coerce')
            
            # Extrai o ano da coluna data_distribuicao
            df_temp['ano_dist'] = df_temp['data_dist_dt'].dt.year
            
            # Filtra por ano específico na coluna data_distribuição
            df_ano = df_temp[df_temp['ano_dist'] == ano]
            
            # Conta valores NaN na coluna data_baix para os registros filtrados
            contagem_nan = df_ano['data_baixa'].isna().sum()
            
            return contagem_nan
            
        except Exception as e:
            raise ValueError(f"Erro ao analisar os dados: {str(e)}")
    
    def taxa_congestionamento_por_ano(self, ano: int) -> float:
        """
        Calcula a taxa de congestionamento para um ano específico.
        
        Args:
            ano: Ano para calcular a taxa de congestionamento
            
        Returns:
            Taxa de congestionamento como um valor entre 0 e 1
        """
        try:
            # Obter total de processos baixados no ano
            # Substitua "obter_total_baixados_por_ano" pelo nome do seu método existente
            total_baixados = self.baixados_por_ano(ano)
            
            # Obter total de processos pendentes no ano
            # Substitua "obter_total_pendentes_por_ano" pelo nome do seu método existente
            total_pendentes = self.pendentes_por_ano(ano)
            
            # Verificar se os denominadores são válidos
            if (total_baixados + total_pendentes) == 0:
                return 0.0  # ou raise ValueError("Divisão por zero: não há processos baixados nem pendentes")
            
            # Calcular a taxa de congestionamento
            taxa_congestionamento = total_pendentes / (total_baixados + total_pendentes)
            
            # Arredondar para 4 casas decimais
            taxa_congestionamento = round(taxa_congestionamento, 4)
            
            return taxa_congestionamento
        
        except Exception as e:
            raise ValueError(f"Erro ao calcular a taxa de congestionamento para o ano {ano}: {str(e)}")

In [16]:
# Instanciando a classe
analise1 = AnaliseDados('C:/Users/jcpsrodrigues/Desktop/TJ-GO/Projeto1/Processos_Inhumas.csv')

In [None]:
# Visualizando Dataframe
display(analise1.visualizar_dataframe())

In [13]:
# Listando as colunas disponíveis
analise1.listar_colunas()

Colunas disponíveis:
1. processo_id
2. comarca
3. comarca_id
4. entrancia
5. serventia
6. codg_serventia_cnj
7. vara_oficial_id
8. origem
9. is_conhecimento
10. grupo_cnj_id
11. is_recurso
12. processo
13. natureza
14. codg_natureza
15. fase
16. data_fase
17. data_distribuicao
18. data_baixa
19. data_arquivo
20. data_publicacao_acordao
21. data_arquivo_provisorio
22. data_primeiro_julgamento
23. data_receb_prim_recurso
24. data_retorno_ultimo_recurso
25. data_transito_julgado
26. data_suspensao
27. id_pena_exe_tipo
28. is_maria_penha
29. is_proc_adm_desp
30. is_exec_fiscal
31. is_exec_titulo_extra
32. is_exec_judicial
33. is_acao_improbidade_corrupcao
34. is_suspenso
35. juiz
36. instancia_id
37. tipo_area
38. codg_fase
39. codg_classe
40. nome_area_acao
41. nome_serventia
42. info_execucao_sentenca
43. tipo_serventia
44. identificador_processo_origem
45. identificador_processo
46. valor_acao
47. grupo_res76_id
48. grupo_cnj
49. codg_area_acao
50. data_primeira_audiencia
51. data_baixa

['processo_id',
 'comarca',
 'comarca_id',
 'entrancia',
 'serventia',
 'codg_serventia_cnj',
 'vara_oficial_id',
 'origem',
 'is_conhecimento',
 'grupo_cnj_id',
 'is_recurso',
 'processo',
 'natureza',
 'codg_natureza',
 'fase',
 'data_fase',
 'data_distribuicao',
 'data_baixa',
 'data_arquivo',
 'data_publicacao_acordao',
 'data_arquivo_provisorio',
 'data_primeiro_julgamento',
 'data_receb_prim_recurso',
 'data_retorno_ultimo_recurso',
 'data_transito_julgado',
 'data_suspensao',
 'id_pena_exe_tipo',
 'is_maria_penha',
 'is_proc_adm_desp',
 'is_exec_fiscal',
 'is_exec_titulo_extra',
 'is_exec_judicial',
 'is_acao_improbidade_corrupcao',
 'is_suspenso',
 'juiz',
 'instancia_id',
 'tipo_area',
 'codg_fase',
 'codg_classe',
 'nome_area_acao',
 'nome_serventia',
 'info_execucao_sentenca',
 'tipo_serventia',
 'identificador_processo_origem',
 'identificador_processo',
 'valor_acao',
 'grupo_res76_id',
 'grupo_cnj',
 'codg_area_acao',
 'data_primeira_audiencia',
 'data_baixa_considerada',

In [None]:
colunas_selecionadas = analise1.selecionar_colunas(['processo_id', 'nome_area_acao', 'data_distribuicao', 'data_baixa'])
display(colunas_selecionadas)

In [17]:
# Contando distribuídos em 2018
distribuidos_2018 = analise1.distribuidos_por_ano(2018)
print(f"Distribuídos em 2018: {distribuidos_2018}")

Distribuídos em 2018: 956


In [18]:
# Contando baixados em 2018
baixados_2018 = analise1.baixados_por_ano(2018)
print(f"Baixados em 2018: {baixados_2018}")

Baixados em 2018: 0


In [None]:
# Contar pendentes em data_baix para registros com data_dist em 2018
pendentes_2018 = analise1.pendentes_por_ano(2018)
print(f"Pendentes em 2018 = {pendentes_2018}")


In [None]:
# Taxa de Congestionamento por ano
taxa_congestionamento_2018 = analise1.taxa_congestionamento_por_ano(2018)
print(f"Taxa de Congestionamento em 2018: {taxa_congestionamento_2018:.2%}")

