In [9]:
# Importando a biblioteca necessária
import pandas as pd

# Carregar o dataset com delimitador e codificação corretos
dataset_producao = pd.read_csv(
    'DataSet.dsv', 
    delimiter=';', 
    encoding='latin1', 
    dtype={'CO_PA_AUTORIZ': str, 
           'CO_PA_CNSPAC': str,
           'CO_PA_PROC_ID': str,
           'CO_PA_MVM': str,
           'CO_PA_CMP': str,
           'NU_PA_QTDAPR': str,
           'NU_PA_VALAPR': str
          },
    low_memory=False
)

dataset_producao['NU_PA_QTDAPR'] = dataset_producao['NU_PA_QTDAPR'].str.replace(',', '.').astype(float)
dataset_producao['NU_PA_VALAPR'] = dataset_producao['NU_PA_VALAPR'].str.replace(',', '.').astype(float)

print("===ESTUDO BIOPSIA DE PROSTATA X ANATOMOPATOLOGICO===")
print("\n===1. Importação do Dataset - campos CO_PA_AUTORIZ,CO_PA_CNSPAC,CO_PA_PROC_ID,CO_PA_MVM,CO_PA_CMP,NU_PA_QTDAPR e NU_PA_VALAPR do dataset DataSet.dsv")

# 1. Quantidade total e percentual de registros para pacientes identificados e não identificados (CO_PA_CNSPAC)
total_registros = len(dataset_producao)
print(f"\nQuantidade bruta de registros: {total_registros:,}".replace(',', '.'))

print(f"\nRealizando operação de group by ")

dataset_producao_agrupado = dataset_producao.groupby(
    ["CO_PA_AUTORIZ", "CO_PA_CNSPAC", "CO_PA_PROC_ID", "CO_PA_MVM", "CO_PA_CMP"],
    as_index=False                    
).agg({
    'NU_PA_QTDAPR': 'sum',  
    'NU_PA_VALAPR': 'sum'   
})

total_registros_apos_agrupamento=len(dataset_producao_agrupado)
print(f"\nQuantidade de registros após agrupamento: {total_registros_apos_agrupamento:,}".replace(',', '.'))

cnspac_identificado = dataset_producao_agrupado['CO_PA_CNSPAC'].notna().sum()
cnspac_nao_identificado = total_registros_apos_agrupamento - cnspac_identificado
percentual_identificado = (cnspac_identificado / total_registros_apos_agrupamento) * 100
percentual_nao_identificado = (cnspac_nao_identificado / total_registros_apos_agrupamento) * 100

print("===2. Análise Exploratória")
print("\nQuantidade e percentual de registros identificados e não identificados:")
print(f"Pacientes identificados (CO_PA_CNSPAC não nulo): {cnspac_identificado} registros ({percentual_identificado:.2f}%)")
print(f"Pacientes não identificados (CO_PA_CNSPAC nulo): {cnspac_nao_identificado} registros ({percentual_nao_identificado:.2f}%)")



print("\n FIM.")



===ESTUDO BIOPSIA DE PROSTATA X ANATOMOPATOLOGICO===

===1. Importação do Dataset - campos CO_PA_AUTORIZ,CO_PA_CNSPAC,CO_PA_PROC_ID,CO_PA_MVM,CO_PA_CMP,NU_PA_QTDAPR e NU_PA_VALAPR do dataset DataSet.dsv

Quantidade bruta de registros: 165.166

Realizando operação de group by 

Quantidade de registros após agrupamento: 150.519
===2. Análise Exploratória

Quantidade e percentual de registros identificados e não identificados:
Pacientes identificados (CO_PA_CNSPAC não nulo): 150519 registros (100.00%)
Pacientes não identificados (CO_PA_CNSPAC nulo): 0 registros (0.00%)

 FIM.
