## Contexto
BASE 01-A base representa internações hospitalares, com informações clínicas,
assistenciais e administrativas por evento de internação.

BASE 02- A base representa custos de exames, internações e procedimentos clínicos.

MERGE- As bases estão em um modelo de cardinalidade 1:N (uma internação pode possuir múltiplos itens associados), através da primekey {'senha_internacao'}.

## Objetivo do EDA – Base 01
Avaliar a qualidade, consistência e estrutura dos dados das bases.


Este EDA realizara cruzamentos de fontes externas https://github.com/cleytonferrari/CidDataSus/blob/master/CIDImport/Repositorio/Resources/CID-10-GRUPOS.CSV disponibilizado neste link.

# Setup e carregamento dos dados

In [1]:
# =========================
# Setup e configurações
# =========================
import os
os.chdir(r'C:\Projetos\case-ami-saude')

import pandas as pd
import numpy as np
import re

from src.utils import pipeline_universal_limpeza , cid_formato_valido , cid_compativel_especialidade
from src.utils import OutlierConfig, find_outliers, filter_outlier_rows, plot_outlier_boxplots, boxplot_iqr_todas_colunas

# EDA - BASE 01 | Internações Hospitalares

## Carregamento dos dados

In [2]:
os.getcwd()

'C:\\Projetos\\case-ami-saude'

In [3]:
# =========================
# Carregamento da Base 01
# =========================
path = "C:\\Projetos\\case-ami-saude\\data\\raw\\Base 1 – Internações Hospitalares.csv"
df_base_01 = pd.read_csv(path)

df_base_01.shape


(20000, 36)

A base possui 20000 registros e 36 colunas.


## Entendimento estrutural da base

In [35]:
df_base_01.info()


<class 'pandas.core.frame.DataFrame'>
Index: 19985 entries, 0 to 19999
Data columns (total 53 columns):
 #   Column                                   Non-Null Count  Dtype         
---  ------                                   --------------  -----         
 0   senha_internacao                         19985 non-null  object        
 1   beneficiario_id                          19985 non-null  object        
 2   numero_carteirinha                       19985 non-null  object        
 3   nome_beneficiario                        19985 non-null  object        
 4   data_nascimento                          19985 non-null  datetime64[ns]
 5   idade                                    19985 non-null  Int64         
 6   sexo                                     19985 non-null  category      
 7   uf                                       19985 non-null  category      
 8   municipio                                19985 non-null  object        
 9   hospital_id                              199

In [36]:
df_base_01.describe(include="all")


Unnamed: 0,senha_internacao,beneficiario_id,numero_carteirinha,nome_beneficiario,data_nascimento,idade,sexo,uf,municipio,hospital_id,...,cid_secundario_compativel_especialidade,alerta_swap_obstetrica,alerta_swap_psiquiatrica,cidp_comp_esp,cids_comp_esp,alerta_swap_especialidade,alerta_swap_generico,alerta_swap_carater,alerta_swap,score_swap
count,19985,19985,19985,19985,19985,19985.0,19985,19985,19985,19985,...,19985,19985,19985,19985,19985,19985,19985,19985,19985,19985.0
unique,19985,19985,19762,3517,,,2,18,52,80,...,2,2,2,2,2,2,1,2,2,
top,SI20250020000,SI20250020000,CAR629618,F.C.C.,,,F,ES,Brasília,H043,...,True,False,False,False,True,True,False,False,True,
freq,1,1,3,69,,,11579,1914,865,310,...,12541,19938,19968,16690,12541,10288,19985,19293,10418,
mean,,,,,1978-02-21 19:25:58.709031744,46.61331,,,,,...,,,,,,,,,,0.552614
min,,,,,1918-03-18 00:00:00,-2.0,,,,,...,,,,,,,,,,0.0
25%,,,,,1957-08-04 00:00:00,26.0,,,,,...,,,,,,,,,,0.0
50%,,,,,1980-01-08 00:00:00,45.0,,,,,...,,,,,,,,,,1.0
75%,,,,,1998-07-22 00:00:00,67.0,,,,,...,,,,,,,,,,1.0
max,,,,,2026-02-11 00:00:00,107.0,,,,,...,,,,,,,,,,2.0


### Conclusão – Estrutura

A base apresenta estrutura compatível com granularidade por internação,
com colunas clínicas, administrativas e categóricas.
Há chave primária explícita como a senha de internação.


## Qualidade básica dos dados

In [6]:
# Valores ausentes
df_base_01.isna().mean().sort_values(ascending=False) * 100


cid_secundario                  55.07
motivo_alta                      6.00
data_alta                        6.00
senha_internacao                 0.00
nome_beneficiario                0.00
numero_carteirinha               0.00
beneficiario_id                  0.00
data_nascimento                  0.00
municipio                        0.00
hospital_id                      0.00
sexo                             0.00
idade                            0.00
perfil_hospital                  0.00
hospital_nome                    0.00
tipo_plano                       0.00
segmentacao_plano                0.00
data_solicitacao_autorizacao     0.00
acomodacao                       0.00
data_admissao                    0.00
uf                               0.00
data_autorizacao_senha           0.00
carater_internacao               0.00
especialidade_responsavel        0.00
tipo_internacao                  0.00
cid_principal                    0.00
complexidade                     0.00
uti_flag    

In [7]:
# Valores duplicados
df_base_01.duplicated().sum()


np.int64(0)

Conclusão : Não foram encontrados valores duplicados.

In [8]:
# Dominio de valores categoricos
for col in ["tipo_internacao", "carater_internacao", "especialidade_responsavel"]:
    print(col)
    display(df_base_01[col].value_counts(dropna=False, normalize=True) * 100)


tipo_internacao


tipo_internacao
Clínica         48.220
Cirúrgica       38.495
Obstétrica       9.525
Psiquiátrica     3.760
Name: proportion, dtype: float64

carater_internacao


carater_internacao
Eletiva                55.155
Urgência/Emergência    44.845
Name: proportion, dtype: float64

especialidade_responsavel


especialidade_responsavel
Pneumologia                9.400
Neurologia                 9.325
Clínica Médica             9.255
Ginecologia/Obstetrícia    9.160
Gastroenterologia          9.150
Pediatria                  9.115
Nefrologia                 9.040
Infectologia               8.975
Cardiologia                8.940
Oncologia                  8.870
Ortopedia                  8.770
Name: proportion, dtype: float64

Conclusão: Essa é a distribuição dos dados categóricos.

## Pipeline de tipagem dos dados

* A pipeline aplica técnicas de tipagem das colunas

In [9]:
df_base_01 = pipeline_universal_limpeza(df_base_01)

## Auditoria dos dados

### Idade


In [10]:
adm  = pd.to_datetime(df_base_01["data_admissao"], errors="coerce")
nasc = pd.to_datetime(df_base_01["data_nascimento"], errors="coerce")

idade_aprox = (adm - nasc).dt.days / 365.25

# forçar numérico (se tiver lixo, vira NaN)
idade_aprox = pd.to_numeric(idade_aprox, errors="coerce")

# se quiser idade inteira "aprox" truncada (tipo floor)
df_base_01["idade"] = np.floor(idade_aprox).astype("Int64")


Após análise identificou que cerca de 14657 pacientes estão com idades maiores do que a idade no dia da admissão, optando por uma correção na coluna de idade, trazendo assim a idade no dia da internação.

### Datas


In [11]:
# Data de admissao posterior a data de alta
filtro_data_adm = df_base_01[df_base_01['data_admissao'] > df_base_01['data_alta']]

df_base_01 = df_base_01.drop(filtro_data_adm.index).copy()
df_base_01

Unnamed: 0,senha_internacao,beneficiario_id,numero_carteirinha,nome_beneficiario,data_nascimento,idade,sexo,uf,municipio,hospital_id,...,uti_flag,suporte_ventilatorio_flag,hemodialise_flag,tempo_autorizacao_horas,auditoria_responsavel,empresa_auditoria,status_regulacao,glosa_flag,valor_total_conta,valor_pago
0,SI20250000001,SI20250000001,CAR405957,P.M.M.,1992-06-17,33,M,SP,Santos,H070,...,Não,Não,Não,30.0,Terceirizada,Empresa Terceira 3,Autorizada,Não,112005.19,112005.19
1,SI20250000002,SI20250000002,CAR658953,V.S.M.,1987-10-24,38,F,MS,Dourados,H013,...,Sim,Não,Sim,22.0,Terceirizada,Empresa Terceira 3,Autorizada com ressalva,Sim,357271.95,303110.50
2,SI20250000003,SI20250000003,CAR547463,N.M.A.,1929-02-16,96,F,MA,Imperatriz,H001,...,Não,Não,Não,26.0,Terceirizada,Empresa Terceira 2,Pendente,Não,32603.64,32603.64
3,SI20250000004,SI20250000004,CAR181581,P.C.N.,1976-10-29,48,M,MG,Juiz de Fora,H043,...,Não,Não,Não,34.0,Terceirizada,Empresa Terceira 2,Autorizada,Sim,24660.48,23423.61
4,SI20250000005,SI20250000005,CAR677468,B.A.R.,1981-02-07,43,M,PA,Belém,H028,...,Não,Não,Sim,21.0,Terceirizada,Empresa Terceira 3,Autorizada,Sim,46771.29,40277.38
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,SI20250019996,SI20250019996,CAR811091,P.N.C.,1983-05-08,41,F,SP,Santos,H043,...,Não,Não,Não,29.0,Terceirizada,Empresa Terceira 2,Pendente,Não,18658.17,18658.17
19996,SI20250019997,SI20250019997,CAR148487,L.M.T.,1952-11-05,71,M,MA,Imperatriz,H008,...,Não,Sim,Não,27.0,Terceirizada,Empresa Terceira 1,Autorizada,Não,30272.52,30272.52
19997,SI20250019998,SI20250019998,CAR540753,M.F.M.,1995-06-28,30,F,PR,Curitiba,H061,...,Não,Não,Não,13.0,Terceirizada,Empresa Terceira 2,Autorizada,Não,22906.91,22906.91
19998,SI20250019999,SI20250019999,CAR367435,A.M.O.,1948-11-02,76,F,MG,Contagem,H007,...,Não,Não,Não,40.0,Terceirizada,Empresa Terceira 2,Autorizada,Não,12890.38,12890.38


Conclusão:

Encontrados 15 registros de pacientes com admissão posterior a alta.

Ruído > informação :
Esses registros são errados por definição.
Impacto estatístico despresível:0,75% da base

Matém integridade temporal.

In [12]:
# Pacientes sem datas de alta
filtro = df_base_01[df_base_01['data_alta'].isna()]
filtro['motivo_alta']

5        NaN
17       NaN
44       NaN
83       NaN
98       NaN
        ... 
19892    NaN
19928    NaN
19933    NaN
19936    NaN
19987    NaN
Name: motivo_alta, Length: 1200, dtype: category
Categories (2, object): ['Alta por melhora clínica', 'Óbito']

Conclusão:

Existe 1200 registros sem datas de alta e motivos de alta.

Validação lógica: Motivo de alta não pode existir sem data de alta.

Criação de uma coluna: STATUS INTERNAÇÃO

In [13]:
# Data de admissao posterior a data de alta
filtro = df_base_01[df_base_01['data_admissao'] > df_base_01['data_alta']]
filtro[['data_admissao','data_alta']]

Unnamed: 0,data_admissao,data_alta


Conclusão: Não há data de admissão posteriores a data de alta.

In [14]:
# Interações em abertos:
df_base_01["status_internacao"] = np.where(
    df_base_01["data_alta"].isna(),
    "ATIVA",
    "ENCERRADA"
)

df_base_01["status_internacao"].value_counts()



status_internacao
ENCERRADA    18785
ATIVA         1200
Name: count, dtype: int64

Internações sem data e motivo de alta foram interpretadas como internações ativas,
não sendo tratadas como erro de dados.

### Valores

In [15]:
# Checagem de valores pagos e valores totais de conta negativos
filtro_valores = df_base_01[(df_base_01['valor_pago'] < 0) | (df_base_01['valor_total_conta'] < 0)]
filtro_valores

Unnamed: 0,senha_internacao,beneficiario_id,numero_carteirinha,nome_beneficiario,data_nascimento,idade,sexo,uf,municipio,hospital_id,...,suporte_ventilatorio_flag,hemodialise_flag,tempo_autorizacao_horas,auditoria_responsavel,empresa_auditoria,status_regulacao,glosa_flag,valor_total_conta,valor_pago,status_internacao


Conclusão: Não há valores negativos

In [16]:
# Tempo de autorização negativos
filtro_tempo_autorizacao = df_base_01[df_base_01['tempo_autorizacao_horas'] < 0]
filtro_tempo_autorizacao[['tempo_autorizacao_horas']]

Unnamed: 0,tempo_autorizacao_horas


Conclusão : Não há tempo de autorização negativos

In [17]:
delta = (
    df_base_01['data_autorizacao_senha'] -
    df_base_01['data_solicitacao_autorizacao']
)
df_base_01['tempo_autorizacao_horas_new'] = delta.dt.total_seconds() / 3600



filtro  = df_base_01[df_base_01['tempo_autorizacao_horas_new'] != df_base_01['tempo_autorizacao_horas']]
filtro[['tempo_autorizacao_horas','tempo_autorizacao_horas_new']]

Unnamed: 0,tempo_autorizacao_horas,tempo_autorizacao_horas_new
73,157.0,207.0
1586,6.0,376.0
3559,7.0,88.0
4844,11.0,445.0
5118,7.0,158.0
5274,42.0,281.0
6671,29.0,324.0
6958,37.0,247.0
7022,44.0,318.0
7306,211.0,361.0


Conclusão : Existe 20 registros com tempos de autorização divergentes entre o data_autorizacao_senha e data_solicitacao_autorizacao . Optando por uma nova coluna tempo_autorizacao_horas_new.

### CID - Validação sintática do CID 

In [18]:
# Import da base CID-10-CATEGORIAS.CSV
df_cid = pd.read_csv(r'C:\Projetos\case-ami-saude\data\raw\CID-10-CATEGORIAS.CSV',sep=';', encoding='latin-1')
df_cid

Unnamed: 0,CAT,CLASSIF,DESCRICAO,DESCRABREV,REFER,EXCLUIDOS,Unnamed: 6
0,A00,,Cólera,A00 Colera,,,
1,A01,,Febres tifóide e paratifóide,A01 Febres tifoide e paratifoide,,,
2,A02,,Outras infecções por Salmonella,A02 Outr infecc p/Salmonella,,,
3,A03,,Shiguelose,A03 Shiguelose,,,
4,A04,,Outras infecções intestinais bacterianas,A04 Outr infecc intestinais bacter,,,
...,...,...,...,...,...,...,...
2040,U80,,Agente resistente à penicilina e antibióticos ...,U80 Agente resist penicilina e antibiót relac,,,
2041,U81,,Agente resistente à vancomicina e antibióticos...,U81 Agente resist vancomicina e antibiót relac,,,
2042,U88,,Agente resistente a múltiplos antibióticos,U88 Agente resistente a múltiplos antibióticos,,,
2043,U89,,Agente resistente a outros antibióticos e a an...,U89 Agente resist outr antibiót e antibiót NE,,,


In [20]:
# Verificar formato dos CID-10
cid_pattern = re.compile(r"^[A-Z][0-9]{2}$")

df_base_01["cid_principal_formato_ok"] = df_base_01["cid_principal"].str.match(cid_pattern)
df_base_01["cid_secundario_formato_ok"] = df_base_01["cid_secundario"].str.match(cid_pattern)

# Os CID-10 devem seguir o formato letra maiúscula seguida de dois dígitos (ex: A00, B99)
filtro_cid = df_base_01[
    (df_base_01["cid_principal_formato_ok"] == False) |
    (df_base_01["cid_secundario_formato_ok"] == False)
]
filtro_cid[["cid_principal", "cid_secundario", "cid_principal_formato_ok", "cid_secundario_formato_ok"]]



Unnamed: 0,cid_principal,cid_secundario,cid_principal_formato_ok,cid_secundario_formato_ok


Conclusão: Todos os cids estão no formato esperado: Letra - 2 numeros

In [22]:
# Verificar se o CID está presente na tabela de categorias CID-10
cids_validos = set(df_cid['CAT'])

df_base_01["cid_principal_valido"] = df_base_01["cid_principal"].isin(cids_validos)
df_base_01["cid_secundario_valido"] = (df_base_01["cid_secundario"].isna() | df_base_01["cid_secundario"].isin(cids_validos))

filtro_cid_validos = df_base_01[
    (df_base_01["cid_principal_valido"] == False) |
    (df_base_01["cid_secundario_valido"] == False)
]
filtro_cid_validos[["cid_principal", "cid_secundario", "cid_principal_valido", "cid_secundario_valido"]]

Unnamed: 0,cid_principal,cid_secundario,cid_principal_valido,cid_secundario_valido


Conclusão: Todos os cids pertencem a uma catégoria existente da base externa CID.

In [24]:
# Verificar se o CID pertence a especialidade médica

mapa_especialidade_cid = {
    "Clínica Médica": (
        "A","B","E","I","J","K","N","R"
    ),
    "Pediatria": (
        "A","B","E","J","P","Q","R","Z"
    ),
    "Oncologia": (
        "C","D"
    ),
    "Nefrologia": (
        "N"
    ),
    "Ginecologia/Obstetrícia": (
        "O","N"
    ),
    "Pneumologia": (
        "J"
    ),
    "Cardiologia": (
        "I"
    ),
    "Gastroenterologia": (
        "K"
    ),
    "Ortopedia": (
        "M","S","T"
    ),
    "Neurologia": (
        "G","I"
    ),
    "Infectologia": (
        "A","B"
    ),
}


df_base_01["cid_principal_compativel_especialidade"] = df_base_01.apply(
    lambda x: cid_compativel_especialidade(
        x["cid_principal"],
        x["especialidade_responsavel"],
        mapa_especialidade_cid
    ),
    axis=1
)

df_base_01["cid_secundario_compativel_especialidade"] = df_base_01.apply(
    lambda x: cid_compativel_especialidade(
        x["cid_secundario"],
        x["especialidade_responsavel"],
        mapa_especialidade_cid
    ),
    axis=1
)

df_base_01['cid_principal_compativel_especialidade'].value_counts()

cid_principal_compativel_especialidade
False    16690
True      3295
Name: count, dtype: int64

In [25]:
df_base_01['cid_secundario_compativel_especialidade'].value_counts()

cid_secundario_compativel_especialidade
True     12541
False     7444
Name: count, dtype: int64

Conclusão: Para futuras auditorias, foi criado uma flag cid_principal_compativel_especialidade para verificar se o cid é correspondente a especialidade médica.

In [26]:
# Cid secundário poderia ser o primario:
cidp = df_base_01["cid_principal"].astype("string").str.strip().str.upper()
cids = df_base_01["cid_secundario"].astype("string").str.strip().str.upper()

tipo = df_base_01["tipo_internacao"].astype("string").str.strip()
carater = df_base_01["carater_internacao"].astype("string").str.strip()
esp = df_base_01["especialidade_responsavel"].astype("string").str.strip()

In [27]:
# Camada 1- 
"""
Tipo de internação Obstétrica → CID principal deve ser capítulo O

Tipo de internação Psiquiátrica → CID principal deve ser capítulo F 
"""

df_base_01["alerta_swap_obstetrica"] = (
    (tipo == "Obstétrica")
    & ~cidp.str.startswith("O", na=False)
    & cids.str.startswith("O", na=False)
)
df_base_01["alerta_swap_psiquiatrica"] = (
    (tipo == "Psiquiátrica")
    & ~cidp.str.startswith("F", na=False)
    & cids.str.startswith("F", na=False)
)


In [28]:
# Camada 2 - CID secundário mais compatível com a especialidade do que o CID principal

df_base_01["cidp_comp_esp"] = df_base_01.apply(
    lambda x: cid_compativel_especialidade(x["cid_principal"], x["especialidade_responsavel"], mapa_especialidade_cid),
    axis=1
)

df_base_01["cids_comp_esp"] = df_base_01.apply(
    lambda x: cid_compativel_especialidade(x["cid_secundario"], x["especialidade_responsavel"], mapa_especialidade_cid),
    axis=1
)

df_base_01["alerta_swap_especialidade"] = (~df_base_01["cidp_comp_esp"]) & (df_base_01["cids_comp_esp"])


In [29]:
# Camada 3 - CIDs genéricos (capítulos R e Z) não deveriam ser principais se houver um CID específico presente
"""
CIDs dos capítulos R e Z são frequentemente usados como diagnóstico provisório.
Quando eles aparecem como principal e existe um CID secundário mais específico, isso é um padrão clássico de hierarquia invertida.
"""
df_base_01["alerta_swap_generico"] = (
    cidp.str.startswith(("R","Z"), na=False)
    & cids.notna()
    & ~cids.str.startswith(("R","Z"), na=False)
)


In [30]:
# Camada 4 - Para internações eletivas, se o CID principal for de Ortopedia (capítulos S ou T), mas houver um CID secundário compatível com a especialidade, pode ser um swap de CID
"""
Eu não usei caráter como regra dura, mas como priorização.
Por exemplo, trauma como CID principal em internação eletiva é raro. Quando isso acontecia e o secundário era compatível com a especialidade, eu marcava como suspeito.
"""

df_base_01["alerta_swap_carater"] = (
    (carater == "Eletiva")
    & cidp.str.startswith(("S","T"), na=False)
    & df_base_01["cids_comp_esp"]  # secundário faz mais sentido pro setor
)


In [31]:
swap_cols = [
    "alerta_swap_obstetrica",
    "alerta_swap_psiquiatrica",
    "alerta_swap_especialidade",
    "alerta_swap_generico",
    "alerta_swap_carater",
]

df_base_01["alerta_swap"] = df_base_01[swap_cols].any(axis=1)
df_base_01["score_swap"] = df_base_01[swap_cols].sum(axis=1)


In [32]:
# O score de swap é uma métrica que soma o número de alertas acionados para cada internação. Quanto maior o score, mais suspeita é a internação de ter um swap de CID.
""" 
SCORE 0 - Todas as camadas de alerta estão limpas, sem indícios de swap de CID
SCORE 1 - Apenas 1 camada de alerta acionada, suspeita leve de swap
SOCRE 2 - alta probabilidade de inversão
"""

df_base_01['score_swap'].value_counts(normalize=True) *100

score_swap
1    48.996748
0    47.870903
2     3.132349
Name: proportion, dtype: Float64

Conclusão:

* Em uma internação hospitalar:
    * CID principal representa o motivo da internação
    * CID secundário representa comorbidades ou condições associadas
* Na prática, erros comuns acontecem:
    * CID genérico como principal (R/Z)
    * CID compatível com a especialidade ficando como secundário
    * CID obstétrico ou psiquiátrico fora do principal
    * Houve um achado de 3,13% dos cids secundários terem fores indícios de invesão com o principal.
    * Aproximadamente 48% dos cids precisam revisar.

# EDA - BASE 02 | Itens de internação

## Carregamento dos dados

In [34]:
# =========================
# Carregamento da Base 02
# =========================
path = "C:\\Projetos\\case-ami-saude\\data\\raw\\Base 2 – Itens da Internação.csv"
df_base_02 = pd.read_csv(path)

df_base_02.shape


(400000, 17)

A base possui 400000 registros e 17 colunas.


## Entendimento estrutural da base

In [40]:
df_base_02.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400000 entries, 0 to 399999
Data columns (total 17 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   item_id                400000 non-null  object 
 1   senha_internacao       400000 non-null  object 
 2   data_item              400000 non-null  object 
 3   tipo_item              400000 non-null  object 
 4   subtipo_item           400000 non-null  object 
 5   codigo_item            400000 non-null  object 
 6   descricao_item         400000 non-null  object 
 7   quantidade_solicitada  400000 non-null  int64  
 8   quantidade_autorizada  400000 non-null  int64  
 9   unidade_medida         400000 non-null  object 
 10  valor_unitario         400000 non-null  float64
 11  valor_total_item       400000 non-null  float64
 12  setor_execucao         400000 non-null  object 
 13  flag_pacote            400000 non-null  object 
 14  glosa_item_flag        400000 non-nu

In [42]:
df_base_02.describe(include="all")

Unnamed: 0,item_id,senha_internacao,data_item,tipo_item,subtipo_item,codigo_item,descricao_item,quantidade_solicitada,quantidade_autorizada,unidade_medida,valor_unitario,valor_total_item,setor_execucao,flag_pacote,glosa_item_flag,motivo_glosa,valor_glosado
count,400000,400000,400000,400000,400000,400000,400000,400000.0,400000.0,400000,400000.0,400000.0,400000,400000,400000,14261,400000.0
unique,400000,20005,395345,9,21,21,21,,,8,,,7,2,2,7,
top,IT000401837,SI20250001684,2025-01-08 12:10:50,Medicamento,Antibiótico (dose),MD_ATB,Antibiótico (dose),,,un,,,Enfermaria,Não,Não,Técnica - item não pertinente ao CID,
freq,1,56,3,116441,58559,58559,58559,,,121337,,,157096,390513,385739,2438,
mean,,,,,,,,10.117392,9.72816,,1105.629264,2596.045271,,,,,70.249906
std,,,,,,,,14.222409,13.956731,,2958.618241,4161.837195,,,,,667.57542
min,,,,,,,,1.0,0.0,,9.83,0.0,,,,,0.0
25%,,,,,,,,1.0,1.0,,96.54,523.7575,,,,,0.0
50%,,,,,,,,4.0,3.0,,207.21,1270.12,,,,,0.0
75%,,,,,,,,11.0,10.0,,907.95,2896.83,,,,,0.0


Conclusão – Estrutura

A base apresenta estrutura compatível com granularidade por itens.

## Qualidade básica dos dados

In [43]:
# Valores ausentes
df_base_02.isna().mean().sort_values(ascending=False) * 100


motivo_glosa             96.43475
item_id                   0.00000
senha_internacao          0.00000
tipo_item                 0.00000
data_item                 0.00000
codigo_item               0.00000
descricao_item            0.00000
quantidade_solicitada     0.00000
subtipo_item              0.00000
quantidade_autorizada     0.00000
unidade_medida            0.00000
valor_total_item          0.00000
valor_unitario            0.00000
setor_execucao            0.00000
flag_pacote               0.00000
glosa_item_flag           0.00000
valor_glosado             0.00000
dtype: float64

Conclusão: 96% dos dados de motivo glosa tem valores faltantes

In [48]:
# Valores duplicados
df_base_02.duplicated().sum()


np.int64(0)

Conclusão : Não foram encontrados valores duplicados.

In [51]:
df_base_02['subtipo_item']

0           Exames de imagem (un)
1                 Honorários (un)
2          Procedimento Cirúrgico
3               Diária Enfermaria
4             Medicamentos (dose)
                   ...           
399995          Diária Enfermaria
399996         Antibiótico (dose)
399997     Taxas e materiais (un)
399998    Fonoaudiologia (sessão)
399999    Fonoaudiologia (sessão)
Name: subtipo_item, Length: 400000, dtype: object

In [49]:
df_base_02.columns

Index(['item_id', 'senha_internacao', 'data_item', 'tipo_item', 'subtipo_item',
       'codigo_item', 'descricao_item', 'quantidade_solicitada',
       'quantidade_autorizada', 'unidade_medida', 'valor_unitario',
       'valor_total_item', 'setor_execucao', 'flag_pacote', 'glosa_item_flag',
       'motivo_glosa', 'valor_glosado'],
      dtype='object')

In [52]:
# Dominio de valores categoricos
for col in ["tipo_item", "subtipo_item", "descricao_item","unidade_medida","setor_execucao"]:
    print(col)
    display(df_base_02[col].value_counts(dropna=False, normalize=True) * 100)


tipo_item


tipo_item
Medicamento        29.11025
Terapia seriada    25.01625
Exame              15.48525
Taxa               13.98700
Procedimento        8.18975
Diária              5.99525
Suporte             1.17575
OPME                0.59000
Terapia             0.45050
Name: proportion, dtype: float64

subtipo_item


subtipo_item
Antibiótico (dose)               14.63975
Medicamentos (dose)              14.47050
Fonoaudiologia (sessão)           8.38450
Nutrição (atendimento)            8.32175
Fisioterapia (sessão)             8.31000
Exames de imagem (un)             7.75175
Exames laboratoriais (pacote)     7.73100
Honorários (un)                   7.01975
Taxas e materiais (un)            6.96725
Diária Enfermaria                 4.98150
Procedimento Cirúrgico            4.30650
Procedimento Clínico              2.30900
Procedimento SADT                 1.57400
Ventilação mecânica (dia)         1.17575
Diária UTI                        1.01375
Hemodiálise (sessão)              0.45050
OPME Geral (material)             0.36675
OPME Ortopedia (kit)              0.18400
OPME Cardiologia (stent)          0.03925
Imagem                            0.00250
Cirurgia obstétrica               0.00025
Name: proportion, dtype: float64

descricao_item


descricao_item
Antibiótico (dose)                14.63975
Medicamentos (dose)               14.47050
Fonoaudiologia (sessão)            8.38450
Nutrição (atendimento)             8.32175
Fisioterapia (sessão)              8.31000
Exames de imagem (un)              7.75175
Exames laboratoriais (pacote)      7.73100
Honorários (un)                    7.01975
Taxas e materiais (un)             6.96725
Diária Enfermaria                  4.98150
Procedimento Cirúrgico             4.30650
Procedimento Clínico               2.30900
Procedimento SADT                  1.57400
Ventilação mecânica (dia)          1.17575
Diária UTI                         1.01375
Hemodiálise (sessão)               0.45050
OPME Geral (material)              0.36675
OPME Ortopedia (kit)               0.18400
OPME Cardiologia (stent)           0.03925
Exame não vinculado (anomalia)     0.00250
Parto cesáreo                      0.00025
Name: proportion, dtype: float64

unidade_medida


unidade_medida
un              30.33425
dose            29.11025
sessão          25.46675
pacote           7.73100
diária           7.17100
kit              0.18400
exame            0.00250
procedimento     0.00025
Name: proportion, dtype: float64

setor_execucao


setor_execucao
Enfermaria          39.27400
Farmácia            29.11025
SADT                17.05675
Administrativo       7.01975
Centro Cirúrgico     4.89675
UTI                  2.64000
Diagnóstico          0.00250
Name: proportion, dtype: float64

Conclusão: Essa é a distribuição dos dados categóricos.

## Pipeline de tipagem dos dados

* A pipeline aplica técnicas de tipagem das colunas

In [53]:
df_base_02 = pipeline_universal_limpeza(df_base_01)