# Análise Exploratória de Dados (EDA)

**Dataset:** SIH/DataSUS - Acre, Janeiro 2024

**Objetivo:** Explorar dados de internações hospitalares para validar qualidade e identificar padrões.

**Referência:** docs/DATA_GUIDE.md

---

## Índice

1. [Setup e Carregamento](#1-setup-e-carregamento)
2. [Visão Geral do Dataset](#2-visão-geral-do-dataset)
3. [Estatísticas Descritivas](#3-estatísticas-descritivas)
4. [Análise de Qualidade](#4-análise-de-qualidade)
5. [Distribuições](#5-distribuições)
6. [Insights e Conclusões](#6-insights-e-conclusões)

## 1. Setup e Carregamento

In [1]:
# Imports
from pathlib import Path

import pandas as pd

# Configurações pandas
pd.set_option("display.max_columns", 50)
pd.set_option("display.float_format", "{:.2f}".format)

# Path do projeto
PROJECT_ROOT = Path.cwd().parent
DATA_PATH = PROJECT_ROOT / "data" / "processed" / "SIH_AC_202401.parquet"

print(f"Projeto: {PROJECT_ROOT}")
print(f"Dados: {DATA_PATH}")
print(f"Arquivo existe: {DATA_PATH.exists()}")

Projeto: /home/fabiodelllima/Documents/DataSUS/datasus-analytics
Dados: /home/fabiodelllima/Documents/DataSUS/datasus-analytics/data/processed/SIH_AC_202401.parquet
Arquivo existe: True


In [2]:
# Carregar dados
df = pd.read_parquet(DATA_PATH)
print(f"Registros: {len(df):,}")
print(f"Colunas: {len(df.columns)}")

Registros: 4,315
Colunas: 118


## 2. Visão Geral do Dataset

In [3]:
# Informações gerais
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4315 entries, 0 to 4314
Columns: 118 entries, UF_ZI to specialty_name
dtypes: Float64(6), Int64(2), boolean(1), category(1), datetime64[ns](2), int64(1), object(1), string(104)
memory usage: 3.9+ MB


In [4]:
# Primeiros registros
df.head()

Unnamed: 0,UF_ZI,ANO_CMPT,MES_CMPT,ESPEC,CGC_HOSP,N_AIH,IDENT,CEP,MUNIC_RES,NASC,SEXO,UTI_MES_IN,UTI_MES_AN,UTI_MES_AL,UTI_MES_TO,MARCA_UTI,UTI_INT_IN,UTI_INT_AN,UTI_INT_AL,UTI_INT_TO,DIAR_ACOM,QT_DIARIAS,PROC_SOLIC,PROC_REA,VAL_SH,...,VAL_UCI,MARCA_UCI,DIAGSEC1,DIAGSEC2,DIAGSEC3,DIAGSEC4,DIAGSEC5,DIAGSEC6,DIAGSEC7,DIAGSEC8,DIAGSEC9,TPDISEC1,TPDISEC2,TPDISEC3,TPDISEC4,TPDISEC5,TPDISEC6,TPDISEC7,TPDISEC8,TPDISEC9,stay_days,daily_cost,age_group,death,specialty_name
0,120000,2024,1,3,4034526003240,1224100061118,1,69970000,120060,20240117,3,0,0,0,0,0,0,0,0,0,0,2,301060010,301060010,35.65,...,0.0,0,,,,,,,,,,0,0,0,0,0,0,0,0,0,2,23.64,0-17,False,3
1,120000,2024,1,3,4034526003240,1224100061239,1,69970000,120060,19970419,3,0,0,0,0,0,0,0,0,0,0,2,301060088,301060088,33.34,...,0.0,0,,,,,,,,,,0,0,0,0,0,0,0,0,0,2,22.11,18-29,False,3
2,120000,2024,1,3,4034526003240,1224100061240,1,69970000,120060,20021107,3,0,0,0,0,0,0,0,0,0,0,1,301060088,301060088,33.34,...,0.0,0,,,,,,,,,,0,0,0,0,0,0,0,0,0,0,44.22,18-29,False,3
3,120000,2024,1,3,4034526000305,1223100542675,1,69900970,120040,19850625,3,0,0,0,0,0,0,0,0,0,2,2,303100036,303100036,114.01,...,0.0,0,,,,,,,,,,0,0,0,0,0,0,0,0,0,2,70.5,30-44,False,3
4,120000,2024,1,3,4034526000305,1223100565709,1,69900970,120040,19951007,3,0,0,0,0,0,0,0,0,0,12,12,303100044,303100044,303.59,...,0.0,0,,,,,,,,,,0,0,0,0,0,0,0,0,0,12,29.23,18-29,False,3


In [5]:
# Campos principais (conforme DATA_GUIDE.md)
campos_principais = [
    "N_AIH",
    "DT_INTER",
    "DT_SAIDA",
    "IDADE",
    "SEXO",
    "DIAG_PRINC",
    "PROC_REA",
    "ESPEC",
    "VAL_TOT",
    "stay_days",
    "daily_cost",
    "age_group",
    "death",
]

# Verificar quais existem
campos_existentes = [c for c in campos_principais if c in df.columns]
print(f"Campos principais encontrados: {len(campos_existentes)}/{len(campos_principais)}")
print(campos_existentes)

Campos principais encontrados: 13/13
['N_AIH', 'DT_INTER', 'DT_SAIDA', 'IDADE', 'SEXO', 'DIAG_PRINC', 'PROC_REA', 'ESPEC', 'VAL_TOT', 'stay_days', 'daily_cost', 'age_group', 'death']


In [6]:
# Amostra dos campos principais
df[campos_existentes].head(10)

Unnamed: 0,N_AIH,DT_INTER,DT_SAIDA,IDADE,SEXO,DIAG_PRINC,PROC_REA,ESPEC,VAL_TOT,stay_days,daily_cost,age_group,death
0,1224100061118,2024-01-18,2024-01-20,1,3,Q18,301060010,3,47.27,2,23.64,0-17,False
1,1224100061239,2024-01-24,2024-01-26,26,3,Z371,301060088,3,44.22,2,22.11,18-29,False
2,1224100061240,2024-01-30,2024-01-30,21,3,R10,301060088,3,44.22,0,44.22,18-29,False
3,1223100542675,2023-11-10,2023-11-12,38,3,O140,303100036,3,140.99,2,70.5,30-44,False
4,1223100565709,2023-11-11,2023-11-23,28,3,O998,303100044,3,350.8,12,29.23,18-29,False
5,1223100572518,2023-12-11,2023-12-22,33,3,E149,303030038,3,509.98,11,46.36,30-44,False
6,1224100029273,2024-01-13,2024-01-15,22,3,O809,310010039,2,515.6,2,257.8,18-29,False
7,1224100029284,2024-01-04,2024-01-06,43,3,O809,310010039,2,515.6,2,257.8,30-44,False
8,1224100029317,2024-01-02,2024-01-03,21,3,O809,310010039,2,507.6,1,507.6,18-29,False
9,1224100029526,2024-01-24,2024-01-27,19,3,O809,310010039,2,523.6,3,174.53,18-29,False


## 3. Estatísticas Descritivas

In [7]:
# Estatísticas numéricas
df.describe()

Unnamed: 0,SEXO,VAL_SH,VAL_SP,VAL_SADT,VAL_TOT,VAL_UTI,DT_INTER,DT_SAIDA,IDADE,stay_days,daily_cost
count,4315.0,4315.0,4315.0,4315.0,4315.0,4315.0,4315,4315,4315.0,4315.0,4315.0
mean,2.18,768.88,229.52,0.0,998.39,223.29,2023-12-29 19:12:40.046349824,2024-01-03 11:15:06.882966528,36.72,4.67,302.04
min,1.0,30.47,7.21,0.0,40.38,0.0,2023-01-27 00:00:00,2023-10-01 00:00:00,0.0,0.0,0.74
25%,1.0,203.93,39.5,0.0,258.53,0.0,2023-12-19 00:00:00,2023-12-24 00:00:00,21.0,1.0,71.1
50%,3.0,319.44,96.39,0.0,493.48,0.0,2024-01-04 00:00:00,2024-01-08 00:00:00,33.0,2.0,176.17
75%,3.0,589.23,241.0,0.0,729.31,0.0,2024-01-15 00:00:00,2024-01-18 00:00:00,52.0,5.0,356.65
max,3.0,99310.49,17973.95,0.0,110802.21,54720.0,2024-01-31 00:00:00,2024-01-31 00:00:00,98.0,337.0,11485.68
std,0.98,2914.17,726.74,0.0,3482.28,1835.03,,,22.08,8.47,557.38


In [8]:
# Campos numéricos de interesse
campos_numericos = ["IDADE", "VAL_TOT", "stay_days", "daily_cost"]
campos_num_existentes = [c for c in campos_numericos if c in df.columns]

df[campos_num_existentes].describe()

Unnamed: 0,IDADE,VAL_TOT,stay_days,daily_cost
count,4315.0,4315.0,4315.0,4315.0
mean,36.72,998.39,4.67,302.04
std,22.08,3482.28,8.47,557.38
min,0.0,40.38,0.0,0.74
25%,21.0,258.53,1.0,71.1
50%,33.0,493.48,2.0,176.17
75%,52.0,729.31,5.0,356.65
max,98.0,110802.21,337.0,11485.68


In [9]:
# Estatísticas categóricas
print("=== Distribuição por Sexo ===")
print(df["SEXO"].value_counts())
print()
print("=== Top 10 Diagnósticos Principais ===")
print(df["DIAG_PRINC"].value_counts().head(10))
print()
print("=== Distribuição por Especialidade ===")
print(df["ESPEC"].value_counts())

=== Distribuição por Sexo ===
SEXO
3    2554
1    1761
Name: count, dtype: Int64

=== Top 10 Diagnósticos Principais ===
DIAG_PRINC
O800    333
O809    106
K359     97
N390     95
K808     95
O759     79
J189     67
O821     56
A90      50
O064     48
Name: count, dtype: Int64

=== Distribuição por Especialidade ===
ESPEC
03    1568
01    1566
02     724
07     398
05      59
Name: count, dtype: Int64


## 4. Análise de Qualidade

In [10]:
# Verificar valores nulos
nulos = df.isnull().sum()
nulos_pct = (nulos / len(df) * 100).round(2)

qualidade = pd.DataFrame({"nulos": nulos, "pct_nulos": nulos_pct})

# Mostrar apenas campos com nulos
print("=== Campos com valores nulos ===")
qualidade[qualidade["nulos"] > 0].sort_values("nulos", ascending=False).head(20)

=== Campos com valores nulos ===


Unnamed: 0,nulos,pct_nulos
age_group,52,1.21


In [11]:
# Campos críticos (devem ter 0% nulos)
campos_criticos = ["N_AIH", "DT_INTER", "DT_SAIDA", "VAL_TOT"]

print("=== Completude Campos Críticos ===")
for campo in campos_criticos:
    if campo in df.columns:
        completude = (1 - df[campo].isnull().sum() / len(df)) * 100
        print(f"{campo}: {completude:.1f}%")

=== Completude Campos Críticos ===
N_AIH: 100.0%
DT_INTER: 100.0%
DT_SAIDA: 100.0%
VAL_TOT: 100.0%


In [12]:
# Verificar duplicatas
duplicatas = df.duplicated(subset=["N_AIH"]).sum()
print(f"Duplicatas por N_AIH: {duplicatas}")

# Verificar consistência de datas
if "DT_INTER" in df.columns and "DT_SAIDA" in df.columns:
    datas_invalidas = (df["DT_INTER"] > df["DT_SAIDA"]).sum()
    print(f"Registros com DT_INTER > DT_SAIDA: {datas_invalidas}")

Duplicatas por N_AIH: 0
Registros com DT_INTER > DT_SAIDA: 0


## 5. Distribuições

In [13]:
# Distribuição por faixa etária
print("=== Distribuição por Faixa Etária ===")
if "age_group" in df.columns:
    dist_idade = df["age_group"].value_counts().sort_index()
    print(dist_idade)
    print()
    print("Percentual:")
    print((dist_idade / len(df) * 100).round(1))

=== Distribuição por Faixa Etária ===
age_group
0-17      803
18-29    1116
30-44     997
45-59     605
60+       742
Name: count, dtype: int64

Percentual:
age_group
0-17    18.60
18-29   25.90
30-44   23.10
45-59   14.00
60+     17.20
Name: count, dtype: float64


In [14]:
# Distribuição de valores
print("=== Distribuição VAL_TOT ===")
print(df["VAL_TOT"].describe())
print()
print("Percentis adicionais:")
for p in [90, 95, 99]:
    print(f"  P{p}: R$ {df['VAL_TOT'].quantile(p / 100):,.2f}")

=== Distribuição VAL_TOT ===
count     4315.00
mean       998.39
std       3482.28
min         40.38
25%        258.53
50%        493.48
75%        729.31
max     110802.21
Name: VAL_TOT, dtype: Float64

Percentis adicionais:
  P90: R$ 1,137.91
  P95: R$ 2,371.19
  P99: R$ 12,612.20


In [15]:
# Distribuição de permanência
print("=== Distribuição stay_days ===")
if "stay_days" in df.columns:
    print(df["stay_days"].describe())
    print()
    print("Percentis adicionais:")
    for p in [90, 95, 99]:
        print(f"  P{p}: {df['stay_days'].quantile(p / 100):.0f} dias")

=== Distribuição stay_days ===
count   4315.00
mean       4.67
std        8.47
min        0.00
25%        1.00
50%        2.00
75%        5.00
max      337.00
Name: stay_days, dtype: float64

Percentis adicionais:
  P90: 10 dias
  P95: 15 dias
  P99: 34 dias


In [16]:
# Taxa de óbito
if "death" in df.columns:
    obitos = df["death"].sum()
    taxa_obito = obitos / len(df) * 100
    print("=== Taxa de Óbito ===")
    print(f"Óbitos: {obitos}")
    print(f"Taxa: {taxa_obito:.2f}%")

=== Taxa de Óbito ===
Óbitos: 0
Taxa: 0.00%


## 6. Insights e Conclusões

In [17]:
# Resumo executivo
print("=" * 50)
print("RESUMO EXECUTIVO - EDA SIH/DataSUS AC Jan/2024")
print("=" * 50)
print()
print(f"Total de internações: {len(df):,}")
print("Período: Janeiro 2024")
print("Estado: Acre (AC)")
print()
print("--- Qualidade dos Dados ---")
print("Completude campos críticos: 100%")
print("Duplicatas: 0")
print("Consistência datas: 100%")
print()
print("--- Métricas Principais ---")
print(f"Valor total: R$ {df['VAL_TOT'].sum():,.2f}")
print(f"Ticket médio: R$ {df['VAL_TOT'].mean():,.2f}")
if "stay_days" in df.columns:
    print(f"Permanência média: {df['stay_days'].mean():.1f} dias")
if "death" in df.columns:
    print(f"Taxa óbito: {df['death'].sum() / len(df) * 100:.2f}%")

RESUMO EXECUTIVO - EDA SIH/DataSUS AC Jan/2024

Total de internações: 4,315
Período: Janeiro 2024
Estado: Acre (AC)

--- Qualidade dos Dados ---
Completude campos críticos: 100%
Duplicatas: 0
Consistência datas: 100%

--- Métricas Principais ---
Valor total: R$ 4,308,072.76
Ticket médio: R$ 998.39
Permanência média: 4.7 dias
Taxa óbito: 0.00%


### Insights Identificados

1. **Qualidade dos dados:** Excelente - 100% completude em campos críticos
2. **Volume:** Dataset adequado para POC (~4.300 registros)
3. **Distribuição etária:** [A ser preenchido após execução]
4. **Principais diagnósticos:** [A ser preenchido após execução]
5. **Valores outliers:** [A ser preenchido após execução]

### Limitações

- Dataset limitado a um estado (AC) e um mês (Jan/2024)
- Códigos ESPEC e PROC_REA sem descrição legível
- Sem integração com tabelas auxiliares SIGTAP

### Próximos Passos

1. Gerar visualizações matplotlib
2. Expandir para estado ES (validação)
3. Integrar tabelas de referência no MVP