# Análise Inicial
Esse notebook tem como foco a etapa de **Data Understanding**, na qual são realizadas análises iniciais dos dados, incluindo a visualização de distribuições, identificação de valores ausentes e detecção de outliers, com o objetivo de compreender a estrutura e a qualidade do conjunto de dados.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../../data/csv/copy3_of_Anexo_I_Rol_2021RN_465.2021_RN627L.2024.csv')

In [3]:
df.shape

(3392, 13)

In [4]:
df.dtypes

PROCEDIMENTO        object
RN\r(alteração)     object
VIGÊNCIA            object
OD                  object
AMB                 object
HCO                 object
HSO                 object
REF                 object
PAC                 object
DUT                float64
SUBGRUPO            object
GRUPO               object
CAPÍTULO            object
dtype: object

O DataFrame analisado possui ``13 colunas``, majoritariamente do tipo **object**, indicando dados categóricos ou alfanuméricos. Apenas a coluna ``DUT`` é do tipo **float64**, sugerindo dados numéricos contínuos. A presença de ``\r`` em ``“RN\r(alteração)”`` e abreviações no nome de atributos indicam a necessidade de tratamento textual.

In [5]:
df.describe(include='all')

Unnamed: 0,PROCEDIMENTO,RN\r(alteração),VIGÊNCIA,OD,AMB,HCO,HSO,REF,PAC,DUT,SUBGRUPO,GRUPO,CAPÍTULO
count,3392,49,49,140,1699,3256,3222,3287,470,175.0,3392,3392,3392
unique,3374,25,25,1,1,1,1,1,1,,159,28,4
top,TRATAMENTO CIRÚRGICO DA OSTEOMIELITE,541/2022,01/08/2022,OD,AMB,HCO,HSO,REF,PAC,,IMUNOLOGIA,PROCEDIMENTOS LABORATORIAIS,PROCEDIMENTOS CIRÚRGICOS E INVASIVOS
freq,4,7,7,140,1699,3256,3222,3287,470,,188,643,1887
mean,,,,,,,,,,83.834286,,,
std,,,,,,,,,,51.18269,,,
min,,,,,,,,,,1.0,,,
25%,,,,,,,,,,39.5,,,
50%,,,,,,,,,,83.0,,,
75%,,,,,,,,,,127.5,,,


A análise descritiva revela que o dataset contém ``3.392 registros``, com colunas majoritariamente categóricas. A maioria das colunas possui **baixa cardinalidade**, exceto ``PROCEDIMENTO`` (3.374 valores únicos). A coluna ``DUT``, numérica (float64), apresenta **valores de 1 a 171**, com média 83,8 e desvio padrão 51,18, sendo a única com estatísticas numéricas completas. Algumas colunas têm **grande quantidade de valores ausentes**, como ``DUT`` (presente em apenas 175 registros), o que sugere a necessidade de tratamento adicional na etapa de preparação dos dados.

In [6]:
(df.isnull().sum() / len(df)) * 100

PROCEDIMENTO        0.000000
RN\r(alteração)    98.555425
VIGÊNCIA           98.555425
OD                 95.872642
AMB                49.911557
HCO                 4.009434
HSO                 5.011792
REF                 3.095519
PAC                86.143868
DUT                94.840802
SUBGRUPO            0.000000
GRUPO               0.000000
CAPÍTULO            0.000000
dtype: float64

A análise da taxa de valores ausentes ``(%)`` indica que diversas colunas possuem **alto índice de missing values**. ``RN\r(alteração), VIGÊNCIA e PAC`` apresentam mais de **85% de valores nulos**, comprometendo sua utilidade imediata sem imputação ou exclusão. ``DUT (94,84%) e OD (95,87%)`` também apresentam **ausência crítica**. Em contrapartida, colunas como ``PROCEDIMENTO, SUBGRUPO, GRUPO e CAPÍTULO`` **estão completas**, sendo candidatas ideais para análises e segmentações iniciais. Essa distribuição sugere a necessidade de uma etapa cuidadosa de **data cleaning** e avaliação do impacto da imputação ou exclusão de colunas.