# Limpeza e Tratamento
A limpeza e tratamento de dados é uma etapa essencial no processo de análise de dados, que visa corrigir inconsistências, remover ou imputar valores ausentes, e transformar os dados para um formato adequado à análise. Isso inclui a **remoção de duplicatas**, **conversão de tipos**, e **normalização de valores**, garantindo que os dados estejam prontos para modelagem e insights precisos.

In [244]:
import pandas as pd

In [245]:
df = pd.read_csv('../../data/csv/copy3_of_Anexo_I_Rol_2021RN_465.2021_RN627L.2024.csv')

## Padronização - Remoção e renomeação de colunas
``Legenda extraída do arquivo PDF.``  
Foi aplicado um mapeamento via dicionário (``new_columns_names``) e, posteriormente, as colunas restantes foram formatadas com capitalização (``.title()``), preservando exceções específicas como **RN**. Essa abordagem melhora a legibilidade e consistência da estrutura do DataFrame para análises futuras.

In [246]:
df.columns

Index(['PROCEDIMENTO', 'RN\r(alteração)', 'VIGÊNCIA', 'OD', 'AMB', 'HCO',
       'HSO', 'REF', 'PAC', 'DUT', 'SUBGRUPO', 'GRUPO', 'CAPÍTULO'],
      dtype='object')

In [247]:
new_columns_names: dict = {
    'RN\r(alteração)': 'RN',
    'OD': 'Seg. Odontológica',
    'AMB': 'Seg. Ambulatorial',
    'HCO': 'Seg. Hospitalar Com Obstetrícia',
    'HSO': 'Seg. Hospitalar Sem Obstetrícia',
    'REF': 'Plano Referência',
    'PAC': 'Procedimento de Alta Complexidade',
    'DUT': 'Diretriz de Utilização',
}

df = df.rename(columns=new_columns_names)
df.columns = [
    col
    if col == 'RN'
    else col.title()
    for col in df.columns
]
df.columns

Index(['Procedimento', 'RN', 'Vigência', 'Seg. Odontológica',
       'Seg. Ambulatorial', 'Seg. Hospitalar Com Obstetrícia',
       'Seg. Hospitalar Sem Obstetrícia', 'Plano Referência',
       'Procedimento De Alta Complexidade', 'Diretriz De Utilização',
       'Subgrupo', 'Grupo', 'Capítulo'],
      dtype='object')

Foram **removidas** as colunas ``RN, Vigência e Diretriz De Utilização`` do DataFrame por meio do método ``drop``, com o parâmetro ``axis=1`` indicando que a operação ocorre em colunas, e ``inplace=True`` garantindo a alteração direta no objeto original. Essa exclusão é útil para eliminar atributos irrelevantes ou redundantes na análise. **As colunas citadas representam resoluções normativas**.

In [248]:
df.drop(['RN', 'Vigência', 'Diretriz De Utilização'], axis=1, inplace=True)
df.columns

Index(['Procedimento', 'Seg. Odontológica', 'Seg. Ambulatorial',
       'Seg. Hospitalar Com Obstetrícia', 'Seg. Hospitalar Sem Obstetrícia',
       'Plano Referência', 'Procedimento De Alta Complexidade', 'Subgrupo',
       'Grupo', 'Capítulo'],
      dtype='object')

In [249]:
df.head()

Unnamed: 0,Procedimento,Seg. Odontológica,Seg. Ambulatorial,Seg. Hospitalar Com Obstetrícia,Seg. Hospitalar Sem Obstetrícia,Plano Referência,Procedimento De Alta Complexidade,Subgrupo,Grupo,Capítulo
0,ACONSELHAMENTO GENÉTICO,,AMB,HCO,HSO,REF,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
1,ATENDIMENTO/ACOMPANHAMENTO EM HOSPITAL-DIA PSI...,,,HCO,HSO,REF,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
2,ATENDIMENTO INTEGRAL AO RECÉM-NASCIDO (SALA DE...,,,HCO,,REF,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
3,ATENDIMENTO MÉDICO DO INTENSIVISTA EM UTI GERA...,,,HCO,HSO,REF,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
4,ATENDIMENTO PEDIÁTRICO A GESTANTES (3o TRIMESTRE),,AMB,HCO,,REF,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS


## Normalização de dados
Foi criado um dicionário ``procedures_types`` com o mapeamento entre os nomes dos tipos de cobertura e seus respectivos códigos. Em seguida, para cada coluna correspondente, os valores foram **convertidos** para ``booleanos (True ou False)``, indicando a presença exata do código do procedimento. A função ``apply`` com ``lambda`` foi utilizada para realizar essa **verificação linha a linha**, transformando a coluna em uma representação binária clara e adequada para análises.

In [250]:
procedures_types: dict = {
    'Seg. Odontológica': 'OD',
    'Seg. Ambulatorial': 'AMB',
    'Seg. Hospitalar Com Obstetrícia': 'HCO',
    'Seg. Hospitalar Sem Obstetrícia': 'HSO',
    'Plano Referência': 'REF',
    'Procedimento De Alta Complexidade': 'PAC',
}
for procedure_name, procedure_code in procedures_types.items():
    df[procedure_name] = df[procedure_name].apply(lambda x: True if x == procedure_code else False)
df.head()

Unnamed: 0,Procedimento,Seg. Odontológica,Seg. Ambulatorial,Seg. Hospitalar Com Obstetrícia,Seg. Hospitalar Sem Obstetrícia,Plano Referência,Procedimento De Alta Complexidade,Subgrupo,Grupo,Capítulo
0,ACONSELHAMENTO GENÉTICO,False,True,True,True,True,False,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
1,ATENDIMENTO/ACOMPANHAMENTO EM HOSPITAL-DIA PSI...,False,False,True,True,True,False,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
2,ATENDIMENTO INTEGRAL AO RECÉM-NASCIDO (SALA DE...,False,False,True,False,True,False,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
3,ATENDIMENTO MÉDICO DO INTENSIVISTA EM UTI GERA...,False,False,True,True,True,False,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
4,ATENDIMENTO PEDIÁTRICO A GESTANTES (3o TRIMESTRE),False,True,True,False,True,False,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS


In [251]:
df.describe(include='all')

Unnamed: 0,Procedimento,Seg. Odontológica,Seg. Ambulatorial,Seg. Hospitalar Com Obstetrícia,Seg. Hospitalar Sem Obstetrícia,Plano Referência,Procedimento De Alta Complexidade,Subgrupo,Grupo,Capítulo
count,3392,3392,3392,3392,3392,3392,3392,3392,3392,3392
unique,3374,2,2,2,2,2,2,159,28,4
top,TRATAMENTO CIRÚRGICO DA OSTEOMIELITE,False,True,True,True,True,False,IMUNOLOGIA,PROCEDIMENTOS LABORATORIAIS,PROCEDIMENTOS CIRÚRGICOS E INVASIVOS
freq,4,3252,1699,3256,3222,3287,2922,188,643,1887
