In [113]:
import pandas as pd
import numpy as np
import os

# Juntar bases de dados

In [85]:
# Pasta onde estão os arquivos CSV
pasta_csv = 'C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SIM'

# Lista para armazenar todos os DataFrames
dataframes = []

# Loop pelos anos de 2017 até 2023
for ano in range(2017, 2024):
    nome_arquivo = f'Mortalidade_Geral_{ano}.csv'
    caminho_completo = os.path.join(pasta_csv, nome_arquivo)
    
    if os.path.exists(caminho_completo):
        df = pd.read_csv(caminho_completo, sep=';', low_memory=False)
        
        if 'CODMUNNATU' in df.columns:
            df_filtrado = df[df['CODMUNNATU'].astype(str).str.startswith("21")]
            
            if not df_filtrado.empty:
                # Converte DTNASC para numérico, lidando com erros usando .loc[]
                df_filtrado.loc[:, 'DTNASC'] = pd.to_numeric(df_filtrado['DTNASC'], errors='coerce')

                # Filtra apenas as linhas válidas (sem NaN)
                df_filtrado = df_filtrado[df_filtrado['DTNASC'].notna()]

                # Extrai o ano de nascimento com base no formato
                def extrair_ano(dt):
                    dt_str = str(int(dt))  # Remove o decimal
                    return int(dt_str[-4:])  # Extrai os últimos quatro dígitos como ano

                # Aplica a função para criar a coluna de ano de nascimento
                df_filtrado['ano_nascimento'] = df_filtrado['DTNASC'].apply(extrair_ano)
                
                # Aplica o filtro para manter aqueles que nasceram entre 2017 e 2022 e IDADE <= 227
                df_filtrado = df_filtrado[(df_filtrado['ano_nascimento'].between(2017, 2022)) & (df_filtrado['IDADE'] <= 227)]
                
                dataframes.append(df_filtrado)
                print(f'Arquivo {nome_arquivo} carregado e filtrado com sucesso.')
            else:
                print(f'Arquivo {nome_arquivo} não contém códigos que começam com "21".')
        else:
            print(f'Coluna "CODMUNNATU" não encontrada no arquivo {nome_arquivo}. Colunas disponíveis: {df.columns.tolist()}')
    else:
        print(f'Arquivo {nome_arquivo} não encontrado.')

# Junta todos os DataFrames filtrados em um único
if dataframes:
    df_completo = pd.concat(dataframes, ignore_index=True)
    df_completo.to_csv('C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SIM\\SIM_MA.csv', sep=';', index=False)
    print("Todos os arquivos CSV foram combinados com sucesso!")
else:
    print("Nenhum arquivo CSV foi combinado, pois nenhum contém códigos que começam com '21'.")


Arquivo Mortalidade_Geral_2017.csv carregado e filtrado com sucesso.
Arquivo Mortalidade_Geral_2018.csv carregado e filtrado com sucesso.
Arquivo Mortalidade_Geral_2019.csv carregado e filtrado com sucesso.
Arquivo Mortalidade_Geral_2020.csv carregado e filtrado com sucesso.
Arquivo Mortalidade_Geral_2021.csv carregado e filtrado com sucesso.
Arquivo Mortalidade_Geral_2022.csv carregado e filtrado com sucesso.
Arquivo Mortalidade_Geral_2023.csv carregado e filtrado com sucesso.
Todos os arquivos CSV foram combinados com sucesso!


# Remover dados

In [138]:
df_sim = pd.read_csv('C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SIM//SIM_MA.csv', 
                     low_memory=False, sep=";")
pd.set_option('display.max_rows', None)  
pd.set_option('display.max_columns', None)

In [139]:
df_sim.rename(columns={'CODMUNNATU': 'CODMUNNASC'}, inplace=True)

In [140]:
df_sim.head().T

Unnamed: 0,0,1,2,3,4
CONTADOR,12.0,52.0,110.0,178.0,184.0
ORIGEM,1,1,1,1,1
TIPOBITO,2,2,2,2,2
DTOBITO,10032017,21032017,17032017,1072017,5062017
HORAOBITO,845.0,700.0,2350.0,2100.0,1640.0
NATURAL,821.0,821.0,821.0,821.0,821.0
CODMUNNASC,210690.0,211050.0,210330.0,210910.0,210047.0
DTNASC,9032017.0,15032017.0,17032017.0,1072017.0,22052017.0
IDADE,201,206,107,101,214
SEXO,1,2,2,1,2


In [141]:
len(df_sim)

5535

In [142]:
df_sim.isnull().sum().sum()

200362

In [143]:
colunas_para_trabalhar = [
 'DTNASC',
 'SEXO',
 'CODMUNNASC',
 'GESTACAO',
 'PARTO',
 'IDADEMAE',
 'RACACOR',
 'ESCMAE'
]

In [144]:
df_sim_trab = df_sim[colunas_para_trabalhar]

In [145]:
df_sim_trab.head().T

Unnamed: 0,0,1,2,3,4
DTNASC,9032017.0,15032017.0,17032017.0,1072017.0,22052017.0
SEXO,1.0,2.0,2.0,1.0,2.0
CODMUNNASC,210690.0,211050.0,210330.0,210910.0,210047.0
GESTACAO,5.0,3.0,5.0,4.0,5.0
PARTO,2.0,1.0,1.0,1.0,1.0
IDADEMAE,19.0,21.0,30.0,22.0,19.0
RACACOR,1.0,4.0,4.0,1.0,1.0
ESCMAE,4.0,9.0,3.0,4.0,4.0


In [146]:
df_sim_trab = df_sim_trab.dropna()

In [147]:
len(df_sim_trab)

4123

In [148]:
df_sim_trab = df_sim_trab.drop_duplicates()

In [149]:
len(df_sim_trab)

4090

In [150]:
df_sim_trab = df_sim_trab.astype(float)

In [151]:
df_sim_trab.to_csv('C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SIM\\SIM_MA_V1_REM.csv')