In [2]:
import pandas as pd
import numpy as np
import os

# Juntar base de dados

In [78]:
# Pasta onde estão os arquivos CSV
pasta_csv = 'C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SINASC'

# Lista para armazenar todos os DataFrames
dataframes = []

# Loop pelos anos de 2017 até 2022
for ano in range(2017, 2023):
    nome_arquivo = f'DNMA{ano}.csv'  # Formato do nome dos arquivos
    caminho_completo = os.path.join(pasta_csv, nome_arquivo)
    
    # Verifica se o arquivo existe antes de carregar
    if os.path.exists(caminho_completo):
        # Lê o CSV usando o separador correto e evitando o warning
        df = pd.read_csv(caminho_completo)
        
        # Verifica se a coluna 'CODMUNNATU' está presente
        if 'CODMUNNASC' in df.columns:
            # Filtra o DataFrame para manter apenas linhas onde CODMUNNATU começa com "21"
            df_filtrado = df[df['CODMUNNASC'].astype(str).str.startswith("21")]
            
            # Adiciona o DataFrame filtrado à lista se não estiver vazio
            if not df_filtrado.empty:
                dataframes.append(df_filtrado)
                print(f'Arquivo {nome_arquivo} carregado e filtrado com sucesso.')
            else:
                print(f'Arquivo {nome_arquivo} não contém códigos que começam com "21".')
        else:
            print(f'Coluna "CODMUNNASC" não encontrada no arquivo {nome_arquivo}. Colunas disponíveis: {df.columns.tolist()}')
    else:
        print(f'Arquivo {nome_arquivo} não encontrado.')

# Junta todos os DataFrames filtrados em um único
if dataframes:  # Verifica se a lista não está vazia
    df_completo = pd.concat(dataframes, ignore_index=True)

    # Salva o DataFrame combinado em um novo arquivo CSV
    df_completo.to_csv('C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SINASC\\SINASC_MA.csv')
    print("Todos os arquivos CSV foram combinados com sucesso!")
else:
    print("Nenhum arquivo CSV foi combinado, pois nenhum contém códigos que começam com '21'.")


Arquivo DNMA2017.csv carregado e filtrado com sucesso.
Arquivo DNMA2018.csv carregado e filtrado com sucesso.
Arquivo DNMA2019.csv carregado e filtrado com sucesso.
Arquivo DNMA2020.csv carregado e filtrado com sucesso.
Arquivo DNMA2021.csv carregado e filtrado com sucesso.
Arquivo DNMA2022.csv carregado e filtrado com sucesso.
Todos os arquivos CSV foram combinados com sucesso!


# Remover dados

In [216]:
df_sinasc = pd.read_csv('C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SINASC//SINASC_MA.csv')
pd.set_option('display.max_rows', None)  
pd.set_option('display.max_columns', None)

In [217]:
df_sinasc.head().T

Unnamed: 0,0,1,2,3,4
Unnamed: 0,0,1,2,3,4
contador,138.0,139.0,140.0,141.0,142.0
ORIGEM,1,1,1,1,1
CODESTAB,2463016.0,2463016.0,2463016.0,2463016.0,2463040.0
CODMUNNASC,210005,210005,210005,210005,210005
LOCNASC,1,1,1,1,1
IDADEMAE,25,19,25,18,23
ESTCIVMAE,1.0,2.0,2.0,1.0,2.0
ESCMAE,3.0,4.0,4.0,4.0,4.0
CODOCUPMAE,621005.0,999992.0,421125.0,999992.0,999992.0


In [218]:
df_sinasc.isnull().sum().sum()

3827095

In [219]:
colunas_para_trabalhar = ['CODMUNNASC','LOCNASC','IDADEMAE','ESTCIVMAE','ESCMAE','QTDFILVIVO','QTDFILMORT','GESTACAO',
                          'GRAVIDEZ','PARTO','CONSULTAS','DTNASC','SEXO','APGAR1','APGAR5','RACACOR','PESO',
                          'IDANOMAL','RACACORMAE','QTDGESTANT','QTDPARTNOR' ,'QTDPARTCES' ,'TPROBSON' ,'KOTELCHUCK']

In [220]:
df_sinasc_trab = df_sinasc[colunas_para_trabalhar]

In [221]:
df_sinasc_trab.head().T

Unnamed: 0,0,1,2,3,4
CODMUNNASC,210005.0,210005.0,210005.0,210005.0,210005.0
LOCNASC,1.0,1.0,1.0,1.0,1.0
IDADEMAE,25.0,19.0,25.0,18.0,23.0
ESTCIVMAE,1.0,2.0,2.0,1.0,2.0
ESCMAE,3.0,4.0,4.0,4.0,4.0
QTDFILVIVO,3.0,0.0,0.0,0.0,1.0
QTDFILMORT,0.0,0.0,0.0,0.0,0.0
GESTACAO,,5.0,5.0,5.0,5.0
GRAVIDEZ,1.0,1.0,1.0,1.0,1.0
PARTO,2.0,1.0,2.0,2.0,2.0


In [222]:
df_sinasc_trab = df_sinasc_trab.dropna()

In [223]:
df_sinasc_trab.isnull().sum().sum()

0

In [224]:
df_sinasc.head().T

Unnamed: 0,0,1,2,3,4
Unnamed: 0,0,1,2,3,4
contador,138.0,139.0,140.0,141.0,142.0
ORIGEM,1,1,1,1,1
CODESTAB,2463016.0,2463016.0,2463016.0,2463016.0,2463040.0
CODMUNNASC,210005,210005,210005,210005,210005
LOCNASC,1,1,1,1,1
IDADEMAE,25,19,25,18,23
ESTCIVMAE,1.0,2.0,2.0,1.0,2.0
ESCMAE,3.0,4.0,4.0,4.0,4.0
CODOCUPMAE,621005.0,999992.0,421125.0,999992.0,999992.0


In [225]:
len(df_sinasc_trab)

497673

In [226]:
df_sinasc_trab = df_sinasc_trab.drop_duplicates()

In [227]:
len(df_sinasc_trab)

497614

In [228]:
df_sinasc_trab = df_sinasc_trab.astype(float)

In [229]:
df_sinasc_trab.to_csv('C:\\Users\\gabie\\OneDrive\\Área de Trabalho\\ebac\\projetos\\predicao_neonatal\\dados\\SINASC\\SINASC_MA_V1_REM.csv')