In [2]:
import os
#import csv
import numpy as np
from datetime import datetime as dt
import pandas as pd
from pandasql import sqldf
from sqlalchemy import text

def process_csv_file(file_path):
    #Função para o processamento de arquivos CSV
    df = pd.read_csv(file_path, sep=';', encoding='latin-1')
    df = df[['DTOBITO', 'DTNASC','IDADEMAE','PARTO','PESO','GESTACAO','ESCMAEAGR1','CODMUNOCOR', 'RACACOR']]
    df = df[df['DTNASC'].notna()] #pegando somente as linhas que tem valores que não são NaN
    df = df[df['DTOBITO'].notna()]
    df['DTNASC'] = df['DTNASC'].astype(np.int64) # convertendo as datas para int64
    df['DTOBITO'] = df['DTOBITO'].astype(np.int64)
    df['DTNASC'] = pd.to_datetime(df['DTNASC'], exact=False, errors = 'coerce', format='%d%m%Y')
    df['DTOBITO'] = pd.to_datetime(df['DTOBITO'], exact=False, errors = 'coerce', format='%d%m%Y')
    #exact=false serve para evitar o erro de datas que não se aplicam no formato desejado
    #erros = 'coerce' serve para evitar o armazenamento de nanosegundos armazenados no python que não seguem o padrão das datas.
    # o format tem que ser no formato dos meus dados.
    df['IDADE'] = df['DTOBITO'].sub(df['DTNASC'], axis=0) #subtracao dos campos data para pegar a idade em dias.
    df['IDADE'] = df['IDADE'].dt.days #convert timedelta type to int ou float
    df = df[df['IDADE'] <= 28 ] #selecionando somente linhas com idade menor ou igual a 28
    df = df.drop(df.index[df['IDADE'] < 0]) #excluindo linhas com idade negativa
    df = df.sort_values(['CODMUNOCOR'], ascending=[True]) #ordenando em ordem crescent os municipios
    file_name = os.path.split(file_path)

    df['CODMUNOCOR'] = df['CODMUNOCOR'].astype(str) #convertendo a coluna para string
    df['CODMUNOCOR']=np.where([i.startswith("11") for i in df['CODMUNOCOR']],'RO',df['CODMUNOCOR']) #substituindo o municipio por regiao
    df['CODMUNOCOR']=np.where([i.startswith("12") for i in df['CODMUNOCOR']],'AC',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("13") for i in df['CODMUNOCOR']],'AM',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("14") for i in df['CODMUNOCOR']],'RR',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("15") for i in df['CODMUNOCOR']],'PA',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("16") for i in df['CODMUNOCOR']],'AP',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("17") for i in df['CODMUNOCOR']],'TO',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("21") for i in df['CODMUNOCOR']],'MA',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("22") for i in df['CODMUNOCOR']],'PI',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("23") for i in df['CODMUNOCOR']],'CE',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("24") for i in df['CODMUNOCOR']],'RN',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("25") for i in df['CODMUNOCOR']],'PB',df['CODMUNOCOR']) 
    df['CODMUNOCOR']=np.where([i.startswith("26") for i in df['CODMUNOCOR']],'PE',df['CODMUNOCOR']) 
    df['CODMUNOCOR']=np.where([i.startswith("27") for i in df['CODMUNOCOR']],'AL',df['CODMUNOCOR']) 
    df['CODMUNOCOR']=np.where([i.startswith("28") for i in df['CODMUNOCOR']],'SE',df['CODMUNOCOR']) 
    df['CODMUNOCOR']=np.where([i.startswith("29") for i in df['CODMUNOCOR']],'BA',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("31") for i in df['CODMUNOCOR']],'MG',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("32") for i in df['CODMUNOCOR']],'ES',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("33") for i in df['CODMUNOCOR']],'RJ',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("35") for i in df['CODMUNOCOR']],'SP',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("41") for i in df['CODMUNOCOR']],'PR',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("42") for i in df['CODMUNOCOR']],'SC',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("43") for i in df['CODMUNOCOR']],'RS',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("50") for i in df['CODMUNOCOR']],'MS',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("51") for i in df['CODMUNOCOR']],'MT',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("52") for i in df['CODMUNOCOR']],'GO',df['CODMUNOCOR'])
    df['CODMUNOCOR']=np.where([i.startswith("53") for i in df['CODMUNOCOR']],'DF',df['CODMUNOCOR'])
  
    # salvando o arquivo excel.
    df.to_excel(file_name[1]+".xlsx")
    print('DataFrame is written to Excel File successfully.')
    # Read Excel file
    #xls_dir = 'D:/UFMG - DOUTORADO/Dados SIM - Natalidade/Dados SIM/'
    #df = pd.read_excel('D:/UFMG - DOUTORADO/Dados SIM - Natalidade/venvsim39/'+file_name[1]+".xlsx")
    #query1 = str(text("SELECT PARTO, COUNT(PARTO), CODMUNOCOR FROM df GROUP BY CODMUNOCOR, PARTO"))
    #print(type(query1))
    #parto = sqldf(query1)
    #query2 = str(text("SELECT GESTACAO, COUNT(GESTACAO), CODMUNOCOR FROM df GROUP BY CODMUNOCOR, GESTACAO"))
    #gestacao = sqldf(query2)
    #query3 = str("SELECT ESCMAEAGR1, COUNT(ESCMAEAGR1), CODMUNOCOR FROM df GROUP BY CODMUNOCOR, ESCMAEAGR1")
    #escolaridade = sqldf(query3)
    #parto.to_csv(file_name[1]+'_parto.csv', sep=';')
    #gestacao.to_csv(file_name[1]+'_gestacao.csv', sep=';')
    #escolaridade.to_csv(file_name[1]+'_escolaridade.csv', sep=';')
    df['CODMUNOCOR'].value_counts().to_excel("obitos_x_estado"+file_name[1]+".xlsx")

# Diretório que contém os arquivos CSV
csv_dir = 'D:/UFMG - DOUTORADO/Dados SIM - Natalidade/venvsim39/'

# Loop para processar cada arquivo CSV no diretório
for file_name in os.listdir(csv_dir):
    if file_name.endswith('.csv'):
        file_path = os.path.join(csv_dir, file_name)
        process_csv_file(file_path)

  df = pd.read_csv(file_path, sep=';', encoding='latin-1')


DataFrame is written to Excel File successfully.


ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.
