In [1]:
import pandas as pd
import os

In [2]:
ano = ['1996', '1997', '1998', '1999', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014',
       '2015', '2016', '2017', '2018', '2019', '2020', '2022', '2022', '2023']

estado = ['DOAC', 'DOAL', 'DOAM', 'DOAP', 'DOBA', 'DOCE', 'DODF', 'DOES', 'DOGO',
          'DOMA', 'DOMG', 'DOMS', 'DOMT', 'DOPA', 'DOPB', 'DOPE', 'DOPI', 'DOPR',
          'DORJ', 'DORN', 'DORO', 'DORR', 'DORS', 'DOSC', 'DOSE', 'DOSP', 'DOTO']

In [None]:
caminho_pasta = './data'
caminho = os.path.join(caminho_pasta, estado[0]).replace("\\", "/")

In [None]:
# Colunas a serem extraídas
colunas_desejadas = ['CIRCOBITO', 'ACIDTRAB', 'FONTE']

In [5]:
# Lista para armazenar os DataFrames
lista_df = []

# Contador global de ID
id_atual = 1

In [6]:
arquivos = [f for f in os.listdir(caminho) if os.path.isfile(os.path.join(caminho, f))]

print(f"Total de arquivos na pasta: {len(arquivos)}")

Total de arquivos na pasta: 28


In [None]:
# Loop por cada ano
for a in ano:
    nome_arquivo = f"{estado[0]}{a}.csv"
    caminho_csv = os.path.join(caminho, nome_arquivo).replace("\\", "/")
    
    if os.path.exists(caminho_csv):
        try:
            df = pd.read_csv(caminho_csv, low_memory=False)

            # Garante que as colunas existem no arquivo
            if all(col in df.columns for col in colunas_desejadas):
                df_filtrado = df[colunas_desejadas].reset_index(drop=True)

                # Cria id único contínuo
                df_filtrado['id_ce'] = range(id_atual, id_atual + len(df_filtrado))
                id_atual += len(df_filtrado)

                # Reorganiza colunas
                df_filtrado = df_filtrado[['id_ce'] + colunas_desejadas]

                # Armazena no acumulador
                lista_df.append(df_filtrado)
            else:
                print(f"Aviso: Arquivo {nome_arquivo} não possui todas as colunas desejadas.")
        except Exception as e:
            print(f"Erro ao processar o arquivo {nome_arquivo}: {e}")
    else:
        print(f"Aviso: Arquivo {nome_arquivo} não encontrado.")

# Concatena todos os DataFrames
df_final = pd.concat(lista_df, ignore_index=True)

# Exporta para um único CSV
saida_csv = f'{caminho}/DOAC_96_23_causaobito.csv'
df_final.to_csv(saida_csv, index=False)

print(f"Arquivo final gerado com sucesso em: {saida_csv}")
print(f"Total de linhas no arquivo final: {len(df_final)}")

Arquivo final gerado com sucesso em: ./data/DOTO/DOTO_96_23.csv
Total de linhas no arquivo final: 172733
