In [1]:
import pandas as pd
import os

In [2]:
anos = ['1996', '1997', '1998', '1999', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014',
       '2015', '2016', '2017', '2018', '2019', '2020', '2022', '2022', '2023']

estados = ['DOAC', 'DOAL', 'DOAM', 'DOAP', 'DOBA', 'DOCE', 'DODF', 'DOES', 'DOGO',
          'DOMA', 'DOMG', 'DOMS', 'DOMT', 'DOPA', 'DOPB', 'DOPE', 'DOPI', 'DOPR',
          'DORJ', 'DORN', 'DORO', 'DORR', 'DORS', 'DOSC', 'DOSE', 'DOSP', 'DOTO']

In [3]:
# Caminho base onde estão as pastas dos estados
caminho_base = './data'

In [None]:
# Colunas a serem extraídas
colunas_desejadas = ['TIPOBITO', 'HORAOBITO', 'NATURAL', 'CODMUNNATU', 'DTNASC', 'ESTCIV']

In [None]:
# Percorre cada estado
for uf in estados:
    print(f"\nProcessando estado: {uf}")
    caminho_estado = os.path.join(caminho_base, uf).replace("\\", "/")
    
    lista_df = []
    id_atual = 1  # Reinicia ID para cada estado

    for ano in anos:
        nome_arquivo = f"{uf}{ano}.csv"
        caminho_csv = os.path.join(caminho_estado, nome_arquivo).replace("\\", "/")
        
        if os.path.exists(caminho_csv):
            try:
                df = pd.read_csv(caminho_csv, low_memory=False)

                # Adiciona colunas ausentes com valores None
                for col in colunas_desejadas:
                    if col not in df.columns:
                        df[col] = None

                df_filtrado = df[colunas_desejadas].reset_index(drop=True)

                # Cria id único dentro do estado
                df_filtrado['id_i'] = range(id_atual, id_atual + len(df_filtrado))
                id_atual += len(df_filtrado)

                # Reorganiza colunas
                df_filtrado = df_filtrado[['id_i'] + colunas_desejadas]

                lista_df.append(df_filtrado)
            except Exception as e:
                print(f"Erro ao processar o arquivo {nome_arquivo}: {e}")
        else:
            print(f"Aviso: Arquivo {nome_arquivo} não encontrado.")

    if lista_df:
        df_final = pd.concat(lista_df, ignore_index=True)
        caminho_saida = os.path.join(caminho_estado, f"{uf}_96_23_identificacao.csv").replace("\\", "/")
        df_final.to_csv(caminho_saida, index=False)
        print(f"Arquivo final gerado: {caminho_saida}")
        print(f"Total de linhas: {len(df_final)}")
    else:
        print(f"Nenhum dado processado para o estado {uf}")


Processando estado: DOAC


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOAC/DOAC_96_23_fedal.csv
Total de linhas: 86281

Processando estado: DOAL


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOAL/DOAL_96_23_fedal.csv
Total de linhas: 488325

Processando estado: DOAM


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOAM/DOAM_96_23_fedal.csv
Total de linhas: 383015

Processando estado: DOAP


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOAP/DOAP_96_23_fedal.csv
Total de linhas: 68983

Processando estado: DOBA


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOBA/DOBA_96_23_fedal.csv
Total de linhas: 2094236

Processando estado: DOCE


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOCE/DOCE_96_23_fedal.csv
Total de linhas: 1278384

Processando estado: DODF


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DODF/DODF_96_23_fedal.csv
Total de linhas: 297205

Processando estado: DOES


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOES/DOES_96_23_fedal.csv
Total de linhas: 576238

Processando estado: DOGO


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOGO/DOGO_96_23_fedal.csv
Total de linhas: 899917

Processando estado: DOMA


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOMA/DOMA_96_23_fedal.csv
Total de linhas: 745054

Processando estado: DOMG


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOMG/DOMG_96_23_fedal.csv
Total de linhas: 3295874

Processando estado: DOMS


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOMS/DOMS_96_23_fedal.csv
Total de linhas: 391912

Processando estado: DOMT


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOMT/DOMT_96_23_fedal.csv
Total de linhas: 410997

Processando estado: DOPA


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOPA/DOPA_96_23_fedal.csv
Total de linhas: 867337

Processando estado: DOPB


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOPB/DOPB_96_23_fedal.csv
Total de linhas: 640786

Processando estado: DOPE


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOPE/DOPE_96_23_fedal.csv
Total de linhas: 1572695

Processando estado: DOPI


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOPI/DOPI_96_23_fedal.csv
Total de linhas: 439777

Processando estado: DOPR


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOPR/DOPR_96_23_fedal.csv
Total de linhas: 1812366

Processando estado: DORJ


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DORJ/DORJ_96_23_fedal.csv
Total de linhas: 3481198

Processando estado: DORN


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DORN/DORN_96_23_fedal.csv
Total de linhas: 471290

Processando estado: DORO


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DORO/DORO_96_23_fedal.csv
Total de linhas: 194858

Processando estado: DORR


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DORR/DORR_96_23_fedal.csv
Total de linhas: 51568

Processando estado: DORS


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DORS/DORS_96_23_fedal.csv
Total de linhas: 2150085

Processando estado: DOSC


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOSC/DOSC_96_23_fedal.csv
Total de linhas: 964086

Processando estado: DOSE


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOSE/DOSE_96_23_fedal.csv
Total de linhas: 309810

Processando estado: DOSP


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOSP/DOSP_96_23_fedal.csv
Total de linhas: 7365313

Processando estado: DOTO


  df_final = pd.concat(lista_df, ignore_index=True)


Arquivo final gerado: ./data/DOTO/DOTO_96_23_fedal.csv
Total de linhas: 172733
