Juntando todas as bases em um banco de dados 

Esse script tem por finalidade unir as bases de dados de todos os estados que já foram corrigidas. Assim tonarndo uma unica base, adicionando as colunas: ano, sexo, tipologia e estado. Dessa forma podendo realizar analise descritiva dos obitos por varios niveis.

### Verificando diretorio 

In [1]:
import os
import pandas as pd

os.getcwd() # verifica o diretorio

'C:\\Users\\Administrador\\Documents\\PIBIC\\_SCHENIA_2023_2024\\4- analise da base'

------------------------------------------------------------

### Função I

Essa função abre o arquivo em excel com os dados redistribuidos e corrigidos. 
* faz o tratamento selecionando apenas os grande grupos de causas: selecionando apenas as linhas em que todas as letras da coluna Causa - CID-BR-10 são maiusculas. 
* adiciona as colunas tipologia, sexo e ano, com base no nome de cada aba.
* Cada aba gera um df em que adiciona as colunas.
* apos isso concaneta todos os df em um unico df (cada dataframe é correspondente a uma aba do excel)

In [2]:
import pandas as pd

def listar_abas(caminho_arquivo):
    # Usa a função pd.ExcelFile para ler o arquivo Excel
    excel_file = pd.ExcelFile(caminho_arquivo)
    
    # Obtém a lista de nomes das abas
    nomes_abas = excel_file.sheet_names
    
    return nomes_abas


def processar_dataframe(caminho_arquivo, nome_aba):
    # Lê a aba específica do arquivo Excel
    df = pd.read_excel(caminho_arquivo, sheet_name=nome_aba)
    
    # Mantém apenas as 20 primeiras colunas
    df = df.iloc[:, :20]
    
    # Encontra a linha que contém o texto especificado
    linha_chave = df[df.apply(lambda row: row.astype(str).str.contains('CORRIGINDO OS OBITOS NÃO NOTIFICADOS - Base final').any(), axis=1)].index
    
    if not linha_chave.empty:
        # Pega o índice da linha chave
        indice_linha_chave = linha_chave[0]
        
        # Remove todas as linhas acima da linha chave e a linha chave em si
        df = df.iloc[indice_linha_chave + 1:]
        
        # Define a linha seguinte como cabeçalho
        df.columns = df.iloc[0]
        df = df[1:]
        df.reset_index(drop=True, inplace=True)
        
        #Extraindo apenas as linha com todas as letras em maiusculo
        letra = df['Causa - CID-BR-10'].str.isupper()
        df = df[letra]
    
    # Extrai informações do nome da aba
    partes = nome_aba.split('_')
    if len(partes) == 3:
        tipo, sexo, ano = partes[0], partes[1], partes[2]
    else:
        # Caso o nome da aba não siga o padrão esperado
        tipo, sexo, ano = 'Desconhecido', 'Desconhecido', 'Desconhecido'
    
    # Adiciona as colunas
    df['tipologia'] = tipo
    df['sexo'] = sexo
    df['ano'] = ano
    
    return df

def processar_todas_abas(caminho_arquivo):
    # Lista os nomes das abas
    nomes_abas = listar_abas(caminho_arquivo)
    
    # Dicionário para armazenar os DataFrames processados
    #dataframes = {}
    
     # Lista para armazenar os DataFrames processados
    dataframes = []
    
    for nome_aba in nomes_abas:
        # Processa cada aba e adiciona ao dicionário
        df_processado = processar_dataframe(caminho_arquivo, nome_aba)
        dataframes.append(df_processado)
        
        # Concatena todos os DataFrames em um único DataFrame
        df_concatenado = pd.concat(dataframes, ignore_index=True)
    
    return df_concatenado

--------------------------------------------------------------------------------------------------------------------------

### Estado: ALAGOAS 

In [3]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/AL_trienio.xlsx'

# Processa todas as abas
AL = processar_todas_abas(caminho_arquivo)
AL['estado'] = 'Alagoas'
AL.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,0.776096,0,0,0,0,0,0,1.612042,0.831209,...,0,0,0.386609,0.409581,2.950674,9.31831,IA,F,2018,Alagoas


--------------------------------------------------------------------------------------------------------------------------

### Estado: Bahia 

In [4]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/BA_trienio.xlsx'
# Processa todas as abas
BA = processar_todas_abas(caminho_arquivo)
BA['estado'] = 'Bahia'
BA.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,5.078125,1.195253,0.941715,0.411066,1.199868,1.311674,1.284287,2.606923,5.645901,...,6.412362,15.079092,13.097839,21.922798,64.131613,165.089919,IA,F,2018,Bahia


--------------------------------------------------------------------------------------------------------------------------

### Estado: Ceará 

In [5]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/CE_trienio.xlsx'
# Processa todas as abas
CE = processar_todas_abas(caminho_arquivo)
CE['estado'] = 'Ceara'
CE.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,1.59835,0,0,0.751343,0,0.734169,0.752358,2.627434,1.78444,...,3.697756,6.936266,10.609794,10.299905,39.988791,92.970592,IA,F,2018,Ceara


--------------------------------------------------------------------------------------------------------------------------

### Estado: Espirito Santos 

In [6]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/ES_trienio.xlsx'
# Processa todas as abas
ES = processar_todas_abas(caminho_arquivo)
ES['estado'] = 'Espirito Santos'
ES.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,0,0,0.333333,0,0,0,0.333333,0,0,...,0,0,0.333333,0.333333,1.353333,4.353333,IA,F,2018,Espirito Santos


--------------------------------------------------------------------------------------------------------------------------

### Estado: Maranhão

In [7]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/MA_trienio.xlsx'
# Processa todas as abas
MA = processar_todas_abas(caminho_arquivo)
MA['estado'] = 'Maranhao'
MA.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,4.439252,0.403528,0,0,0,0.730194,1.537249,1.165954,0.805731,...,3.13915,1.949436,2.333684,2.409639,8.203546,30.278232,RA,F,2018,Maranhao


--------------------------------------------------------------------------------------------------------------------------

### Estado: Minas Gerais 

In [8]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/MG_trienio.xlsx'
# Processa todas as abas
MG = processar_todas_abas(caminho_arquivo)
MG['estado'] = 'Minas Gerais'
MG.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,2.006912,2.834582,0,0.556793,1.484781,0.883798,1.232899,0.84598,1.633259,...,7.543558,6.869461,8.525274,8.094992,38.137861,96.075227,IA,F,2018,Minas Gerais


--------------------------------------------------------------------------------------------------------------------------

### Estado: Paraíba

In [9]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/PB_trienio.xlsx'
# Processa todas as abas
PB = processar_todas_abas(caminho_arquivo)
PB['estado'] = 'Paraiba'
PB.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,2.407481,0,0.36914,0.73828,0.73828,0.415282,0,1.610792,0.384848,...,1.149097,6.270029,5.81675,7.051658,31.662701,68.747458,IA,F,2018,Paraiba


--------------------------------------------------------------------------------------------------------------------------

### Estado: Pernambuco

In [10]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/PE_trienio.xlsx'
# Processa todas as abas
PE = processar_todas_abas(caminho_arquivo)
PE['estado'] = 'Pernambuco'
PE.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,5.795374,1.112122,0.707714,0.375973,1.769285,1.476969,3.113942,2.619356,4.115763,...,6.700637,8.118821,14.394701,14.040851,46.920754,129.347862,IA,F,2018,Pernambuco


--------------------------------------------------------------------------------------------------------------------------

### Estado: Piaui

In [11]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/PI_trienio.xlsx'
# Processa todas as abas
PI = processar_todas_abas(caminho_arquivo)
PI['estado'] = 'Piaui'
PI.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,1.245134,0.730994,0,0,0.402047,0,1.892753,1.123235,0.382497,...,2.26904,1.854626,0.755879,4.17885,10.044498,33.766442,IA,F,2018,Piaui


--------------------------------------------------------------------------------------------------------------------------

### Estado: Rio Grande do Norte

In [12]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/RN_trienio.xlsx'
# Processa todas as abas
RN = processar_todas_abas(caminho_arquivo)
RN['estado'] = 'Rio Grande do Norte'
RN.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,1.626175,0.730194,0.803213,0,0.433552,0.799736,0.730194,1.2137,2.072171,...,2.623288,3.321587,3.732619,8.61055,23.664908,57.459274,IA,F,2018,Rio Grande do Norte


--------------------------------------------------------------------------------------------------------------------------

### Estado: Sergipe

In [13]:
# Especifica o caminho do arquivo Excel
caminho_arquivo = '../3_corrigindo os dados/1_metodologia alternativa_BASE_FINAL/SE_trienio.xlsx'
# Processa todas as abas
SE = processar_todas_abas(caminho_arquivo)
SE['estado'] = 'Sergipe'
SE.head(1)


Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,0.354233,0.723066,0,0,0,2.289708,2.048686,2.651241,3.976862,...,38.322487,81.344902,176.789588,95.444685,1532.899494,2007.223358,IA,F,2018,Sergipe


----

# BASE FINAL PROCESSADA 

In [14]:
# Lista com todos os DataFrames
dataframes = [AL,BA,CE,ES,MA,MG,PB,PE,PI,RN,SE]

# Concatena todos os DataFrames em um único DataFrame
base_final = pd.concat(dataframes, ignore_index=True)

# Exibe as primeiras linhas do DataFrame concatenado
base_final

Unnamed: 0,Causa - CID-BR-10,<1,1 a 4 anos,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,...,60 a 64 anos,65 a 69 anos,70 a 74 anos,75 a 79 anos,80 anos e mais,Total,tipologia,sexo,ano,estado
0,001-031 ALGUMAS DOENÇAS INFECCIOSAS E PARASITÁ...,0.776096,0,0,0,0,0,0,1.612042,0.831209,...,0,0,0.386609,0.409581,2.950674,9.31831,IA,F,2018,Alagoas
1,032-052 NEOPLASIAS,0,0,0,0.369426,0,0,0.369426,0.40301,0.415605,...,3.978437,2.216558,1.933044,2.047907,4.215249,21.89082,IA,F,2018,Alagoas
2,053-054 D SANGUE E ORG HEMAT E ALGUNS TRANS IM...,0,0,0,0,0,0,0,0.40301,0,...,0.397844,0,0.386609,0,0.421525,1.608988,IA,F,2018,Alagoas
3,"055-057 D ENDÓCRINAS, NUTRICIONAIS E METABÓLICAS",0.388048,0.369426,0,0,0,0,0,0,0.831209,...,2.387062,1.108279,1.933044,3.27665,4.636773,16.887688,IA,F,2018,Alagoas
4,058-059 TRANSTORNOS MENTAIS E COMPORTAMENTAIS,0,0,0,0,0,0,0,0,0,...,0,0,0.386609,0.819163,0.421525,2.0222,IA,F,2018,Alagoas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2562,085-087 DOENÇAS DO APARELHO GENITURINÁRIO,0,0,0,0,0,0,0,0.775166,0,...,0.761362,2.671503,3.025025,2.727329,12.352507,23.888884,U,M,2021,Sergipe
2563,093-097 ALG AFECÇÕES ORIGIN NO PERÍODO PERINATAL,11.230533,0,0,0,0,0,0,0,0,...,0,0,0,0,0,11.230533,U,M,2021,Sergipe
2564,"098-100 MALF CONGÊN, DEFORM E ANOMAL CROMOSSÔM...",2.807633,1.185458,0.702494,0.351247,0,0,0,0,0,...,0.380681,0.381643,0,0,0,5.809157,U,M,2021,Sergipe
2565,"101-103 SINT, SIN E ACH ANORM CLÍN E LAB, NCOP",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,U,M,2021,Sergipe


In [15]:
# Salva o DataFrame em um arquivo CSV
base_final.to_csv('base_corrigida.csv', index=False)