# Importação de Bibliotecas

In [1]:
import zipfile
import os
import pandas as pd

# 1.Extração de Arquivos Específicos do ZIP - 2018 até 2020

In [2]:
#Nome do arquivo ZIP
nome_arquivo_zip = 'ETLSIM.DOFET.zip'

#Abre o arquivo ZIP
with zipfile.ZipFile(nome_arquivo_zip, 'r') as zip_ref:
    #Obtem uma lista de nomes de arquivos dentro do ZIP
    nomes_arquivos = zip_ref.namelist()


In [3]:
lista_2018 = [nome for nome in nomes_arquivos if "2018" in nome]
lista_2019 = [nome for nome in nomes_arquivos if "2019" in nome]
lista_2020 = [nome for nome in nomes_arquivos if "_2020" in nome]

joinedlist = lista_2018 + lista_2019 + lista_2020

print(joinedlist)

['ETLSIM.DOFET_2018_t.csv', 'ETLSIM.DOFET_2019_t.csv', 'ETLSIM.DOFET_2020_t.csv']


In [4]:
# Diretorio base onde os arquivos estao localizados
diretorio_base = r'C:\Users\Elke\Desktop\projeto_prematuridade\ETLSIM.DOFET.zip'

# Cria uma nova lista com caminhos relativos
caminhos_arquivos = [os.path.relpath(os.path.join(diretorio_base, nome), diretorio_base) for nome in joinedlist]

# Os caminhos relativos dos arquivos estarao na lista caminhos_arquivos
for caminho in caminhos_arquivos:
    print(caminho)


ETLSIM.DOFET_2018_t.csv
ETLSIM.DOFET_2019_t.csv
ETLSIM.DOFET_2020_t.csv


In [5]:
caminhos_arquivos = ["ETLSIM.DOFET_2018_t.csv","ETLSIM.DOFET_2019_t.csv","ETLSIM.DOFET_2020_t.csv"]

In [6]:

def extrair_arquivos_especificos_de_pasta_zip(pasta_zipada, caminhos_arquivos, pasta_de_destino):
    # Verifique se a pasta zipada existe
    if not os.path.isfile(pasta_zipada):
        print(f'A pasta zipada não existe: {pasta_zipada}')
        return

    with zipfile.ZipFile(pasta_zipada, 'r') as zip_ref:
        for caminho_arquivo in caminhos_arquivos:
            try:
                zip_ref.extract(caminho_arquivo, pasta_de_destino)
                print(f'Arquivo extraído: {caminho_arquivo}')
            except KeyError:
                print(f'Arquivo não encontrado na pasta zipada: {caminho_arquivo}')

pasta_zipada = 'ETLSIM.DOFET.zip'  # Pasta ZIP que contém os arquivos
pasta_destino = 'SIM_DOFET_2018_ate_2020'  # Pasta para onde os arquivos serao copiados

extrair_arquivos_especificos_de_pasta_zip(pasta_zipada, caminhos_arquivos, pasta_destino)

Arquivo extraído: ETLSIM.DOFET_2018_t.csv
Arquivo extraído: ETLSIM.DOFET_2019_t.csv
Arquivo extraído: ETLSIM.DOFET_2020_t.csv


In [7]:
df_SIM_2018 = pd.read_csv('SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2018_t.csv', sep=',')
df_SIM_2019 = pd.read_csv('SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2019_t.csv', sep=',')
df_SIM_2020 = pd.read_csv('SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2020_t.csv', sep=',')

  df_SIM_2018 = pd.read_csv('SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2018_t.csv', sep=',')
  df_SIM_2019 = pd.read_csv('SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2019_t.csv', sep=',')
  df_SIM_2020 = pd.read_csv('SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2020_t.csv', sep=',')


# 2.Análise e Processamento dos DataFrames

In [8]:
lista_colunas_df_SIM_2018 = list(df_SIM_2018.columns)
lista_colunas_df_SIM_2019 = list(df_SIM_2019.columns)
lista_colunas_df_SIM_2020 = list(df_SIM_2020.columns)

In [9]:
pasta = 'SIM_DOFET_2018_ate_2020'  # Caminho da pasta

# Verifica se o caminho da pasta é válido
if os.path.exists(pasta):
    # Inicializa uma lista para armazenar os caminhos relativos
    caminhos_relativos = []

    # Obtém a lista de arquivos na pasta
    arquivos = os.listdir(pasta)

    # Itera sobre os arquivos e obtem os caminhos relativos
    for arquivo in arquivos:
        caminho_relativo = os.path.join(pasta, arquivo)
        caminhos_relativos.append(caminho_relativo)

    # A lista de caminhos relativos esta pronta
    for caminho in caminhos_relativos:
        print(caminho)
else:
    print("O caminho da pasta não é válido.")

SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2018_t.csv
SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2019_t.csv
SIM_DOFET_2018_ate_2020\ETLSIM.DOFET_2020_t.csv


In [10]:
# Verifica se alguma coluna contém apenas NaN
columns_nan = df_SIM_2018.columns[df_SIM_2018.isna().all()]

if not columns_nan.empty:
    print("As seguintes colunas contêm apenas NaN:")
    print(columns_nan)
else:
    print("Não há colunas que contenham apenas NaN.")

As seguintes colunas contêm apenas NaN:
Index(['CODMUNCART', 'NUMREGCART', 'CODCART', 'DTREGCART', 'DTNASC', 'IDADE',
       'ESC', 'ESC2010', 'SERIESCFAL', 'OCUP', 'ESTABDESCR', 'CB_PRE',
       'MEDICO', 'ACIDTRAB', 'LINHAA_O', 'LINHAB_O', 'LINHAC_O', 'LINHAD_O',
       'LINHAII_O', 'DTRECORIG', 'CAUSAMAT', 'ESCFALAGR1', 'NUDIASOBIN',
       'DTCADINV', 'TPOBITOCOR', 'DTCONINV', 'NUDIASINF', 'FONTESINF',
       'def_escol', 'def_acid_trab', 'data_nasc', 'dia_semana_nasc',
       'ano_nasc'],
      dtype='object')


In [11]:
#Retirando colunas que contém apenas nan dos dfs
df_SIM_2018_sem_colunas_nan = df_SIM_2018.dropna(axis=1, how='all')
df_SIM_2019_sem_colunas_nan = df_SIM_2019.dropna(axis=1, how='all')
df_SIM_2020_sem_colunas_nan = df_SIM_2020.dropna(axis=1, how='all')

In [12]:
df_SIM_2018_sem_colunas_e_linhas_nan = df_SIM_2018_sem_colunas_nan.dropna(axis=0, how='all')
df_SIM_2019_sem_colunas_e_linhas_nan = df_SIM_2019_sem_colunas_nan.dropna(axis=0, how='all')
df_SIM_2020_sem_colunas_e_linhas_nan = df_SIM_2020_sem_colunas_nan.dropna(axis=0, how='all')

### Verificar elementos comuns e diferentes nos dfs pode auxiliar na remoção futura de colunas

In [14]:

# Elementos em comum entre as três listas
elementos_comuns = list(set(df_SIM_2018_sem_colunas_e_linhas_nan) & set(df_SIM_2019_sem_colunas_e_linhas_nan) & set(df_SIM_2020_sem_colunas_e_linhas_nan))
print("Elementos comuns:", elementos_comuns)

# Elementos diferentes entre as três listas
todos_elementos = set(df_SIM_2018_sem_colunas_e_linhas_nan) | set(df_SIM_2019_sem_colunas_e_linhas_nan) | set(df_SIM_2020_sem_colunas_e_linhas_nan)
elementos_diferentes = list(todos_elementos - (set(lista_colunas_df_SIM_2018) ^ set(lista_colunas_df_SIM_2019) ^ set(lista_colunas_df_SIM_2020)))
print("Elementos diferentes:", elementos_diferentes)

Elementos comuns: ['ocor_RSAUDCOD', 'res_REGIAO', 'ocor_coordenadas', 'def_gestacao', 'def_semana_ano_epi', 'def_assist_med', 'ocor_MSAUDCOD', 'def_sexo', 'QTDFILMORT', 'res_CAPITAL', 'OCUPMAE', 'ocor_LONGITUDE', 'NUDIASOBCO', 'ASSISTMED', 'LINHAD', 'TIPOBITO', 'causabas_categoria', 'RACACOR', 'res_AMAZONIA', 'ano_obito', 'res_AREA', 'ORIGEM', 'LINHAII', 'ocor_MUNNOMEX', 'CIRCOBITO', 'res_SIGLA_UF', 'STDOEPIDEM', 'res_LONGITUDE', 'causabas_capitulo', 'NATURAL', 'ATESTANTE', 'SEXO', 'causabas_subcategoria', 'ESCMAE2010', 'STDONOVA', 'DTCONCASO', 'res_MUNNOME', 'GRAVIDEZ', 'TPRESGINFO', 'def_escol_mae', 'FONTE', 'DIFDATA', 'res_CSAUDCOD', 'def_ano_epi', 'res_codigo_adotado', 'ESCMAE', 'OBITOPARTO', 'VERSAOSCB', 'ocor_LATITUDE', 'ALTCAUSA', 'DTCADINF', 'ocor_ALTITUDE', 'GESTACAO', 'ocor_AMAZONIA', 'ocor_CSAUDCOD', 'TPPOS', 'res_RSAUDCOD', 'res_coordenadas', 'ocor_NOME_UF', 'IDADEMAE', 'NECROPSIA', 'def_atestante', 'ocor_SIGLA_UF', 'ocor_MUNNOME', 'def_cbo', 'CAUSABAS_O', 'def_loc_ocor', '

# 3. Concatenação de DataFrames

In [16]:
def concatena_dfs(lista_dataframes, caminho_pasta_destino):
    df_merged = lista_dataframes[0]

    for i in range(1, len(lista_dataframes)):
        df = lista_dataframes[i]
        df_merged = pd.concat([df_merged, df], ignore_index=True)

    caminho_completo = os.path.join(caminho_pasta_destino, "SIM_DOFET_FINAL.csv")
    df_merged.to_csv(caminho_completo, index=False)

# Exemplo de chamada da função com DataFrames
lista_dataframes = [df_SIM_2018_sem_colunas_e_linhas_nan,df_SIM_2019_sem_colunas_e_linhas_nan,df_SIM_2020_sem_colunas_e_linhas_nan] 
caminho_pasta_destino = 'SIM_DOFET_CONCATENADA'

concatena_dfs(lista_dataframes, caminho_pasta_destino)


# 4. Dataframe SIM_DOFET 2018 até 2020 Final

In [17]:
df_sim_dofet_final = pd.read_csv('SIM_DOFET_CONCATENADA\SIM_DOFET_FINAL.csv', sep = ',')

  df_sim_dofet_final = pd.read_csv('SIM_DOFET_CONCATENADA\SIM_DOFET_FINAL.csv', sep = ',')


In [18]:
df_sim_dofet_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88788 entries, 0 to 88787
Columns: 146 entries, ORIGEM to def_acid_trab
dtypes: float64(49), int64(35), object(62)
memory usage: 98.9+ MB


In [19]:
valores_unicos_contagens = df_sim_dofet_final['ano_obito'].value_counts()
print(valores_unicos_contagens)

ano_obito
2018    30690
2019    29105
2020    28993
Name: count, dtype: int64


In [20]:
# Considere 'df' como seu DataFrame
df_sem_duplicatas = df_sim_dofet_final.drop_duplicates()
df_sem_duplicatas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88788 entries, 0 to 88787
Columns: 146 entries, ORIGEM to def_acid_trab
dtypes: float64(49), int64(35), object(62)
memory usage: 98.9+ MB
