In [None]:
import os
import pandas as pd

# Caminho da pasta
pasta = "G:\Meu Drive\Portifólio GitHub\malaria-data-analysis\analysis\datasets"

# Lista para armazenar todos os dados
dados = []

# Percorre as pastas dos estados
for estado in os.listdir(pasta):
    caminho_estado = os.path.join(pasta, estado)
    
    # Verifica se é uma pasta
    if os.path.isdir(caminho_estado):
        
        # Percorre as pastas dos anos
        for ano in os.listdir(caminho_estado):
            caminho_ano = os.path.join(caminho_estado, ano)
            
            # Verifica se é uma pasta
            if os.path.isdir(caminho_ano):
                
                # Percorre os arquivos xlsx
                for arquivo in os.listdir(caminho_ano):
                    if arquivo.endswith(".xlsx"):
                        caminho_arquivo = os.path.join(caminho_ano, arquivo)
                        
                        # Lê o arquivo xlsx
                        df = pd.read_excel(caminho_arquivo)
                        
                        # Adiciona as colunas de ano e estado
                        df['Ano'] = ano
                        df['Estado'] = estado
                        
                        # Adiciona a coluna 'município' com o nome do arquivo até o primeiro "_"
                        df['Município'] = arquivo.split("_")[0]
                        
                        # Adiciona os dados à lista
                        dados.append(df)

# Consolida os dados
dados_consolidados = pd.concat(dados)

# Salva os dados consolidados
dados_consolidados.to_excel(os.path.join(pasta, "CONSOLIDAÇÃO", "base_consolidada_sivep.xlsx"), index=False)

# Separa por ano e salva
for ano, df_ano in dados_consolidados.groupby('Ano'):
    df_ano.to_excel(os.path.join(pasta, "CONSOLIDAÇÃO", f"base_sivep_ano_{ano}.xlsx"), index=False)

# Cria tabelas calculadas por estado e ano
for (estado, ano), df_estado_ano in dados_consolidados.groupby(['Estado', 'Ano']):
    # Converte as colunas para números, substituindo quaisquer erros por NaN
    df_estado_ano[['F', 'V', 'F+V']] = df_estado_ano[['F', 'V', 'F+V']].apply(pd.to_numeric, errors='coerce')
    
    # Calcula a soma das colunas para todo o estado e ano
    total_F = df_estado_ano['F'].sum()
    total_V = df_estado_ano['V'].sum()
    total_F_V = df_estado_ano['F+V'].sum()
    total = total_F + total_V + total_F_V
    
    # Cria um novo DataFrame para armazenar os resultados
    df_resumo = pd.DataFrame({
        'Estado': [estado],
        'Ano': [ano],
        'Plasmodium falciparum': [total_F],
        '% Plasmodium falciparum': [total_F / total * 100],
        'Plasmodium vivax': [total_V],
        '% Plasmodium vivax': [total_V / total * 100]
    })
    
    # Salva o DataFrame resumo
    df_resumo.to_excel(os.path.join(pasta, "CONSOLIDAÇÃO", f"prevalencia_de_plasmodium_{estado}_{ano}.xlsx"), index=False)

In [None]:
import os
import pandas as pd

# Caminho da pasta
pasta = "G:\Meu Drive\Portifólio GitHub\malaria-data-analysis\analysis\datasets"

# Dicionário para armazenar os dados por ano
dados_por_ano = {}

# Percorre os arquivos na pasta
for arquivo in os.listdir(pasta):
    # Verifica se o arquivo começa com "prevalencia_de_plasmodium_"
    if arquivo.startswith("prevalencia_de_plasmodium_"):
        caminho_arquivo = os.path.join(pasta, arquivo)
        
        # Lê o arquivo xlsx
        df = pd.read_excel(caminho_arquivo)
        
        # Adiciona os dados ao dicionário correspondente ao ano
        ano = df['Ano'].iloc[0]
        if ano not in dados_por_ano:
            dados_por_ano[ano] = []
        dados_por_ano[ano].append(df)

# Consolida os dados por ano e salva
for ano, dados in dados_por_ano.items():
    dados_consolidados = pd.concat(dados)
    dados_consolidados.to_excel(os.path.join(pasta, f"compilado_prevalência_{ano}.xlsx"), index=False)

In [None]:
import os
import pandas as pd

# Caminho da pasta
pasta = "G:\Meu Drive\Portifólio GitHub\malaria-data-analysis\analysis\datasets"

# Lista para armazenar todos os dados
dados = []

# Percorre as pastas dos estados
for estado in os.listdir(pasta):
    caminho_estado = os.path.join(pasta, estado)
    
    # Verifica se é uma pasta
    if os.path.isdir(caminho_estado):
        
        # Percorre as pastas dos anos
        for ano in os.listdir(caminho_estado):
            caminho_ano = os.path.join(caminho_estado, ano)
            
            # Verifica se é uma pasta
            if os.path.isdir(caminho_ano):
                
                # Percorre os arquivos xlsx
                for arquivo in os.listdir(caminho_ano):
                    if arquivo.endswith(".xlsx"):
                        caminho_arquivo = os.path.join(caminho_ano, arquivo)
                        
                        # Lê o arquivo xlsx
                        df = pd.read_excel(caminho_arquivo)
                        
                        # Filtra as linhas onde 'País Infecção' é diferente de "BRASIL"
                        df = df[~df['País Infecção'].isin(["BRASIL", "ÁFRICA DO SUL", "SANTA HELENA", "ROMÊNIA", "NIGÉRIA", "PANAMÁ", "ANGOLA", "FRANÇA", "REPÚBLICA DOMINICANA"])]
                        
                        # Adiciona as colunas de ano e estado
                        df['Ano'] = ano
                        df['Estado'] = estado
                        
                        # Adiciona a coluna 'município' com o nome do arquivo até o primeiro "_"
                        df['Município'] = arquivo.split("_")[0]
                        
                        # Adiciona os dados à lista
                        dados.append(df)

# Consolida os dados
dados_consolidados = pd.concat(dados)

# Salva os dados consolidados
dados_consolidados.to_excel(os.path.join(pasta, "CONSOLIDAÇÃO", "base_consolidada_sivep_import.xlsx"), index=False)

# Separa por ano e salva
for ano, df_ano in dados_consolidados.groupby('Ano'):
    df_ano.to_excel(os.path.join(pasta, "CONSOLIDAÇÃO", f"base_sivep_ano_{ano}_import.xlsx"), index=False)

# Cria tabelas calculadas por estado e ano
for (estado, ano), df_estado_ano in dados_consolidados.groupby(['Estado', 'Ano']):
    # Converte as colunas para números, substituindo quaisquer erros por NaN
    df_estado_ano[['F', 'V', 'F+V']] = df_estado_ano[['F', 'V', 'F+V']].apply(pd.to_numeric, errors='coerce')
    
    # Calcula a soma das colunas para todo o estado e ano
    total_F = df_estado_ano['F'].sum()
    total_V = df_estado_ano['V'].sum()
    total_F_V = df_estado_ano['F+V'].sum()
    total = total_F + total_V + 2*total_F_V  # Total de casos
    
    # Cria um novo DataFrame para armazenar os resultados
    df_resumo = pd.DataFrame({
        'Estado': [estado],
        'Ano': [ano],
        'Plasmodium falciparum': [total_F + total_F_V],
        '% Plasmodium falciparum': [(total_F + total_F_V) / total * 100],
        'Plasmodium vivax': [total_V + total_F_V],
        '% Plasmodium vivax': [(total_V + total_F_V) / total * 100]
    })

    # Salva o DataFrame resumo
    df_resumo.to_excel(os.path.join(pasta, "CONSOLIDAÇÃO", f"prevalencia_de_plasmodium_{estado}_{ano}_import.xlsx"), index=False)

import os
import pandas as pd

# Caminho da pasta
pasta = "G:\Meu Drive\Portifólio GitHub\malaria-data-analysis\analysis\datasets"

# Dicionário para armazenar os dados por ano
dados_por_ano = {}

# Percorre os arquivos na pasta
for arquivo in os.listdir(pasta):
    # Verifica se o arquivo começa com "prevalencia_de_plasmodium_"
    if arquivo.startswith("prevalencia_de_plasmodium_"):
        caminho_arquivo = os.path.join(pasta, arquivo)
        
        # Lê o arquivo xlsx
        df = pd.read_excel(caminho_arquivo)
        
        # Adiciona os dados ao dicionário correspondente ao ano
        ano = df['Ano'].iloc[0]
        if ano not in dados_por_ano:
            dados_por_ano[ano] = []
        dados_por_ano[ano].append(df)

# Consolida os dados por ano e salva
for ano, dados in dados_por_ano.items():
    dados_consolidados = pd.concat(dados)
    dados_consolidados.to_excel(os.path.join(pasta, f"compilado_prevalência_{ano}_import.xlsx"), index=False)