In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import os

lista_de_dataframes = [
    "./input/SINASC_RO_2019_MAR.csv",
    "./input/SINASC_RO_2019_ABR.csv",
    "./input/SINASC_RO_2019_MAI.csv",
    "./input/SINASC_RO_2019_JUN.csv",
    "./input/SINASC_RO_2019_JUL.csv",
    "./input/SINASC_RO_2019_AGO.csv",
    "./input/SINASC_RO_2019_SET.csv",
    "./input/SINASC_RO_2019_OUT.csv",
    "./input/SINASC_RO_2019_NOV.csv",
    "./input/SINASC_RO_2019_DEZ.csv",
]


def plota_pivot_table(dataframe, values, index, funcao, ylabel, xlabel, opcao="nada"):

    if opcao == "nada":
        pd.pivot_table(dataframe, values=values, index=index, aggfunc=funcao).plot(
            figsize=[15, 5]
        )
    elif opcao == "unstack":
        pd.pivot_table(
            dataframe, values=values, index=index, aggfunc=funcao
        ).unstack().plot(figsize=[18, 6])
    elif opcao == "sort_values":
        pd.pivot_table(
            dataframe, values=values, index=index, aggfunc=funcao
        ).sort_values(values).plot(figsize=[15, 5])

    plt.ylabel(ylabel)
    plt.xlabel(xlabel)

    return None


for dataframe in lista_de_dataframes:

    sinasc = pd.read_csv(dataframe)

    max_data = sinasc.DTNASC.max()[:7]

    os.makedirs("./output/figs/" + max_data, exist_ok=True)

    # Gráfico de Média de idade das mães para cada data
    plota_pivot_table(
        sinasc, "IDADEMAE", "DTNASC", "mean", "Idade da mães", "Datas de nascimentos"
    )
    plt.savefig("./output/figs/" + max_data + "/contagem de nascimentos por data.png")
    plt.close()

    # Gráfico da contagem de nascimentos para cada data
    plota_pivot_table(
        sinasc,
        "IDADEMAE",
        "DTNASC",
        "count",
        "Quantidade de nascimentos",
        "Datas de nascimentos",
    )
    plt.savefig("./output/figs/" + max_data + "/media idade mãe.png")
    plt.close()

    # Gráfico para quantidade de nascimentos por data e sexo
    plota_pivot_table(
        sinasc,
        "IDADEMAE",
        ["DTNASC", "SEXO"],
        "count",
        "Idade da mães",
        "Datas de nascimentos",
        "unstack",
    )
    plt.savefig(
        "./output/figs/" + max_data + "/contagem de nascimentos por data e sexo.png"
    )
    plt.close()

    #  Gráfico para peso dos recém nascidos de acordo com data e sexo
    plota_pivot_table(
        sinasc,
        "PESO",
        ["DTNASC", "SEXO"],
        "count",
        "Idade da mães",
        "Datas de nascimentos",
        "unstack",
    )
    plt.savefig(
        "./output/figs/"
        + max_data
        + "/Peso dos recém nascidos de acordo com data e sexo.png"
    )
    plt.close()

    # Gráfico da relação entre o peso dos bebês e a escolaridade das mães
    plota_pivot_table(
        sinasc,
        "PESO",
        "ESCMAE",
        "median",
        "Peso do bebê",
        "Tempo de escolaridade das mães",
    )
    plt.savefig(
        "./output/figs/"
        + max_data
        + "/Peso dos recém nascidos de acordo com a escolaridade da mãe.png"
    )
    plt.close()

    # Gráfico de índice de APGAR1 de acordo com o tempo de gestação
    plota_pivot_table(
        sinasc,
        "APGAR1",
        "GESTACAO",
        "mean",
        "Valor de Apgar 1",
        "Semanas de Gestação",
        "sort_values",
    )
    plt.savefig(
        "./output/figs/"
        + max_data
        + "/Índice de APGAR1 comparado ao tempo de gestação.png"
    )
    plt.close()

    # Gráfico de índice de APGAR5 de acordo com o tempo de gestação
    plota_pivot_table(
        sinasc,
        "APGAR5",
        "GESTACAO",
        "mean",
        "Valor de Apgar 5",
        "Semanas de Gestação",
        "sort_values",
    )
    plt.savefig(
        "./output/figs/"
        + max_data
        + "/Índice de APGAR5 comparado ao tempo de gestação.png"
    )
    plt.close()
    
    

### Automatização para introdução de novos datasets de forma automática

In [63]:
# Criação de um loop for que irá verificar e processar todos os arquivos csv de nosso diretório, assim não precisaremos iterar sob uma lista manualmente como foi feito no exemplo acima, e um segundo loop para passar os parâmetros através de uma lista de dicionários

input_dir = "./input/"
output_dir = "./output/figs/"

dicionario_de_parametros = [
    {
        "values": "IDADEMAE",
        "index": "DTNASC",
        "funcao": "count",
        "ylabel": "Quantidade de nascimentos",
        "xlabel": "Datas de nascimentos",
        "opcao": "nada",
        "nome_do_arquivo": "media_idade_mae.png",
    },
    {
        "values": "IDADEMAE",
        "index": "DTNASC",
        "funcao": "mean",
        "ylabel": "Idade das mães",
        "xlabel": "Datas de nascimentos",
        "opcao": "nada",
        "nome_do_arquivo": "contagem_nascimentos_por_data.png",
    },
    {
        "values": "IDADEMAE",
        "index": ["DTNASC", "SEXO"],
        "funcao": "count",
        "ylabel": "Idade das mães",
        "xlabel": "Datas de nascimentos",
        "opcao": "unstack",
        "nome_do_arquivo": "contagem_nascimentos_por_data_e_sexo.png",
    },
    {
        "values": "PESO",
        "index": ["DTNASC", "SEXO"],
        "funcao": "count",
        "ylabel": "Idade das mães",
        "xlabel": "Datas de nascimentos",
        "opcao": "unstack",
        "nome_do_arquivo": "peso_recem_nascidos_por_data_e_sexo.png",
    },
    {
        "values": "PESO",
        "index": "ESCMAE",
        "funcao": "median",
        "ylabel": "Peso do bebê",
        "xlabel": "Tempo de escolaridade das mães",
        "opcao": "nada",
        "nome_do_arquivo": "peso_por_escolaridade.png",
    },
    {
        "values": "APGAR1",
        "index": "GESTACAO",
        "funcao": "mean",
        "ylabel": "Valor de Apgar 1",
        "xlabel": "Semanas de gestação",
        "opcao": "sort_values",
        "nome_do_arquivo": "apgar1_por_gestacao.png",
    },
    {
        "values": "APGAR5",
        "index": "GESTACAO",
        "funcao": "mean",
        "ylabel": "Valor de Apgar 5",
        "xlabel": "Semanas de gestação",
        "opcao": "sort_values",
        "nome_do_arquivo": "apgar5_por_gestacao.png",
    },
]

for arquivo in os.listdir(input_dir):
    if arquivo.endswith("csv"):
        arquivo_path = os.path.join(input_dir, arquivo)
        sinasc = pd.read_csv(arquivo_path)
        max_data = sinasc.DTNASC.max()[:7]

    save_path = os.path.join(output_dir, max_data)
    os.makedirs(save_path, exist_ok=True)

    for parametros in dicionario_de_parametros:
        plota_pivot_table(
            sinasc,
            values=parametros["values"],
            index=parametros["index"],
            funcao=parametros["funcao"],
            ylabel=parametros["ylabel"],
            xlabel=parametros["xlabel"],
            opcao=parametros["opcao"],
        )
        plt.savefig(os.path.join(save_path, parametros["nome_do_arquivo"]))
        plt.close()