## Módulo 14 - Scripting - Exercício 1 - Vivian Sant'Anna

In [6]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import os

sns.set_theme()

def plot_pivot_table(df: pd.DataFrame, 
                     value: str, 
                     index: str, 
                     func: str, 
                     ylabel: str, 
                     xlabel: str, 
                     opcao: str='nenhuma'
                    ) -> None:
    if opcao == 'nenhuma':
        pd.pivot_table(data=df, 
                       values=value, 
                       index=index,
                       aggfunc=func
                      ).plot(figsize=[15, 5])
    elif opcao == 'sort':
        pd.pivot_table(data=df, 
                       values=value, 
                       index=index,
                       aggfunc=func
                      ).sort_values(value).plot(figsize=[15, 5])
    elif opcao == 'unstack':
        pd.pivot_table(data=df, 
                       values=value, 
                       index=index,
                       aggfunc=func
                      ).unstack().plot(figsize=[15, 5])
    plt.ylabel(ylabel)
    plt.xlabel(xlabel)
    return None


meses = ['MAR', 'ABR', 'MAI', 'JUN', 'DEZ']

for mes in meses:
    sinasc = pd.read_csv('SINASC_RO_2019_'+mes+'.csv')

    max_data = sinasc.DTNASC.max()[:7]
    os.makedirs('./output/figs/'+max_data, exist_ok=True)

    plot_pivot_table(df=sinasc, 
                     value='IDADEMAE', 
                     index='DTNASC', 
                     func='count', 
                     ylabel='Quantidade de nascimentos', 
                     xlabel='Data de nascimento')
    plt.savefig('./output/figs/'+max_data+'/Quantidade de nascimentos.png')
    plt.close()

    plot_pivot_table(df=sinasc, 
                     value='IDADEMAE', 
                     index=['DTNASC', 'SEXO'], 
                     func='mean', 
                     ylabel='Média da idade das mães', 
                     xlabel='Data de nascimento', 
                     opcao='unstack')
    plt.savefig('./output/figs/'+max_data+'/Média da idade das mães por sexo.png')
    plt.close()

    plot_pivot_table(df=sinasc, 
                     value='PESO', 
                     index=['DTNASC', 'SEXO'], 
                     func='mean', 
                     ylabel='Média do peso dos bebês', 
                     xlabel='Data de nascimento',
                     opcao='unstack')
    plt.savefig('./output/figs/'+max_data+'/Média do peso dos bebês por sexo.png')
    plt.close()

    plot_pivot_table(df=sinasc, 
                     value='APGAR1', 
                     index='ESCMAE', 
                     func='median', 
                     ylabel='Mediana do APGAR1', 
                     xlabel='Escolaridade',
                     opcao='sort')
    plt.savefig('./output/figs/'+max_data+'/Mediana do APGAR1 por escolaridade das mães.png')
    plt.close()

    plot_pivot_table(df=sinasc, 
                     value='APGAR1', 
                     index='GESTACAO', 
                     func='mean', 
                     ylabel='Média do APGAR1', 
                     xlabel='Gestação',
                     opcao='sort')
    plt.savefig('./output/figs/'+max_data+'/Média do APGAR1 por gestação.png')
    plt.close()

    plot_pivot_table(df=sinasc, 
                     value='APGAR5', 
                     index='GESTACAO', 
                     func='mean', 
                     ylabel='Média do APGAR5', 
                     xlabel='Gestação',
                     opcao='sort')
    plt.savefig('./output/figs/'+max_data+'/Média do APGAR5 por gestação.png')
    plt.close()
    
    print('Data inicial:', sinasc.DTNASC.min(), 
          'Data final:', sinasc.DTNASC.max())
    print('Nome da pasta:', max_data, '\n')

Data inicial: 2019-01-01 Data final: 2019-03-31
Nome da pasta: 2019-03 

Data inicial: 2019-01-01 Data final: 2019-04-30
Nome da pasta: 2019-04 

Data inicial: 2019-01-01 Data final: 2019-05-31
Nome da pasta: 2019-05 

Data inicial: 2019-01-01 Data final: 2019-06-30
Nome da pasta: 2019-06 

Data inicial: 2019-01-01 Data final: 2019-12-31
Nome da pasta: 2019-12 



**Para aprimorar nosso código e torná-lo mais eficiente na geração automática de gráficos para meses ou anos futuros, podemos adotar as seguintes estratégias:**

**Implementação de uma Função de Carregamento de Dados Dinâmica:** Podemos desenvolver uma função que automatize o carregamento dos dados com base no ano e no mês, eliminando a necessidade de ajustes manuais nos nomes dos arquivos. Essa função poderá receber o ano e o mês como argumentos e construir dinamicamente o caminho do arquivo correspondente.

**Automação da Iteração por Períodos:** Ao invés de listarmos os meses manualmente, podemos gerar automaticamente uma lista de períodos (meses/anos) baseada nos arquivos disponíveis no diretório ou empregando uma lógica de datas para abranger os períodos desejados.

**Flexibilização das Configurações de Plotagem:** Nossa função plot_pivot_table pode ser aprimorada para aceitar parâmetros variáveis que se ajustem ao tipo específico de análise ou gráfico requerido, como o título do gráfico e o tipo de gráfico, tornando-a mais versátil.

**Automatização do Salvamento de Gráficos:** Podemos refinar o processo de salvamento dos gráficos para que os diretórios sejam criados automaticamente com base na data dos dados ou outros critérios pertinentes, dispensando a necessidade de nomeação manual dos diretórios.

**Geração Automática de Relatórios:** Podemos introduzir uma função que compile automaticamente as estatísticas ou insights mais relevantes de cada período, acompanhados dos gráficos correspondentes, proporcionando um resumo informativo e visual dos dados.

**Incorporação de Tratamento de Erros e Logs:** É importante adicionarmos mecanismos de tratamento de erros e logs para gerenciar situações onde os dados possam estar incompletos ou ocorram falhas durante a execução. Isso garantirá a continuidade do processo para os próximos períodos, mesmo diante de eventuais problemas em um conjunto específico de dados.

**Utilização de um Script de Agendamento:** Consideramos a ideia de utilizar ferramentas de agendamento de tarefas, como o Cron no Linux ou o Agendador de Tarefas no Windows, para executar nosso script automaticamente em intervalos predefinidos, como no início de cada mês, assegurando a atualização contínua dos nossos gráficos.

Com essas melhorias, visamos não apenas aumentar a eficiência do nosso código, mas também garantir sua adaptabilidade e robustez para análises futuras, facilitando a manutenção e a expansão de nossas capacidades de análise de dados.






**Exemplo de código para implementação de melhorias**

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from datetime import datetime

sns.set_theme()

def load_data(year, month):
    filename = f'./input/SINASC_RO_{year}_{month}.csv'
    if os.path.exists(filename):
        return pd.read_csv(filename)
    else:
        return None

def generate_period_list(start_year, start_month, end_year, end_month):
    start_date = datetime(start_year, start_month, 1)
    end_date = datetime(end_year, end_month, 1)
    date_range = pd.date_range(start_date, end_date, freq='M')
    return [(date.strftime('%Y'), date.strftime('%b').upper()) for date in date_range]

def plot_and_save(df, year, month):
    if df is not None:
        max_data = df.DTNASC.max()[:7]
        output_dir = f'./output/figs/{max_data}'
        os.makedirs(output_dir, exist_ok=True)

        # Suas chamadas de função plot_pivot_table e salvamento de gráficos aqui
        # Exemplo:
        # plot_pivot_table(...)
        # plt.savefig(f'{output_dir}/NomeDoGráfico.png')
        # plt.close()

        print(f'Gráficos para {month}/{year} salvos em {output_dir}')

# Exemplo de uso
periods = generate_period_list(2019, 3, 2020, 12)  # De Março de 2019 a Dezembro de 2020

for year, month in periods:
    sinasc = load_data(year, month)
    plot_and_save(sinasc, year, month)
