In [12]:
import os as os
import requests as req
from datetime import datetime
from dateutil.relativedelta import relativedelta

In [13]:
def data_directories(**kwargs):
    """
    Funcao de criacao das pastas para armazenamento dos dados, caso nao existam.
    
    Args:
        directories (list): Lista do caminho dos diretorios a serem criados.
        
    Return:
        Cria os diretorios para armazenamento dos dados.  
    """

    ### Diretorios para armazenamento dos dados coletados
    kwargs['directories'] = ['..\\data\\01-collected'
                            ,'..\\data\\02-cleaned'
                            ,'..\\data\\03-organized'
                            ,'..\\data\\04-standardized']
    
    print(str(datetime.now()) + ': Inicio da criacao dos diretorios para armazenamento dos dados.')
      
    for directory in kwargs['directories']:
        
        if not os.path.exists(directory):
            os.makedirs(directory)
            print(str(datetime.now()) + ': Diretorio ' + directory + ' criado.')
        
        else:
            print(str(datetime.now()) + ': Diretorio ' + directory + ' ja existe.')
            
    print(str(datetime.now()) + ': Fim da criacao dos diretorios para armazenamento dos dados.')

In [14]:
def download_file(**kwargs):
    """
    Funcao que realiza o download do arquivo. Ao final do download, e verificado
    se o arquivo solicitado esta vazio. Caso esteja vazio, o arquivo e apagado.
    
    Args:
        url_query (str): URL parametrizada para download do arquivo.
        download_file (str): Nome do arquivo para download.
        download_path (str): Caminho do diretorio onde sera salvo o arquivo.
    """
    print(str(datetime.now()) + ': Inicio do download do arquivo ' + kwargs['download_path'])
    
    # Prepara a requisicao de download do arquivo
    res = req.get(kwargs['url_query'], stream = True)
    
    # Se for encontrada a URL para download
    if res.status_code == 200:
        
        # Faz o download do arquivo
        with open(kwargs['download_path'], 'wb') as f:
            print(str(datetime.now()) + ': Download do arquivo: ' + kwargs['download_file'])
            for chunk in res.iter_content(chunk_size = 1024):
                f.write(chunk)
        
        # Verifica o tamanho do arquivo recebido
        file_size = os.stat(kwargs['download_path']).st_size
        
        # Se o tamanho do arquivo for muito 
        # pequeno remove o arquivo da pasta 
        if file_size <= 100:
            print(str(datetime.now()) + ': Arquivo ' + kwargs['download_file'] + ' removido por conter poucos dados.')
            os.remove(kwargs['download_path'])
            
        print(str(datetime.now()) + ': Fim do download do arquivo ' + kwargs['download_path'])

In [15]:
def collect_data(**kwargs):
    """
    Coleta os dados para cada mes de referencia dentro das datas de inicio e fim informadas.
    
    Args:
        dt_ini_ref (date): Data inicial para coleta dos dados
        dt_fim_ref (date): Data final para coleta dos dados
    """
    
    ### Define a data de referencia inicial
    kwargs['dt_ref'] = kwargs['dt_ini_ref']
    
    ### Cria os diretorios para armazenamento dos dados
    data_directories(**kwargs)
    
    ### Define o caminho completo para download dos arquivos
    kwargs['download_directory'] = '..\\data\\01-collected\\'
    
    ### Define a URL base de busca dos arquivos para download
    kwargs['download_url'] = 'http://www.portaltransparencia.gov.br/download-de-dados/cpgf/'
    
    ### Define o nome do arquivo para download
    kwargs['file_name'] = '_CPGF'
    kwargs['file_ext'] = '.zip'
       
    ### Para cada mes de referencia dentro das datas de inicial e final
    while kwargs['dt_ref'] <= kwargs['dt_fim_ref']:
        
        ### Prepara as variaveis do mes de referencia
        kwargs['file_date_ref'] = kwargs['dt_ref'].strftime('%Y%m')
        kwargs['download_file'] = kwargs['file_date_ref'] + kwargs['file_name'] + kwargs['file_ext']
        
        ### Define a URL completa para download do arquivo
        kwargs['url_query'] = kwargs['download_url'] + kwargs['file_date_ref']
        
        ### Define o caminho completo para armazenamento do arquivo de download
        kwargs['download_path'] = kwargs['download_directory'] + kwargs['download_file']
        
        ### Inicia o download do arquivo
        download_file(**kwargs)
        
        ### Atualiza o mes de refencia
        kwargs['dt_ref'] += relativedelta(months=1)

    

In [16]:
def main():
    """
    Coleta os dados de Cartao de Pagamento do Governo Federal (CPGF)
    Origem: Portal da Transparencia
    """
    
    ### Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    ### Datas de Inicio e Fim (YYYY-MM-DD)
    kwargs['dt_ini_ref'] = datetime.strptime('2019-01-01', "%Y-%m-%d")
    kwargs['dt_fim_ref'] = datetime.strptime('2019-03-01', "%Y-%m-%d")
    
    ### Coleta os arquivos
    collect_data(**kwargs)

if __name__ == '__main__':
    main()

2019-06-04 18:15:14.656564: Inicio da criacao dos diretorios para armazenamento dos dados.
2019-06-04 18:15:14.659555: Diretorio ..\data\01-collected criado.
2019-06-04 18:15:14.661550: Diretorio ..\data\02-cleaned criado.
2019-06-04 18:15:14.664540: Diretorio ..\data\03-organized criado.
2019-06-04 18:15:14.666535: Diretorio ..\data\04-standardized criado.
2019-06-04 18:15:14.666535: Fim da criacao dos diretorios para armazenamento dos dados.
2019-06-04 18:15:14.666535: Inicio do download do arquivo ..\data\01-collected\201901_CPGF.zip
2019-06-04 18:15:15.519300: Download do arquivo: 201901_CPGF.zip
2019-06-04 18:15:15.624974: Fim do download do arquivo ..\data\01-collected\201901_CPGF.zip
2019-06-04 18:15:15.624974: Inicio do download do arquivo ..\data\01-collected\201902_CPGF.zip
2019-06-04 18:15:16.054821: Download do arquivo: 201902_CPGF.zip
2019-06-04 18:15:16.100699: Fim do download do arquivo ..\data\01-collected\201902_CPGF.zip
2019-06-04 18:15:16.100699: Inicio do download d