In [1]:
import os as os
import requests as req
from datetime import datetime

In [2]:
def add_url_parameter(**kwargs):
    """
    Funcao para montar a URL de download do arquivo de dados.
    
    Args:
        table (str): Nome da tabela que sera feito o download.
        url (str): URL padrao para download de arquivos.

    Returns:
        str: URL parametrizada para download do arquivo.
    """
    return kwargs['url'] + kwargs['table']

In [3]:
def set_file_name(**kwargs):
    """
    Funcao para montar o nome do arquivo de download.
    Inclui o ano, mes e dia do momento em que foi feito o download.
    
    Args:
        table (str): Nome da tabela que sera feito o download.
        file_ext (str): Extensao do arquivo para download.
        
    Returns:
        str: Nome do arquivo para download.
    """
    return datetime.now().strftime('%Y%m%d') + '_' + kwargs['table'] + kwargs['file_ext']

In [4]:
def download_file(**kwargs):
    """
    Funcao que realiza o download do arquivo. Ao final do download, e verificado
    se o arquivo solicitado esta vazio. Caso esteja vazio, o arquivo e apagado.
    
    Args:
        url_query (str): URL parametrizada para download do arquivo.
        file_name (str): Nome do arquivo para download.
        download_path (str): Caminho do diretorio onde sera salvo o arquivo.
    """
    # Prepara o caminho completo para download do arquivo
    download_file = kwargs['download_path'] + kwargs['file_name']
    
    # Prepara a requisicao de download do arquivo
    res = req.get(kwargs['url_query'], stream = True)
    
    # Se for encontrada a URL para download
    if res.status_code == 200:
        
        # Faz o download do arquivo
        with open(download_file, 'wb') as f:
            print 'Download do arquivo: ' + kwargs['file_name']
            for chunk in res.iter_content(chunk_size = 1024):
                f.write(chunk)
        
        # Verifica o tamanho do arquivo recebido
        file_size = os.stat(download_file).st_size
        
        # Se o tamanho do arquivo for muito 
        # pequeno remove o arquivo da pasta 
        if file_size <= 100:
            print 'Arquivo ' + kwargs['file_name'] + ' removido por conter poucos dados.'
            os.remove(download_file)
            

In [6]:
def collect_files():
    """
    Funcao para coletar do site da Receita Federal os arquivos de Quadro Societario e Administradores.
    Os dados sao armazenados no diretorio /data/raw/ .
    
    Returns:
        obj: Arquivos TXT de Quadro Societario e Administradores da Receita Federal.
    """
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Variaveis de controle do processo
    # Lista de tabelas para download (por estado)
    kwargs['tables'] = ['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO'
                       ,'MA', 'MG', 'MS', 'MT', 'PA', 'PB', 'PE', 'PI', 'PR'
                       ,'RJ', 'RN', 'RO', 'RR', 'RS', 'SC', 'SE', 'SP', 'TO']
    
    # Tipo de extensao dos arquivos recebidos por download
    kwargs['file_ext'] = '.txt'

    # URL para busca de arquivos para download
    kwargs['url'] = 'http://idg.receita.fazenda.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/consultas/download/F.K03200UF.D71214'

    # Caminho para armazenamento do download dos arquivos
    kwargs['download_path'] = '..\\..\\data\\01-collected\\'
    
    # Para cada tabela na lista de tabelas
    for table in kwargs['tables']:
        
        # Prepara a URL e nome do arquivo para download
        kwargs['table'] = table
        kwargs['file_name'] = set_file_name(**kwargs)
        kwargs['url_query'] = add_url_parameter(**kwargs)
        
        # Faz o download do arquivo 
        download_file(**kwargs)
    
    print 'Download dos arquivos concluído!'


In [7]:
def main():
    ### Coleta os arquivos
    collect_files()

if __name__ == '__main__':
    main()

Download do arquivo: 20180718_AC.txt
Download do arquivo: 20180718_AL.txt
Download do arquivo: 20180718_AM.txt
Download do arquivo: 20180718_AP.txt
Download do arquivo: 20180718_BA.txt
Download do arquivo: 20180718_CE.txt
Download do arquivo: 20180718_DF.txt
Download do arquivo: 20180718_ES.txt
Download do arquivo: 20180718_GO.txt
Download do arquivo: 20180718_MA.txt
Download do arquivo: 20180718_MG.txt
Download do arquivo: 20180718_MS.txt
Download do arquivo: 20180718_MT.txt
Download do arquivo: 20180718_PA.txt
Download do arquivo: 20180718_PB.txt
Download do arquivo: 20180718_PE.txt
Download do arquivo: 20180718_PI.txt
Download do arquivo: 20180718_PR.txt
Download do arquivo: 20180718_RJ.txt
Download do arquivo: 20180718_RN.txt
Download do arquivo: 20180718_RO.txt
Download do arquivo: 20180718_RR.txt
Download do arquivo: 20180718_RS.txt
Download do arquivo: 20180718_SC.txt
Download do arquivo: 20180718_SE.txt
Download do arquivo: 20180718_SP.txt
Download do arquivo: 20180718_TO.txt
D