# SisÁgua

O Sistema de Informação de Vigilância da Qualidade da Água para Consumo Humano [(SisÁgua)](http://sisagua.saude.gov.br/sisagua/login.jsf) é um instrumento do Programa Nacional de Vigilância da Qualidade da Água para consumo Humano (Vigiagua), construído com base no referido programa e na Portaria MS n° 2.914/2011 (atualmente, [Anexo XX da Portaria de Consolidação n° 05/2017](https://cevs-admin.rs.gov.br/upload/arquivos/201804/26143402-anexo-xx.pdf)), que tem como objetivo auxiliar o gerenciamento de riscos à saúde associados à qualidade da água destinada ao consumo humano, como parte integrante das ações de prevenção de agravos e de promoção da saúde, previstas no Sistema Único de Saúde.

O SisÁgua armazena informações cadastrais sobre os sistemas e soluções alternativas de abastecimento de água para consumo humano, bem como sobre a qualidade da água proveniente de cada uma das formas cadastradas, inferida pelos prestadores do serviço (controle) e pelo setor saúde (vigilância).

A entrada de dados é dividida, basicamente, em três partes:
1. O módulo de **Cadastro** tem como finalidade armazenar informações sobre as características físicas e operacionais das formas de abastecimento de água utilizadas pela população.
2. O módulo de **Controle** tem como finalidade armazenar informações sobre o monitoramento da qualidade da água realizado pelos responsáveis pelo abastecimento coletivo de água para consumo humano. 
3. O módulo de **Vigilância** tem como finalidade armazenar informações sobre as inspeções sanitárias das formas de abastecimento de água e sobre o monitoramento da sua qualidade realizado pelo setor saúde.

# _Download_ dos dados

Os dados da Plataforma SisÁgua estão disponíveis no [Portal de Dados Abertos](http://www.dados.gov.br/dataset?tags=SISAGUA) do Governo Federal. Importante mencionar que os dados disponibilizados pelo Portal não são sincronizados automaticamente com a Plataforma SisÁgua, ou seja, quando uma determinada vigilância sanitária municipal insere os dados no SisÁgua, estará disponibilizado apenas nessa Plataforma. Somente na próxima atualização dos repositórios do Portal de Dados Abertos, que tais dados estarão disponíveis para acesso público.

## Estrutura de Pastas e Arquivos

Primeira coisa a se fazer é criar uma estrutura de pastas que receberão arquivos a serem baixados pelo [Portal de Dados Abertos](http://www.dados.gov.br/dataset?tags=SISAGUA), bem como importar as devidas bibliotecas (*packages*) que serão utilizadas nesse *script*.

In [1]:
import os
import pandas as pd
import numpy as np
import datetime

In [2]:
%run '../codes/files/find_filesbyextension.py'
%run '../codes/files/predict_encoding.py'
%run '../codes/files/create_folders.py'

In [3]:
create_folders('', ['data', 'data/Dados Originais', 'docs', 'maps'])
path = os.path.join('data', 'Dados Originais')

Directory "data" already exists...
Directory "data/Dados Originais" already exists...
Directory "docs" already exists...
Directory "maps" already exists...


## *Download* dos arquivos

Posteriormente se define a lista de arquivos que será feito o o *download*. A lista abaixo foi organizada, manualmente, em XX.03.2020.

In [4]:
urls=(
    # Tabela 1 (Anual)
    'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_anual_2014.zip',
    'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_anual_2015.zip',
    'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_anual_2016.zip',
    'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_anual_2017.zip',
    'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_anual_2018.zip',
    'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_anual_2019.zip',
    'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_anual_2020.zip',
    
    # Tabela 1 (Mensal)
    #'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_mensal_2014.zip',
    #'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_mensal_2015.zip',
    #'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_mensal_2016.zip',
    #'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_mensal_2017.zip',
    #'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_mensal_2018.zip',
    #'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_mensal_2019.zip',
    #'http://sage.saude.gov.br/dados/sisagua/1controle_mensal_quantitativos_de_analises/sisagua_mensal_2020.zip',
    
    # Tabela 2
    #'http://sage.saude.gov.br/dados/sisagua/2amostras_de_vigilancia_parametros_basicos/2amostras_de_vigilancia_parametros_basicos_anual_2014.zip',
    #'http://sage.saude.gov.br/dados/sisagua/2amostras_de_vigilancia_parametros_basicos/2amostras_de_vigilancia_parametros_basicos_anual_2015.zip',
    #'http://sage.saude.gov.br/dados/sisagua/2amostras_de_vigilancia_parametros_basicos/2amostras_de_vigilancia_parametros_basicos_anual_2016.zip',
    #'http://sage.saude.gov.br/dados/sisagua/2amostras_de_vigilancia_parametros_basicos/2amostras_de_vigilancia_parametros_basicos_anual_2017.zip',
    #'http://sage.saude.gov.br/dados/sisagua/2amostras_de_vigilancia_parametros_basicos/2amostras_de_vigilancia_parametros_basicos_anual_2018.zip',
    #'http://sage.saude.gov.br/dados/sisagua/2amostras_de_vigilancia_parametros_basicos/2amostras_de_vigilancia_parametros_basicos_anual_2019.zip',
    'http://sage.saude.gov.br/dados/sisagua/2amostras_de_vigilancia_parametros_basicos/2amostras_de_vigilancia_parametros_basicos_anual_2014_2019.zip',
    
    # Tabela 3 (Anual)
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_anual_2014.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_anual_2015.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_anual_2016.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_anual_2017.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_anual_2018.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_anual_2019.zip',
        
    # Tabela 3 (Semestral)
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_semestral_2014.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_semestral_2015.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_semestral_2016.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_semestral_2017.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_semestral_2018.zip',
    'http://sage.saude.gov.br/dados/sisagua/3controle_semestral/3analise_alta_complex_semestral_2019.zip',
    
    # Tabela 4
    'http://sage.saude.gov.br/dados/sisagua/4amostras_de_vigilancia_demais_parametros/4amostras_de_vigilancia_demais_parametros_anual_2014_a_2020.zip',
        
    # Tabela 5
    'http://sage.saude.gov.br/dados/sisagua/5controle_mensal_resultado_das_analises/5controle_mensal_resultado_analises_total.zip',
        
    # Tabela 6
    'http://sage.saude.gov.br/dados/sisagua/6controle_mensal_amostras_fora_do_padrao/6controle_mensal_amostras_fora_padrao.zip',
        
    # Tabela 7
    'http://sage.saude.gov.br/dados/sisagua/7controle_mensal_infra_e_operacionais/7controle_mensal_infra_e_operacionais.zip',
    
    # Tabela 8
    'http://sage.saude.gov.br/dados/sisagua/8Cobertura_de_abastecimento/8CoberturaAbastecimento.zip',
        
    # Tabela 9
    'http://sage.saude.gov.br/dados/sisagua/9Tratamento_de_agua/9TratamentoAgua.zip',
        
    # Tabela 10
    'http://sage.saude.gov.br/dados/sisagua/10Pontos_de_captacao_de_agua/10Ponto_Captacao.zip',
    
    # Tabela 11
    'http://sage.saude.gov.br/dados/sisagua/11Vigilancia_ciano/11vigilancia_ciano_2014_2020.zip',
)

Com a função abaixo é realizado o *download*, gerando aproximadamente 2gb de arquivos zipados.

In [5]:
%run '../codes/files/downloads.py'
#download_urls(urls, path)

## Unzip

Após fazer o *download* de diversos arquivos zipados, é preciso descompactar os arquivos. Essa etapa começa a relevar o tamanho gigante desse banco de dados, visto que totaliza pouco mais de 130gb de arquivos **_.csv_** descompactados.

Alguns temas são divididos por anos, visando atenuar o problema para abrir tais arquivos, enquanto para outros temas todos os anos são apresentados conjuntamente.

Para atender a minha necessidade, para os temas que estavam fragmentados em anos eu unifiquei as tabelas para, posterirmente, filtrar pela localidade. Tenho, por objetivo, trabalhar unicamente com dados do estado de São Paulo.

In [6]:
%run '../codes/files/zip_file.py'
#unzip_zipfiles(path)

# Funções

Foram criadas algumas funções que possibilizaram a leitura e edição de tabelas tão grandes. Particularmente, esse foi o maior *dataset* que trabalhei até o momento: 130 Gb de arquivos **_.csv_**, contendo milhões de linhas e centenas de colunas, divididos nos 11 temas disponibilizados pelo [Portal de Dados Abertos](http://www.dados.gov.br/dataset?tags=SISAGUA).

Seria desejavel que os dados disponibilizados passassem por algum tipo de validação, definição das tipologias de dados etc. Li alguma coisa sobre isso no [Friction Less Data](https://frictionlessdata.io) que achei interessante e preciso estudar mais (*#ToDo*)

## Renomeia colunas

A primeira função que defini tem, por objetivo, renomear as columas, visando padronizar uma forma de apresentação dos dados. Como o conjunto de dados é bastante extenso, foram encontradas diferentes formas de representar a mesma informação, em um mesmo tema, gerando problemas para análises conjuntas.

A visualização de todas as colunas reunidas, essencial para a criação dessa, função, foi feita com os códigos definidos no tópico **Análise das Colunas**.

In [7]:
def rename_columns(x):
    return(x.
           # Bascis
           replace('_', ' ').
           replace('/', ' / ').
           replace('  ', ' ').
           replace('  ', ' ').
           
           # Siglas
           replace('Cep ', 'CEP ').
           replace(' Cep', ' CEP').
           replace('Cep', 'CEP').
           replace('Cnpj', 'CNPJ').
           replace('Ddd', 'DDD').
           replace('Eta ', 'ETA ').
           replace(' Eta', ' ETA').
           replace('ETApa', 'Etapa').
           replace('Ibge', 'IBGE').
           replace('Lq', 'LQ').
           replace('Ld', 'LD').
           replace('Saa ', 'SAA ').
           replace(' Saa', ' SAA').
           replace('Sac ', 'SAC ').
           replace(' Sac', ' SAC').
           replace('Uv ', 'UV ').
           replace(' Uv', ' UV').
           replace('Uf ', 'UF ').
           replace(' Uf', ' UF').
           replace('Uf', 'UF').
           replace('Uta ', 'UTA ').
           replace(' Uta', ' UTA').
           
           # Esclusões
           replace(' (Art)', '').
           
           # Conjunções e Preposições
           replace(' A ', ' a ').
           replace(' O ', ' o ').
           replace(' As ', ' as ').
           replace(' Os ', ' os ').
           replace(' Com ', ' com ').
           replace(' Da ', ' da ').
           replace(' Das ', ' das ').
           replace(' De ', ' de ').
           replace(' Do ', ' do ').
           replace(' Dos ', ' dos ').
           replace(' Na ', ' na ').
           replace(' No ', ' no ').
           replace(' Ou ', ' ou ').
           
           # Abreviações
           replace('Cap ', 'Captação ').
           replace('Sub ', 'Subterrânea ').
           replace('Sup ', 'Superficial ').
           replace(' Sub', ' Subterrânea').
           replace(' Sup', ' Superficial').
           replace('Nº', 'Número').

           # Acentos e Caracteres Especiais
           replace('Analise', 'Análise').
           replace('Agua', 'Água').
           replace('Area', 'Área').
           replace('Captacao', 'Captação').
           replace('Codigo', 'Código').
           replace('D´Água', 'dÁgua').
           replace('Descricao', 'Descrição').
           replace('Endereco', 'Endereço').
           replace('Escritorio', 'Escritório').
           replace('Geografica', 'Geográfica').
           replace('Intermitencia', 'Intermitência').
           replace('Instituicao', 'Instituição').
           replace('Mes', 'Mês').
           replace('Municipio', 'Município').
           replace('Numero', 'Número').
           replace('Parametro', 'Parâmetro').
           replace('Providencia', 'Providência').
           replace('Procedencia', 'Procedência').
           replace('Reclamacoes', 'Reclamações').
           replace('Regiao', 'Região').
           replace('Saude', 'Saúde').
           
           # Conjunções e Preposições
           replace('Ano de Referência', 'Ano').
           replace('Categoria Manancial', 'Categoria do Manancial').
           replace('Categoria Ponto', 'Categoria do Ponto').
           replace('Código Forma', 'Código da Forma').
           replace('CNPJ Instituição', 'CNPJ da Instituição').
           replace('CNPJ Escritório', 'CNPJ do Escritório').
           replace('Data Análise', 'Data da Análise').
           replace('Data Coleta', 'Data da Coleta').
           replace('Data Laudo', 'Data do Laudo').
           replace('Data Preenchimento', 'Data de Preenchimento').
           replace('Data Registro', 'Data de Registro').
           replace('Descrição Local', 'Descrição do Local').
           replace('ETA UTA', 'ETA / UTA').
           replace('Forma Abastecimento', 'Forma de Abastecimento').
           replace('Grupo Parâmetros', 'Grupo de Parâmetros').
           replace('Mês de Referência', 'Mês').
           replace('Motivo Coleta', 'Motivo da Coleta').
           replace('Nome Escritório', 'Nome do Escritório').
           replace('Nome ETA', 'Nome da ETA').
           replace('Nome da ETA', 'Nome da ETA / UTA').
           replace('Nome da ETA / UTA / UTA', 'Nome da ETA / UTA').
           replace('Nome Forma', 'Nome da Forma').
           replace('Nome Instituição', 'Nome da Instituição').
           replace('Nome Local', 'Nome do Local').
           replace('Nome Manancial', 'Nome do Manancial').
           replace('Nome Município', 'Município').
           replace('Nome Ponto', 'Nome do Ponto').
           replace('Número Amostra', 'Número da Amostra').
           replace('Ponto Captação', 'Ponto de Captação').
           replace('Ponto Coleta', 'Ponto de Coleta').
           replace('Ponto Monitoramento', 'Ponto de Monitoramento').
           replace('Procedência Coleta', 'Procedência da Coleta').
           replace('Regional Local', 'Regional / Local').
           replace('Registro no Sisagua', 'Registro').
           replace('Registro Sisagua', 'Registro').
           replace('Sigla Instituição', 'Sigla da Instituição').
           replace('Sigla UF', 'UF').
           replace('Tipo Captação', 'Tipo de Captação').
           replace('Tipo Filtração', 'Tipo de Filtração').
           replace('Tipo Forma', 'Tipo da Forma').
           replace('Tipo Instituição', 'Tipo da Instituição').
           replace('Tipo Local', 'Tipo do Local').
           
           # Substituições
           replace('Subterrâneo', 'Subterrânea').
           replace('Subterrâneaterrânea', 'Subterrânea').
           replace('Subterrâneaterrâneo', 'Subterrânea').
           replace('Superficialerficial', 'Superficial').
           replace('Superficialrimento', 'Suprimento').
           
           # Final
           replace(' / ', '/'))

## Renomeia _fields_

Os valores dos campos de diversas tabelas vieram, por padrão, em letra maíscula. Nos códigos altero isso para que fique sobre a primeira letra em maíuscula e outras em minúsula (*str.title*), motivo pelo qual precisei corrigir não só os acentos, mais também os conectivos das palavras (artigos, conjunções, advérbios etc).

In [8]:
def rename_fields(x):
    return(x.           
           # Bascis
           replace(' Com ', ' com ').
           replace(' Sobre ', ' sobre ').
           replace(' Da ', ' da ').
           replace(' De ', ' de ').
           replace(' Do ', ' do ').
           replace(' Das ', ' das ').
           replace(' Dos ', ' dos ').
           replace(' A ', ' a ').
           replace(' As ', ' as ').
           replace(' Ao ', ' ao ').
           replace(' Aos ', ' aos ').
           replace(' E ', ' e ').
           replace(' O ', ' o ').
           replace(' Os ', ' os ').
           replace(' Em ', ' em ').
           replace(' Na ', ' na ').
           replace(' Nas ', ' nas ').
           replace(' No ', ' no ').
           replace(' Nos ', ' nos ').
           replace(' Que ', ' que ').
           replace('/', ' / ').
           replace('  ', ' ').
           replace('  ', ' ').
           replace('  ', ' ').
           
           # Siglas
           replace('Sabesp', 'SABESP').
           replace('Brk', 'BRK').
           replace('Gvs ', 'GVS ').
           replace('Saae', 'SAAE').
           replace('Saep', 'SAEP').           
           replace('Saecil', 'SAECIL').
           replace('Saeec', 'SAEEC').
           replace('Saescc', 'SAESCC').
           replace('Semae', 'SEMAE').           
           replace('Saaesp', 'SAAESP').
           replace('Saa', 'SAA').
           replace('Sae', 'SAE').
           replace('Dae ', 'DAE ').
           replace('Eta', 'ETA').
           replace('Uta ', 'UTA ').
           replace(' Abc', ' ABC').
           replace(' Sp ', ' SP ').
           replace(' Sp.', ' sp.').
           
           # 
           replace(' Sn', ' S/N').
           replace(' S. Nº', ' S/N').
           replace(' S/Nº', ' S/N').
           replace('S;N', 'S/N').
           
           # Números Romanos
           replace(' Xii', ' XII').
           replace(' Iii', ' III').
           replace(' Ii', ' II').
           replace(' Xv', ' XV').
           replace(' Xx', ' XX').           
           
           # Erros de Grafia Detectados
           replace('Rodconstantine', 'Rodovia Constantine').
           replace('Avprofnewton', 'Avenida Professor Newton').
           replace('Avdos', 'Avenida dos').
           replace('Avantonio', 'Avenida Antonio').
           replace('Antônio Jm Andrade', 'Antônio Joaquim de Moura Andrade').
           replace('Cataguasesjaguarussu', 'Cataguases com Jaguaruçu').
                  
           # Acentos
           replace(' Agua ', ' Água ').
           replace(' Aguas ', ' Águas ').
           replace('Araqua', 'Araquá').           
           replace('Aguas ', 'Águas ').
           replace('Antonio', 'Antônio').
           replace('Analandia', 'Analândia').
           replace('Autonomo', 'Autônomo').
           replace(' Basico ', ' Básico ').
           replace('Comunitário', 'Comunitário').
           replace('Conceicao', 'Conceição').
           replace('Condominio', 'Condomínio').
           replace('Cordeiropolis', 'Cordeirópolis').
           replace(' Corrego ', ' Córrego ').
           replace('Corrego', 'Córrego').
           replace('Corumbatai', 'Corumbataí').
           replace('Chacaras ', 'Chácaras ').
           replace('Chacara ', 'Chácara ').
           replace('Cloracao ', 'Cloração ').
           replace('Estacao ', 'Estação ').
           replace('Estancia', 'Estância').
           replace('Ipeuna', 'Ipeúna').
           replace('Italia', 'Itália').
           replace('Iracemapolis', 'Iracemápolis').
           replace('Joao', 'João').
           replace('Jose ', 'José ').
           replace('Manutencão', 'Manutenção').
           replace('Manutençao', 'Manutenção').
           replace('Manutencao', 'Manutenção').
           replace('Municipio', 'Município').
           replace('Operario', 'Operário').
           replace('Operacao', 'Operação').
           replace('Operaçao', 'Operação').
           replace('Operacão', 'Operação').
           replace('Paraisolandia', 'Paraisolândia').           
           replace(' Poco ', ' Poço ').
           replace('Santa Fe', 'Santa Fé').
           replace(' Sao ', ' São ').
           replace('Sao ', 'São ').
           replace('Subterraneo', 'Subterrâneo').
           replace('Superintendencia', 'Superintendência').
           replace('Ribeirao', 'Ribeirão').
           
           # Final
           replace(' / ', '/'))

## Lê Tabelas

Devido ao tamanho das tabelas, testei diversas coisas para ler os arquiovs através de comandos. A única maneira que consegui ler todas as tabelas foi utilizando o *chunksize* para ler, onde é definido um número **_x_** de linhas, e *mode='a'* para escrever os resultados apensando-os a uma tabela já existente, de modo que cada **_x_** número de linhas são processados e escritos, liberando memória.

Uso um computador Intel Core i7, com 16 Gb de memória RAM e, dessa forma, consegui ler os arquivos imensos. Creio que com essa forma de leitura e escrita das tabelas, será possível reproduzir o código em qualquer configuração de computador.

Alguns dos materiais que li a respeito podem ser vistos aqui:
- [*Why and How to Use Pandas with Large Data*](https://towardsdatascience.com/why-and-how-to-use-pandas-with-large-data-9594dda2ea4c), do *site* [Towards Data Science](https://towardsdatascience.com/).
- [Prevent pandas from rewriting formatted header to csv for every chunk](https://stackoverflow.com/questions/49156504/prevent-pandas-from-rewriting-formatted-header-to-csv-for-every-chunk), do *site* StackOverFlow.

In [9]:
def read_sisaguatables(path, prefix, sep, output):
    # Tempo
    print('Início em :', datetime.datetime.now().strftime('%H:%M:%S'))
    
    # Deleta o arquivo antigo
    try:
        os.remove(output)
    except:
        pass
    
    # Seleciona quais arquivos serão utilizados
    dfs = findfiles_ByExtensionPrefix(path, '.csv', prefix)
    
    # Loop por todas as tabelas
    for df in dfs:
        # Define a codificação
        file = os.path.join(path, df)
        encoding = predict_encoding(file)
        
        df_chunked = pd.read_csv(os.path.join(path, df),
                                 delimiter=sep,
                                 encoding=encoding,
                                 low_memory=False,
                                 chunksize=100000)
        
        # Lê o arquivo
        for chunk in df_chunked:
            
            ## Renomeia Colunas
            chunk.columns = [x.title() for x in chunk.columns]
            chunk.rename(columns=lambda x: rename_columns(x), inplace=True)

            # Delete Colunas
            chunk.drop(['Região Geográfica', 'Município', 'Regional de Saúde', 'Outras Colunas'], axis=1, inplace=True, errors='ignore')
                        
            # Operações nas Colunas
            chunk = chunk.apply(lambda x: x.str.strip() if x.dtype == 'object' else x)
            
            # Filtrar por Estado
            chunk = chunk[chunk['UF'] == 'SP']
            chunk.drop(['UF'], axis=1, inplace=True, errors='ignore')
            
            # TESTE DE 15.04.2020
            #chunk = ajudst_fields(chunk)
            
            # Escreve Tabela
            chunk.to_csv(output,
                         encoding='UTF-8-SIG',
                         index=False,
                         header=True,
                         sep=';',
                         decimal=',',
                         mode='a')
        
        # Mensagem
        print('-'*70)
        print(">>> Lido arquivo '{}' codificado em '{}'.".format(df, encoding))
    
    # Tempo
    print('Fim em :', datetime.datetime.now().strftime('%H:%M:%S'))
    return print('Lido, filtrado, corrigido.')

## Ajusta os _dTypes_

Outra função relevante, que ainda precisa de aperfeiçoamentos, é a que define os tipos de cada coluna (número, texto, data, hora etc), ou também chamados de *dtypes*.

A idéia foi definir o tipo de cada uma das colunas que existem nos 11 temas disponíveis no [Portal de Dados Abertos](http://www.dados.gov.br/dataset?tags=SISAGUA) e aplicar um conjunto de funções que alteram, renomeiam, preenchem os campos nulos, ajustam os números etc.

Colunas de data não foi possível fazer isso pois as formas de representação de datas são diferentes para cada tabela (por exemplo, ha tabela que a coluna *Data de Registro* é expressa em *dd/mm/aaaa*, enquanto em outra coluna é expressa em *yyyy/mm/dd hh:mm:ss*), inviabilizando a correção disso em uma função única.

Tal fato fez com que correções que se aplicassem somente a um tema, fossem feitas posterirmente, fora de uma função padrão, respeitando sua especificidade.

In [10]:
def ajudst_fields(df):
    # Time
    print('Início em :', datetime.datetime.now().strftime('%H:%M:%S'))
    
    # Tipos das Colunas
    col_types = {'Ano'                                                      : 'integer',
                 'Ano de Referência'                                        : 'integer',
                 'Anotação de Responsabilidade Técnica'                     : 'object',
                 'CEP'                                                      : 'object',
                 'Caixa dÁgua'                                              : 'object',
                 'Campo'                                                    : 'object',
                 'Canalização'                                              : 'object',
                 'Captação Subterrânea'                                     : 'boolean',
                 'Captação Superficial'                                     : 'boolean',
                 'Captação de Água de Chuva'                                : 'boolean',
                 'Carro Pipa'                                               : 'object',
                 'Categoria do Manancial Superficial'                       : 'category',
                 'Categoria do Ponto de Captação Subterrânea'               : 'category',
                 'Categoria Área'                                           : 'category',
                 'Chafariz'                                                 : 'object',
                 'Cisterna'                                                 : 'object',
                 'CNPJ da Instituição'                                      : 'integer',
                 'CNPJ do Escritório'                                       : 'integer',
                 'CNPJ do Escritório Regional/Local'                        : 'integer',
                 'Código IBGE'                                              : 'integer',
                 'Código da Forma de Abastecimento'                         : 'object',
                 'DDD'                                                      : 'integer',
                 'Data da Análise'                                          : 'date',
                 'Data da Coleta'                                           : 'date',
                 'Data de Preenchimento'                                    : 'date',
                 'Data de Preenchimento do Relatório Semestral'             : 'date',
                 'Data de Registro'                                         : 'date',
                 'Data do Laudo'                                            : 'date',
                 'Data do Preenchimento'                                    : 'date',
                 'Descrição do Local'                                       : 'object',
                 'Desinfecção'                                              : 'boolean',
                 'Desinfecção com Cloramina'                                : 'boolean',
                 'Desinfecção com Cloro Gás ou Hipoclorito'                 : 'boolean',
                 'Desinfecção com Dióxido Cloro'                            : 'boolean',
                 'Desinfecção com Ozônio'                                   : 'boolean',
                 'Desinfecção com UV'                                       : 'boolean',
                 'Email'                                                    : 'object',
                 'Endereço'                                                 : 'object',
                 'Etapa Decantação'                                         : 'boolean',
                 'Etapa Desinfecção'                                        : 'boolean',
                 'Etapa Floculação'                                         : 'boolean',
                 'Etapa Flotação'                                           : 'boolean',
                 'Etapa Fluoretação'                                        : 'boolean',
                 'Etapa Mistura Rápida/Coagulação'                          : 'boolean',
                 'Etapa Pré-Oxidação'                                       : 'boolean',
                 'Falta de Água'                                            : 'integer',
                 'Filtração'                                                : 'boolean',
                 'Fonte'                                                    : 'object',
                 'Formação Profissional do Responsável Técnico'             : 'object',
                 'Grupo de Parâmetros'                                      : 'category',
                 'Intermitência'                                            : 'integer',
                 'LD'                                                       : 'object',
                 'LQ'                                                       : 'object',
                 'Latitude'                                                 : 'float',
                 'Local'                                                    : 'object',
                 'Local de Coleta'                                          : 'object',
                 'Longitude'                                                : 'float',
                 'Motivo da Coleta'                                         : 'object',
                 'Município'                                                : 'object',
                 'Mês'                                                      : 'object',
                 'Mês de Referência'                                        : 'object',
                 'Nome da ETA/UTA'                                          : 'object',
                 'Nome da Forma de Abastecimento'                           : 'object',
                 'Nome da Instituição'                                      : 'object',
                 'Nome do Escritório Regional/Local'                        : 'object',
                 'Nome do Local'                                            : 'object',
                 'Nome do Manancial Superficial'                            : 'object',
                 'Nome do Ponto de Captação Subterrânea'                    : 'object',
                 'Número'                                                   : 'object',
                 'Número da Amostra'                                        : 'object',
                 'Número de Economias Residenciais (De Uso Ocasional)'      : 'float',
                 'Número de Economias Residenciais (Domicílios Permanentes)': 'float',
                 'Número de Filtros'                                        : 'integer',
                 'Número do Conselho de Classe do Responsável Técnico'      : 'object',
                 'Outorga'                                                  : 'boolean',
                 'Outra Etapa de Tratamento'                                : 'object',
                 'Outro Agente Desinfetante'                                : 'object',
                 'Outro Tipo de Suprimento'                                 : 'object',
                 'Parâmetro'                                                : 'object',
                 'Ponto de Captação'                                        : 'object',
                 'Ponto de Coleta'                                          : 'category',
                 'Ponto de Monitoramento'                                   : 'category',
                 'Pop Recebe Água de SAA'                                   : 'object',
                 'Pop Recebe Água de SAA/SAC'                               : 'object',
                 'Procedência da Coleta'                                    : 'category',
                 'Providência'                                              : 'object',
                 'Providência Controle'                                     : 'object',
                 'Rad Cloro Residual Combinado'                             : 'boolean',
                 'Rad Cloro Residual Livre'                                 : 'boolean',
                 'Rad Dióxido de Cloro'                                     : 'boolean',
                 'Razão Habitantes/Domicílio'                               : 'float',
                 'Reclamações Cor'                                          : 'integer',
                 'Reclamações Gosto Odor'                                   : 'integer',
                 'Regional de Saúde'                                        : 'object',
                 'Região Geográfica'                                        : 'object',
                 'Reparos na Rede'                                          : 'integer',
                 'Responsável Técnico'                                      : 'object',
                 'Resultado'                                                : 'object',
                 'Sem Reservação'                                           : 'object',
                 'Semestre de Referência'                                   : 'integer',
                 'Sigla da Instituição'                                     : 'object',
                 'Telefone'                                                 : 'integer',
                 'Tempo Médio Diário de Funcionamento'                      : 'object',
                 'Tipo da Forma de Abastecimento'                           : 'category',
                 'Tipo da Instituição'                                      : 'category',
                 'Tipo de Captação'                                         : 'category',
                 'Tipo de Filtração'                                        : 'category',
                 'Tipo do Local'                                            : 'category',
                 'Tipo do Local de Coleta'                                  : 'category',
                 'UF'                                                       : 'object',
                 'Unidade'                                                  : 'category',
                 'Valor'                                                    : 'float',
                 'Vazão'                                                    : 'float',
                 'Vazão de Água Tratada'                                    : 'float',
                 'Zona'                                                     : 'category',
                 'Área'                                                     : 'object'
                }
    
    # Tipos de dtypes
    dtypes = {value for key, value in filter(lambda x: x[1], col_types.items())}
    dtypes = sorted(list(set(dtypes)))
    print('-'*70 + '\n' + '> Tipos Possívels de dTypes:')
    print(dtypes)
    
    for i in dtypes:
        if i == 'category':
            fields = {key for key, value in filter(lambda x: x[1] in ['category'], col_types.items())}
            fields = sorted(list(set(fields)))
            fields = df.columns.intersection(fields)
            print('-'*70 + '\n> ' + i + '\n')
            print(fields)
            df[fields] = df[fields].astype(str).apply(lambda x: x.str.strip().fillna('-'))
            df[fields] = df[fields].astype(str).apply(lambda x: x.str.title())
            df[fields] = df[fields].astype(str).apply(lambda x: rename_fields(x))
            df[fields] = df[fields].astype(str).apply(lambda x: x.astype('category'))
          
        elif i == 'integer':            
            fields = {key for key, value in filter(lambda x: x[1] in ['integer'], col_types.items())}
            fields = sorted(list(set(fields)))
            fields = df.columns.intersection(fields)
            print('-'*70 + '\n> ' + i + '\n')
            print(fields)
            df[fields] = df[fields].apply(lambda x: x.fillna(0))
            df[fields] = df[fields].apply(lambda x: x.replace(',', '.', regex=True))
            df[fields] = df[fields].apply(lambda x: x.astype(float))
            df[fields] = df[fields].apply(lambda x: x.astype('int64'))
        
        elif i == 'float':
            fields = {key for key, value in filter(lambda x: x[1] in ['float'], col_types.items())}
            fields = sorted(list(set(fields)))
            fields = df.columns.intersection(fields)
            print('-'*70 + '\n> ' + i + '\n')
            print(fields)
            df[fields] = df[fields].apply(lambda x: x.fillna(0))
            df[fields] = df[fields].apply(lambda x: x.replace(',', '.', regex=True))
            df[fields] = df[fields].apply(lambda x: x.astype(np.float64))
            
        elif i == 'object':
            fields = {key for key, value in filter(lambda x: x[1] in ['object'], col_types.items())}
            fields = sorted(list(set(fields)))
            fields = df.columns.intersection(fields)
            print('-'*70 + '\n> ' + i + '\n')
            print(fields)
            df[fields] = df[fields].astype(str).apply(lambda x: x.str.strip().fillna(''))
            df[fields] = df[fields].astype(str).apply(lambda x: x.str.title())
            df[fields] = df[fields].astype(str).apply(lambda x: x.astype(object))
            
        elif i == 'boolean':
            fields = {key for key, value in filter(lambda x: x[1] in ['boolean'], col_types.items())}
            fields = sorted(list(set(fields)))
            fields = df.columns.intersection(fields)
            print('-'*70 + '\n> ' + i + '\n')
            print(fields)
             
        elif i == 'date':
            fields = {key for key, value in filter(lambda x: x[1] in ['date'], col_types.items())}
            fields = sorted(list(set(fields)))
            fields = df.columns.intersection(fields)
            print('-'*70 + '\n> ' + i + '\n')
            print(fields)
            
        elif i == 'hour':
            fields = {key for key, value in filter(lambda x: x[1] in ['hour'], col_types.items())}
            fields = sorted(list(set(fields)))
            fields = df.columns.intersection(fields)
            print('-'*70 + '\n> ' + i + '\n')
            print(fields)
        
        else:
            pass
    
    # Print
    print('-'*70)
    
    # Aplica em todas as colunas, mas pula as que armazenam números
    df = df.applymap(lambda x: rename_fields(x) if isinstance(x, str) else x)
    
    # Siglas em Maíuscula
    upper = ['UF', 'Sigla da Instituição', 'Tipo da Forma de Abastecimento']
    for i in upper:
        try:
            df[i] = df[i].apply(lambda x: x.upper())
            print('Maiuscúla: ' + i)
        except:
            print('Minúscula: ' + i + ' (Não tinha o campo)')
    
    # Textos em Minúscula
    lower = ['Email']
    for i in lower:
        try:
            df[i] = df[i].apply(lambda x: x.lower())
            print('Minúscula: ' + i)
        except:
            print('Minúscula: ' + i + ' (Não tinha o campo)')
    
    # dTypes: Tabela
    print('-'*70 + '\n' + '> dTypes:')
    print(df.dtypes)
    print('Fim em :', datetime.datetime.now().strftime('%H:%M:%S'))

    return df

# Dados Brutos

Os 11 temas disponíveis no [Portal de Dados Abertos](http://www.dados.gov.br/dataset?tags=SISAGUA) do Governo Federal são listados a seguir, sendo apresentado seu resumo básico, links de acesso aos dados brutos, bem como os *scripts* que foram aplicados para originar análises posteriores.

## Tabela 1: Controle Amostras
Dados do monitoramento mensal da qualidade da água para consumo humano realizado pelo prestador de serviço de abastecimento de água por forma de abastecimento, conforme preconizado na norma de potabilidade do Ministério da Saúde.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-controle-mensal-quantitativos-de-analises

In [11]:
path = os.path.join('data', 'Dados Originais')
input_prefix = 'sisagua_anual_'
output_prefix = 'tab_Controle_AmostrasBásicos_2014-2020'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Controle_AmostrasBásicos_2014-2020.csv'

In [12]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 23:02:05
----------------------------------------------------------------------
>>> Lido arquivo 'sisagua_anual_2015.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo 'sisagua_anual_2016.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo 'sisagua_anual_2017.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo 'sisagua_anual_2018.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo 'sisagua_anual_2019.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo 'sisagua_anual_2020.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo 'sisagua_anual_2014.csv' codificado em 'ISO-8

In [13]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%Y/%m/%d %H:%M:%S.%f', errors='coerce').dt.date
    chunk['Data de Preenchimento'] = pd.to_datetime(chunk['Data de Preenchimento'], format='%Y/%m/%d %H:%M:%S.%f', errors='coerce').dt.date    
    
    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 23:40:05
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 23:43:42
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 23:47:12
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 23:50:47
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 23:54:23
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 23:57:54
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:01:32
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:05:09
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:08:44
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:12:16
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:15:52
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:19:29
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:23:05
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:26:44
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:30:22
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:33:52
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:37:30
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:41:08
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:44:45
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 00:48:22
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Instituição                    int64
Nome do Escritório Regional/Local     object
CNPJ do Escritório                     int64
Tipo da Forma de Abastecimento        object
Código da

Início em : 00:51:55
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Instituição                    int64
Nome do Escritório Regional/Local     object
CNPJ do Escritório                     int64
Tipo da Forma de Abastecimento        object
Código da

Início em : 00:55:23
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Instituição                    int64
Nome do Escritório Regional/Local     object
CNPJ do Escritório                     int64
Tipo da Forma de Abastecimento        object
Código da

Início em : 00:58:51
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Instituição                    int64
Nome do Escritório Regional/Local     object
CNPJ do Escritório                     int64
Tipo da Forma de Abastecimento        object
Código da

Início em : 01:02:19
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Instituição                    int64
Nome do Escritório Regional/Local     object
CNPJ do Escritório                     int64
Tipo da Forma de Abastecimento        object
Código da

Início em : 01:05:47
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Instituição                    int64
Nome do Escritório Regional/Local     object
CNPJ do Escritório                     int64
Tipo da Forma de Abastecimento        object
Código da

Início em : 01:09:14
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Instituição                    int64
Nome do Escritório Regional/Local     object
CNPJ do Escritório                     int64
Tipo da Forma de Abastecimento        object
Código da

Início em : 01:12:42
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 01:16:21
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 01:20:00
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
> object

Index(['Sigla da Instituição', 'Nome da Instituição',
       'Nome do Escritório Regional/Local', 'Código da Forma de Abastecimento',
       'Nome da Forma de Abastecimento', 'Nome da ETA/UTA', 'Mês', 'Parâmetro',
       'Campo'],
      dtype='object')
----------------------------------------------------------------------
Minúscula: UF (Não tinha o campo)
Maiuscúla: Sigla da Instituição
Maiuscúla: Tipo da Forma de Abastecimento
Minúscula: Email (Não tinha o campo)
----------------------------------------------------------------------
> dTypes:
Código IBGE                            int64
Tipo da Instituição                   object
Sigla da Instituição                  object
Nome da Instituição                   object
CNPJ da Institui

Início em : 01:23:33
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Valor'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='object')
----------------------------------------------------------------------
>

In [14]:
%%time

# Time
print('Início em :', datetime.datetime.now().strftime('%H:%M:%S'))

# Set Parameter
parameters = ['Cloro Residual Livre (Mg/L)',
              'Coliformes Totais',
              'Cor (Uh)',
              'Escherichia Coli',
              'Fluoreto (Mg/L)',
              'Ph',
              'Turbidez (Ut)']

# Loop Parameter
for par in parameters:
    # Lê tabela
    df_chunk = pd.read_csv(output,
                     encoding=predict_encoding(output),
                     sep=';',
                     decimal=',',
                     low_memory=False,
                     chunksize=100000)
    
    # dd
    print('Leu tabela bruta para extrair '+par)
    
    # Parâmetro
    par_abrev = par.split(' ')[0]
    out_file = os.path.join('data', output_prefix + '_' + par_abrev + '.csv')
    
    # Deleta o arquivo antigo
    try:
        os.remove(out_file)
    except:
        pass    

    for df in df_chunk:
        # Excluí linhas problemáticas do chunk anterior
        df = df[df['Código IBGE'] != 'Código IBGE']
        df = df[df['Parâmetro'] == par]

        # Escreve Tabela
        df.to_csv(out_file,
                  encoding='UTF-8-SIG',
                  index=False,
                  header=True,
                  sep=';',
                  decimal=',',
                  mode='a')
        
    # Lê tabela
    df = pd.read_csv(out_file,
                     encoding=predict_encoding(output),
                     sep=';',
                     decimal=',',
                     low_memory=False)
    
    # Excluí linhas problemáticas do chunk anterior
    df = df[df['Código IBGE'] != 'Código IBGE']
    
    # Escreve Tabela
    df.to_csv(out_file,
              encoding='UTF-8-SIG',
              index=False,
              header=True,
              sep=';',
              decimal=',')

# Time
print('Fim em :', datetime.datetime.now().strftime('%H:%M:%S'))

Início em : 01:24:38
Leu tabela bruta para extrair Cloro Residual Livre (Mg/L)


  res_values = method(rvalues)


Leu tabela bruta para extrair Coliformes Totais
Leu tabela bruta para extrair Cor (Uh)
Leu tabela bruta para extrair Escherichia Coli
Leu tabela bruta para extrair Fluoreto (Mg/L)
Leu tabela bruta para extrair Ph
Leu tabela bruta para extrair Turbidez (Ut)
Fim em : 01:47:30
CPU times: user 17min 31s, sys: 1min 18s, total: 18min 50s
Wall time: 22min 51s


In [15]:
# Deleta arquivo antigo, renomeia o novo
    try:
        #os.remove(output)
        #os.rename(out_file, output)
        print(par)
    except:
        pass

Turbidez (Ut)


## Tabela 2: Vigilância Amostras (Parâmetros Básicos)

Dados do monitoramento da qualidade da água para consumo humano realizado rotineiramente pelo setor saúde, contemplando os resultados das análises de qualidade da água de baixa complexidade (Parâmetros: Bactérias Heterotróficas, Cloro Residual Combinado, Cloro Residual Livre, Coliformes Totais, Cor, Dióxido de Cloro, Escherichia Coli, Fluoreto, pH e Turbidez).

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-amostras-de-vigilancia-parametros-basicos

In [16]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '2amostras_de_vigilancia_parametros_basicos_anual_'
output_prefix = 'tab_Vigilância_AmostrasBásicos_2014-2019'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Vigilância_AmostrasBásicos_2014-2019.csv'

In [17]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 01:47:30
----------------------------------------------------------------------
>>> Lido arquivo '2amostras_de_vigilancia_parametros_basicos_anual_2014.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '2amostras_de_vigilancia_parametros_basicos_anual_2015.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '2amostras_de_vigilancia_parametros_basicos_anual_2016.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '2amostras_de_vigilancia_parametros_basicos_anual_2017.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '2amostras_de_vigilancia_parametros_basicos_anual_2018.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '2amostras_

In [18]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data da Coleta'] = pd.to_datetime(chunk['Data da Coleta'], format='%d/%m/%Y', errors='coerce')
    chunk['Data do Laudo'] = pd.to_datetime(chunk['Data do Laudo'], format='%d/%m/%Y', errors='coerce')
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%d/%m/%Y', errors='coerce')
    
    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 02:06:33
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

Início em : 02:09:00
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

Início em : 02:11:30
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

Início em : 02:14:00
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

Início em : 02:16:30
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

Início em : 02:18:59
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

Início em : 02:21:27
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

Início em : 02:23:57
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

In [19]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 50.6 s, sys: 5.06 s, total: 55.7 s
Wall time: 1min 12s


## Tabela 3: Controle Semestral (Alta Complexidade)

Dados do monitoramento da qualidade da água realizado pelo prestador de serviço em frequência superior à mensal, contemplando os resultados das análises de qualidade da água de alta complexidade.

Dados Abertos: http://www.dados.gov.br/dataset/controle-semestral

In [20]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '3analise_alta_complex_anual_'
output_prefix = 'tab_Controle_AmostrasAltaComplexidade_2014-2019'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Controle_AmostrasAltaComplexidade_2014-2019.csv'

In [21]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 02:26:00
----------------------------------------------------------------------
>>> Lido arquivo '3analise_alta_complex_anual_2015.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '3analise_alta_complex_anual_2016.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '3analise_alta_complex_anual_2017.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '3analise_alta_complex_anual_2018.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '3analise_alta_complex_anual_2019.csv' codificado em 'ISO-8859-1'.
----------------------------------------------------------------------
>>> Lido arquivo '3analise_alta_complex_anual_2014.csv' codificado em 'ISO-8859-1'.
Fim em : 02:33:30
Lido, filtrado, corrigido.
CPU 

In [22]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%Y/%m/%d %H:%M:%S.%f', errors='coerce').dt.date
    chunk['Data de Preenchimento do Relatório Semestral'] = pd.to_datetime(chunk['Data de Preenchimento do Relatório Semestral'], format='%d/%m/%Y', errors='coerce')
    chunk['Data da Coleta'] = pd.to_datetime(chunk['Data da Coleta'], format='%d/%m/%Y', errors='coerce')
    chunk['Data da Análise'] = pd.to_datetime(chunk['Data da Análise'], format='%d/%m/%Y', errors='coerce')
    
    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 02:33:31
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:35:32
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:37:35
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:39:35
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:41:37
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:43:36
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:45:39
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:47:39
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:49:39
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:51:41
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:53:42
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:55:42
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

Início em : 02:57:43
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Grupo de Parâmetros'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento do Relatório Semestral',
       'Data da Coleta', 'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Re

In [23]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 1min 10s, sys: 7.14 s, total: 1min 17s
Wall time: 1min 41s


## Tabela 4: Vigilância (Semestral?) de Alta Complexidade
Dados do monitoramento da qualidade da água realizado pelo setor saúde conforme planos de monitoramento específicos, contemplando os resultados de análises de qualidade da água de alta complexidade.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-amostras-de-vigilancia-demais-parametros

In [24]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '4amostras_de_vigilancia_demais_parametros_anual_2014_a_2020'
output_prefix = 'tab_Vigilância_AmostrasAltaComplexidade_2014-2020'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Vigilância_AmostrasAltaComplexidade_2014-2020.csv'

In [25]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 02:59:26
----------------------------------------------------------------------
>>> Lido arquivo '4amostras_de_vigilancia_demais_parametros_anual_2014_a_2020.csv' codificado em 'ISO-8859-1'.
Fim em : 02:59:57
Lido, filtrado, corrigido.
CPU times: user 19.4 s, sys: 1.23 s, total: 20.7 s
Wall time: 31.9 s


In [26]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data da Coleta'] = pd.to_datetime(chunk['Data da Coleta'], format='%d/%m/%Y', errors='coerce')
    chunk['Data do Laudo'] = pd.to_datetime(chunk['Data do Laudo'], format='%d/%m/%Y', errors='coerce')
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%d/%m/%Y', errors='coerce')
    chunk['Data da Análise'] = pd.to_datetime(chunk['Data da Análise'], format='%d/%m/%Y', errors='coerce')
    
    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 02:59:58
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro',
       'Data da Análise'],
      dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instit

In [27]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 1.16 s, sys: 41.7 ms, total: 1.2 s
Wall time: 1.48 s


## Tabela 5: Controle Mensal - Resultado das Análises dos ...

Dados do monitoramento da qualidade da água realizado pelo prestador de serviço em frequência inferior a mensal, contemplando os resultados das análises de qualidade da água de alta complexidade.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-controle-mensal-resultado-de-analises

In [28]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '5controle_mensal_resultado_analises_total'
output_prefix = 'tab_Controle_AmostrasTotais'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Controle_AmostrasTotais.csv'

In [29]:
%%time

df = read_sisaguatables(path, input_prefix, ',', output)

Início em : 03:00:19
----------------------------------------------------------------------
>>> Lido arquivo '5controle_mensal_resultado_analises_total.csv' codificado em 'utf-8'.
Fim em : 03:00:43
Lido, filtrado, corrigido.
CPU times: user 19.6 s, sys: 751 ms, total: 20.4 s
Wall time: 24.6 s


In [30]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%d/%m/%Y %H:%M:%S', errors='coerce')
    chunk['Data de Preenchimento'] = pd.to_datetime(chunk['Data de Preenchimento'], format='%d/%m/%Y %H:%M:%S', errors='coerce')
    chunk['Data da Coleta'] = pd.to_datetime(chunk['Data da Coleta'], format='%d/%m/%Y %H:%M:%S', errors='coerce')

    # Tira o campo de Hora
    chunk['Data de Registro'] = chunk['Data de Registro'].dt.date
    chunk['Data de Preenchimento'] = chunk['Data de Preenchimento'].dt.date
    chunk['Data da Coleta'] = chunk['Data da Coleta'].dt.date

    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 03:00:44
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Tipo de Captação', 'Categoria do Manancial Superficial',
       'Categoria do Ponto de Captação Subterrânea', 'Unidade'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento', 'Data da Coleta'], dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Es

CPU times: user 1min 46s, sys: 666 ms, total: 1min 47s
Wall time: 1min 48s


In [31]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 4.82 s, sys: 423 ms, total: 5.24 s
Wall time: 6.86 s


## Tabela 6: Controle Mensal (Amostras Fora do Padrão)

Dados do monitoramento da qualidade da água realizado pelo prestador de serviço em frequência inferior à mensal, contemplando o detalhamento dos resultados das análises de qualidade da água que não atenderam ao padrão de potabilidade.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-controle-mensal-amostras-fora-do-padrao

In [32]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '6controle_mensal_amostras_fora_padrao'
output_prefix = 'tab_Controle_AmostrasForaPadrão'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Controle_AmostrasForaPadrão.csv'

In [33]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 03:02:39
----------------------------------------------------------------------
>>> Lido arquivo '6controle_mensal_amostras_fora_padrao.csv' codificado em 'ISO-8859-1'.
Fim em : 03:02:59
Lido, filtrado, corrigido.
CPU times: user 14.6 s, sys: 930 ms, total: 15.5 s
Wall time: 20.4 s


In [34]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%d/%m/%Y', errors='coerce')
    chunk['Data de Preenchimento'] = pd.to_datetime(chunk['Data de Preenchimento'], format='%d/%m/%Y', errors='coerce')
    chunk['Data da Coleta'] = pd.to_datetime(chunk['Data da Coleta'], format='%d/%m/%Y', errors='coerce')

    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 03:03:00
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Ponto de Monitoramento', 'Zona', 'Categoria Área', 'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento', 'Data da Coleta'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano'], dtype='obje

In [35]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 4.1 s, sys: 288 ms, total: 4.39 s
Wall time: 5.8 s


## Tabela 7: Controle Mensal (Infraestrutura e Operacionais)

Dados sobre as condições operacionais e de infraestrutura dos sistemas e soluções de abastecimento de água para consumo humano, informados pelo prestador de serviço em freqüência inferior à mensal.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-controle-mensal-infraestrutura-e-operacionais

In [36]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '7controle_mensal_infra_e_operacionais'
output_prefix = 'tab_Controle_Infra'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Controle_Infra.csv'

In [37]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 03:04:27
----------------------------------------------------------------------
>>> Lido arquivo '7controle_mensal_infra_e_operacionais.csv' codificado em 'ISO-8859-1'.
Fim em : 03:04:40
Lido, filtrado, corrigido.
CPU times: user 9.78 s, sys: 518 ms, total: 10.3 s
Wall time: 13.7 s


In [38]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%d/%m/%Y', errors='coerce')
    chunk['Data de Preenchimento'] = pd.to_datetime(chunk['Data de Preenchimento'], format='%d/%m/%Y', errors='coerce')

    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 03:04:41
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento', 'Zona',
       'Categoria Área', 'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index([], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'Ano',
       'Reparos na Rede', 'Intermitência', 'Falta de Água', 'Reclamações Cor',


In [39]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 1.24 s, sys: 72.7 ms, total: 1.32 s
Wall time: 1.66 s


## Tabela 8: Infraestrutura - Cobertura de Abastecimento

Cadastro das formas de abastecimento – domicílios abastecidos.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-cobertura-de-abastecimento2

In [40]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '8CoberturaAbastecimento'
output_prefix = 'tab_Infra_Cobertura'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Infra_Cobertura.csv'

In [41]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 03:05:08
----------------------------------------------------------------------
>>> Lido arquivo '8CoberturaAbastecimento.csv' codificado em 'ISO-8859-1'.
Fim em : 03:05:38
Lido, filtrado, corrigido.
CPU times: user 22.9 s, sys: 752 ms, total: 23.7 s
Wall time: 29.8 s


In [42]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%d/%m/%Y', errors='coerce')
    chunk['Data de Preenchimento'] = pd.to_datetime(chunk['Data de Preenchimento'], format='%d/%m/%Y', errors='coerce')

    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 03:05:38
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index(['Captação Superficial', 'Captação Subterrânea',
       'Captação de Água de Chuva', 'Filtração', 'Desinfecção'],
      dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento'], dtype='object')
----------------------------------------------------------------------
> date

Index(['Data de Registro', 'Data de Preenchimento'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Número de Economias Residenciais (Domicílios Permanentes)',
       'Número de Economias Residenciais (De Uso Ocasional)',
       'Razão Habitantes/Domicílio'],
      dtype='object')
-----------

In [43]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 1.42 s, sys: 63.9 ms, total: 1.49 s
Wall time: 1.77 s


## Tabela 9: Infraestrutura - Tratamento de Água

Cadastro das formas de abastecimento – tratamento de água.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-tratamento-de-agua


In [44]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '9TratamentoAgua'
output_prefix = 'tab_Infra_Tratamento'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Infra_Tratamento.csv'

In [45]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 03:06:05
----------------------------------------------------------------------
>>> Lido arquivo '9TratamentoAgua.csv' codificado em 'ISO-8859-1'.
Fim em : 03:06:36
Lido, filtrado, corrigido.
CPU times: user 24.1 s, sys: 1.22 s, total: 25.4 s
Wall time: 31 s


In [46]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Ajusta a Data
    chunk['Data de Registro'] = pd.to_datetime(chunk['Data de Registro'], format='%d/%m/%Y', errors='coerce')
    chunk['Data de Preenchimento'] = pd.to_datetime(chunk['Data de Preenchimento'], format='%d/%m/%Y', errors='coerce')
    
    # Ajusta o Horário
    chunk['Tempo Médio Diário de Funcionamento'] = chunk['Tempo Médio Diário de Funcionamento'].str.replace('24:00', '0:00')
    chunk['Tempo Médio Diário de Funcionamento'] = pd.to_datetime(chunk['Tempo Médio Diário de Funcionamento'], format='%H:%M', errors='coerce').dt.time
    
    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 03:06:37
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index(['Captação Superficial', 'Captação Subterrânea',
       'Captação de Água de Chuva', 'Etapa Pré-Oxidação',
       'Etapa Mistura Rápida/Coagulação', 'Etapa Floculação',
       'Etapa Decantação', 'Etapa Flotação', 'Etapa Desinfecção',
       'Desinfecção com Cloro Gás ou Hipoclorito', 'Desinfecção com Cloramina',
       'Desinfecção com Dióxido Cloro', 'Desinfecção com Ozônio',
       'Desinfecção com UV', 'Rad Cloro Residual Livre',
       'Rad Cloro Residual Combinado', 'Rad Dióxido de Cloro',
       'Etapa Fluoretação'],
      dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Tipo de Filtração'],
 

In [47]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 1.9 s, sys: 174 ms, total: 2.07 s
Wall time: 2.53 s


## Tabela 10: Infraestrutura - Pontos de Captação

Cadastro das formas de abastecimento – pontos de captação de água.

Dados Abertos: http://www.dados.gov.br/dataset/sisagua-pontos-de-captacao-de-agua

In [48]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '10Ponto_Captacao'
output_prefix = 'tab_Infra_Captação'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Infra_Captação.csv'

In [49]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 03:07:24
----------------------------------------------------------------------
>>> Lido arquivo '10Ponto_Captacao.csv' codificado em 'ISO-8859-1'.
Fim em : 03:08:15
Lido, filtrado, corrigido.
CPU times: user 33.1 s, sys: 1.97 s, total: 35.1 s
Wall time: 50.8 s


In [50]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 03:08:16
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index(['Outorga'], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Instituição', 'Tipo da Forma de Abastecimento',
       'Tipo de Captação', 'Categoria do Manancial Superficial',
       'Categoria do Ponto de Captação Subterrânea'],
      dtype='object')
----------------------------------------------------------------------
> date

Index([], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude', 'Vazão'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição',
       'CNPJ do Escritório Regional/Local'

In [51]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 1.65 s, sys: 90.7 ms, total: 1.74 s
Wall time: 2.09 s


## Tabela 11: Vigilância Amostras Cianobactéria

Dados do monitoramento da qualidade da água para consumo humano realizado pelo setor saúde, contemplando os resultados das análises de cianobactérias e cianotoxinas.

Dados Abertos: http://www.dados.gov.br/dataset/vigilancia-resultados_das_analises_de_cianobacterias_e_cianotoxinas

In [52]:
path = os.path.join('data', 'Dados Originais')
input_prefix = '11vigilancia'
output_prefix = 'tab_Vigilância_Cianobactérias_2014-2020'
output = os.path.join('data', output_prefix + '.csv')
out_file = os.path.join('data', output_prefix + '_ajusted' + '.csv')
output

'data/tab_Vigilância_Cianobactérias_2014-2020.csv'

In [53]:
%%time

df = read_sisaguatables(path, input_prefix, ';', output)

Início em : 03:08:40
----------------------------------------------------------------------
>>> Lido arquivo '11vigilancia_ciano_2014_2020.csv' codificado em 'ISO-8859-1'.
Fim em : 03:08:41
Lido, filtrado, corrigido.
CPU times: user 779 ms, sys: 27.6 ms, total: 807 ms
Wall time: 1.03 s


In [54]:
%%time

# Deleta o arquivo antigo
try:
    os.remove(out_file)
except:
    pass

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 delimiter=';',
                 decimal=',',
                 low_memory=False,
                 chunksize=100000)

# Lê, processa, escreve
for chunk in df:
    # Excluí linhas problemáticas do chunk anterior
    chunk = chunk[chunk['Código IBGE'] != 'Código IBGE']
    
    # Ajusta os dTypes
    chunk = ajudst_fields(chunk)
    
    # Escreve Tabela
    chunk.to_csv(out_file,
                 encoding='UTF-8-SIG',
                 index=False,
                 header=True,
                 sep=';',
                 decimal=',',
                 mode='a')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

Início em : 03:08:41
----------------------------------------------------------------------
> Tipos Possívels de dTypes:
['boolean', 'category', 'date', 'float', 'integer', 'object']
----------------------------------------------------------------------
> boolean

Index([], dtype='object')
----------------------------------------------------------------------
> category

Index(['Tipo da Forma de Abastecimento', 'Tipo da Instituição',
       'Procedência da Coleta', 'Ponto de Coleta', 'Zona', 'Categoria Área',
       'Tipo do Local'],
      dtype='object')
----------------------------------------------------------------------
> date

Index(['Data da Coleta', 'Data do Laudo', 'Data de Registro'], dtype='object')
----------------------------------------------------------------------
> float

Index(['Latitude', 'Longitude'], dtype='object')
----------------------------------------------------------------------
> integer

Index(['Código IBGE', 'CNPJ da Instituição', 'CNPJ do Escritório', 'A

In [55]:
%%time

# Lê tabela
df = pd.read_csv(output,
                 encoding=predict_encoding(output),
                 sep=';',
                 decimal=',',
                 low_memory=False)

# Excluí linhas problemáticas do chunk anterior
df = df[df['Código IBGE'] != 'Código IBGE']

# Escreve Tabela
df.to_csv(out_file,
          encoding='UTF-8-SIG',
          index=False,
          header=True,
          sep=';',
          decimal=',')

# Deleta arquivo antigo, renomeia o novo
try:
    os.remove(output)
    os.rename(out_file, output)
except:
    pass

CPU times: user 23.3 ms, sys: 105 µs, total: 23.4 ms
Wall time: 24.9 ms


# Análise das Colunas

## Avalia Nome das Colunas

A função abaixo tem a finalidade de agregar os nomes das colunas das diferentes tabelas de todos os diferentes temas do SisÁgua em uma única lista.

In [56]:
# Definição da Pasta
path = os.path.join('data')

# Seleciona quais arquivos serão utilizados
dfs = findfiles_ByExtensionPrefix(path, '.csv', 'tab_')

# Zera o conjunto de tabelas
list_columns = []

# Loop por todas as tabelas
for df_name in dfs:
    # Define a codificação
    file = os.path.join(path, df_name)
    file_encoding = predict_encoding(file)  
    
    # Lê o arquivo
    df = pd.read_csv(os.path.join(path, df_name),
                      delimiter=';',
                      encoding=file_encoding)
        
    # Junta as listas
    list_columns.extend(df.columns)
    
    # Mensagem
    print("Lido arquivo '{}' codificado em '{}'.".format(df_name, file_encoding))
    
# Lista de todos os Cabeçalhos de todas as Tabelas
list_columns = list(set(list_columns))
list_columns = sorted(list_columns)
list_columns

  interactivity=interactivity, compiler=compiler, result=result)


Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasAltaComplexidade_2014-2019.csv' codificado em 'UTF-8-SIG'.


  interactivity=interactivity, compiler=compiler, result=result)


Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020_Cloro.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020_Coliformes.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020_Cor.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020_Escherichia.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020_Fluoreto.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020_Ph.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasBásicos_2014-2020_Turbidez.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasForaPadrão.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_AmostrasTotais.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Controle_Infra.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Infra_Captação.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Infra_Cobertura.csv' codificado em 'UTF-8-SIG'.


  interactivity=interactivity, compiler=compiler, result=result)


Lido arquivo 'tab_Infra_Tratamento.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Vigilância_AmostrasAltaComplexidade_2014-2020.csv' codificado em 'UTF-8-SIG'.


  interactivity=interactivity, compiler=compiler, result=result)


Lido arquivo 'tab_Vigilância_AmostrasBásicos_2014-2019.csv' codificado em 'UTF-8-SIG'.
Lido arquivo 'tab_Vigilância_Cianobactérias_2014-2020.csv' codificado em 'UTF-8-SIG'.


["'Análise Realizada'",
 "'Providência'",
 'Ano',
 'Anotação de Responsabilidade Técnica',
 'CEP',
 'CNPJ da Instituição',
 'CNPJ do Escritório',
 'CNPJ do Escritório Regional/Local',
 'Caixa dÁgua',
 'Campo',
 'Canalização',
 'Captação Subterrânea',
 'Captação Superficial',
 'Captação de Água de Chuva',
 'Carro Pipa',
 'Categoria do Manancial Superficial',
 'Categoria do Ponto de Captação Subterrânea',
 'Categoria Área',
 'Chafariz',
 'Cisterna',
 'Código IBGE',
 'Código da Forma de Abastecimento',
 'DDD',
 'Data da Análise',
 'Data da Coleta',
 'Data de Preenchimento',
 'Data de Preenchimento do Relatório Semestral',
 'Data de Registro',
 'Data do Laudo',
 'Descrição do Local',
 'Desinfecção',
 'Desinfecção com Cloramina',
 'Desinfecção com Cloro Gás ou Hipoclorito',
 'Desinfecção com Dióxido Cloro',
 'Desinfecção com Ozônio',
 'Desinfecção com UV',
 'Email',
 'Endereço',
 'Etapa Decantação',
 'Etapa Desinfecção',
 'Etapa Floculação',
 'Etapa Flotação',
 'Etapa Fluoretação',
 'Etapa 

## Colunas em Comum

A função abaixo tem a finalidade de avaliar se os nomes das colunas das diferentes tabelas estão seguindo o mesmo padrão, visando possibilitar extração de dados e identificação de campos que possibilitem filtrar todas as tabelas, ou seja, identificação dos campos que estejam presentes em todas as tabelas do conjunto do SisÁgua.

In [57]:
# Definição da Pasta
path = os.path.join('data')

# Seleciona quais arquivos serão utilizados
dfs = findfiles_ByExtensionPrefix(path, '.csv', 'tab_')

# Zera o conjunto de tabelas
list_columns = pd.Series(list_columns, index=list_columns)

# Loop por todas as tabelas
for df_name in dfs:
    # Define a codificação
    file = os.path.join(path, df_name)
    file_encoding = predict_encoding(file)  
    
    # Lê o arquivo
    df = pd.read_csv(os.path.join(path, df_name),
                      delimiter=';',
                      encoding=file_encoding)
        
    # Junta as listas
    df_columns = pd.Series(df.columns, index=df.columns)
    list_columns = pd.concat([list_columns, df_columns], axis=1, join='inner')

# Lista apenas dos Cabeçalhos que existem de todas as Tabelas (Colunas em Comum)
list_columns.index.tolist()

['Ano',
 'CNPJ da Instituição',
 'Código IBGE',
 'Código da Forma de Abastecimento',
 'Nome da Forma de Abastecimento',
 'Nome da Instituição',
 'Nome do Escritório Regional/Local',
 'Sigla da Instituição',
 'Tipo da Forma de Abastecimento',
 'Tipo da Instituição']