In [None]:
# -*- coding: utf-8
# Reinaldo Chaves (@paidatocandeira)
# Acesso de bases Sisagua e cria colunas de trabalho
# Usando o Google Colab com Python
#

In [None]:
# Fontes dos dados - baixado em 2 de novembro de 2021
# SISAGUA - Controle Semestral 
# https://dados.gov.br/dataset/controle-semestral

In [1]:
# Após instalar é necessário reiniciar o ambiente de execução e executar as linhas seguintes
!pip install quickda 

Collecting quickda
  Downloading quickda-0.2.2-py3-none-any.whl (9.7 kB)
Collecting ppscore
  Downloading ppscore-1.2.0.tar.gz (47 kB)
[K     |████████████████████████████████| 47 kB 1.4 MB/s 
Collecting scikit-learn<1.0.0,>=0.20.2
  Downloading scikit_learn-0.24.2-cp37-cp37m-manylinux2010_x86_64.whl (22.3 MB)
[K     |████████████████████████████████| 22.3 MB 2.3 MB/s 
Building wheels for collected packages: ppscore
  Building wheel for ppscore (setup.py) ... [?25l[?25hdone
  Created wheel for ppscore: filename=ppscore-1.2.0-py2.py3-none-any.whl size=13068 sha256=6405fb21361a43666cdf59b79cc508a06a7031a2a859c32696e303dd33fc1979
  Stored in directory: /root/.cache/pip/wheels/d2/3c/58/2ff786414b21713edc6f4fdb54fdee89ac37bca5edd1f60634
Successfully built ppscore
Installing collected packages: scikit-learn, ppscore, quickda
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.0.2
    Uninstalling scikit-learn-1.0.2:
      Successfully uninstalled scikit-l

In [1]:
import pandas as pd
from quickda.clean_data import *
import math

Output hidden; open in https://colab.research.google.com to view.

In [None]:
# Habilita drive onde estão os CSVs já baixados - pode ser o seu próprio, desde que você copie os CSVs do Ministério da Saúde

In [2]:
from google.colab import drive
drive.mount('/drive')

Mounted at /drive


In [None]:
# Baixar arquivo do ano de 2020 - pode repetir o mesmo percurso com os outros anos
# O projeto Mapa da Água usou 2018, 2019 e 2020

In [3]:
path = "/drive/My Drive/Data-driven/RB/dados_sisagua/controle_semestral_2020_02_nov_2021.csv"
ano_2020 = pd.read_csv(path, encoding ='latin_1', dtype = 'str', sep = ';')
ano_2020.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1831819 entries, 0 to 1831818
Data columns (total 27 columns):
 #   Column                                        Dtype 
---  ------                                        ----- 
 0   Região Geográfica                             object
 1   UF                                            object
 2   Regional de Saúde                             object
 3   Município                                     object
 4   Código IBGE                                   object
 5   Tipo da Instituição                           object
 6   Sigla da Instituição                          object
 7   Nome da Instituição                           object
 8   CNPJ da Instituição                           object
 9   Nome do escritório regional/local             object
 10  CNPJ do escritório regional/local             object
 11  Tipo da Forma de Abastecimento                object
 12  Código Forma de abastecimento                 object
 13  Nome da Form

In [4]:
# Padroniza nomes de colunas
ano_2020 = clean(ano_2020, method='standardize')

In [5]:
# Mostra nomes colunas
ano_2020.columns

Index(['região_geográfica', 'uf', 'regional_de_saúde', 'município',
       'código_ibge', 'tipo_da_instituição', 'sigla_da_instituição',
       'nome_da_instituição', 'cnpj_da_instituição',
       'nome_do_escritório_regional/local',
       'cnpj_do_escritório_regional/local', 'tipo_da_forma_de_abastecimento',
       'código_forma_de_abastecimento', 'nome_da_forma_de_abastecimento',
       'nome_da_eta_/_uta', 'ano_de_referência', 'semestre_de_referência',
       'data_de_registro', 'data_de_preenchimento_do_relatório_semestral',
       'data_da_coleta', 'data_da_análise', 'ponto_de_monitoramento',
       'grupo_de_parâmetros', 'parâmetro', 'ld', 'lq', 'resultado'],
      dtype='object')

In [6]:
ano_2020.head(1)

Unnamed: 0,região_geográfica,uf,regional_de_saúde,município,código_ibge,tipo_da_instituição,sigla_da_instituição,nome_da_instituição,cnpj_da_instituição,nome_do_escritório_regional/local,...,data_de_registro,data_de_preenchimento_do_relatório_semestral,data_da_coleta,data_da_análise,ponto_de_monitoramento,grupo_de_parâmetros,parâmetro,ld,lq,resultado
0,NORDESTE,CE,18 REGIONAL DE SAUDE IGUATU,PIQUET CARNEIRO,231090,Empresa Estadual,CAGECE,COMPANHIA DE AGUA E ESGOTO DO CEARA,7040108000157,UNIDADE DE NEGOCIO DA BACIA DE BANABUIU UNBBA,...,2020/01/28 00:00:00.000,2020/01/28 00:00:00.000,05/01/2020,06/01/2020,SISTEMA DE DISTRIBUIÇÃO,Parâmetros Organolépticos,"Sódio VMP - 200,0 mg/L",,,2700


In [7]:
ano_2020[['ano_de_referência','semestre_de_referência']].head()

Unnamed: 0,ano_de_referência,semestre_de_referência
0,2020,1
1,2020,1
2,2020,1
3,2020,1
4,2020,1


In [8]:
ano_2020[['ano_de_referência','semestre_de_referência']].tail()

Unnamed: 0,ano_de_referência,semestre_de_referência
1831814,2020,2
1831815,2020,1
1831816,2020,2
1831817,2020,1
1831818,2020,2


In [9]:
len(ano_2020["parâmetro"].unique())

85

In [10]:
ano_2020["grupo_de_parâmetros"].unique()

array(['Parâmetros Organolépticos', 'Substâncias Inorgânicas',
       'Produtos Secundários de Desinfecção - 1º Trimestre',
       'Substâncias Orgânicas', 'Produtos Secundários de Desinfecção',
       'Agrotóxicos',
       'Produtos Secundários de Desinfecção - 2º Trimestre',
       'Radioatividade'], dtype=object)

In [11]:
ano_2020["resultado"].unique()

array(['27,00', 'MENOR_LQ', '21,00', ..., '2,527', '42,02', '664,0'],
      dtype=object)

In [13]:
# Cria dicionário com tipos de Valor Máximo Permitido - este arquivo está no Github
path = "/drive/My Drive/Data-driven/RB/dados_sisagua/vmp.xlsx"
vmp = pd.read_excel(path, sheet_name = 'Planilha1', dtype = 'str')
vmp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Parâmetro     85 non-null     object
 1   VMP           85 non-null     object
 2   nome_sozinho  85 non-null     object
dtypes: object(3)
memory usage: 2.1+ KB


In [14]:
dict_vmp = vmp.set_index('Parâmetro')['VMP'].to_dict()

In [15]:
dict_vmp

{'1,1 Dicloroeteno - VMP:30,0 µg/L': '30',
 '1,2 Diclorobenzeno VMP - 0,01 mg/L': '0.01',
 '1,2 Dicloroetano - VMP:10,0 µg/L': '10',
 '1,2 Dicloroeteno (cis + trans) - VMP:50,0 µg/L': '50',
 '1,4 Diclorobenzeno VMP - 0,03 mg/L': '0.03',
 '2, 4, 6 Triclorofenol - VMP: 0,2 mg/L': '0.2',
 '2,4 D + 2,4,5 T - VMP: 30,0 µg/L': '30',
 'Acrilamida - VMP:0,5 µg/L': '0.5',
 'Alaclor - VMP: 20,0 µg/L': '20',
 'Aldicarbe + Aldicarbesulfona + Aldicarbesulfóxido': '10',
 'Aldrin + Dieldrin - VMP: 0,03 µg/L': '0.03',
 'Alumínio VMP - 0,2 mg/L': '0.2',
 'Amônia (como NH3) VMP - 1,5 mg/L': '1.5',
 'Antimônio - VMP:0,005 mg/L': '0.005',
 'Arsênio - VMP:0,01 mg/L': '0.01',
 'Atividade alfa total - VMP: 0,5 Bq/L': '0.5',
 'Atividade beta total - VMP: 1,0 Bq/L': '1',
 'Atrazina - VMP: 2,0 µg/L': '2',
 'Benzeno - VMP:5,0 µg/L': '5',
 'Benzo[a]pireno - VMP:0,7 µg/L': '0.7',
 'Bromato - VMP: 0,01 mg/L': '0.01',
 'Bário - VMP:0,7 mg/L': '0.7',
 'Carbendazim + benomil - VMP: 120,0 µg/L': '120',
 'Carbofurano - 

In [None]:
# Faz um teste com a string do VMP e retorna só o valor

In [16]:
procura = "Benzeno - VMP:5,0 µg/L"
if procura in dict_vmp:
    testa = dict_vmp[procura]
print(testa)

5


In [None]:
# Função para criar coluna "tipo_de_resultado"
# Devolve 'MENOR_LQ', 'QUANTIFICADO', 'MENOR_LD' ou 'TUDO_VAZIO'

In [None]:
def ftipo(linha):
  # Verifica coluna existente "resultado" - Resultado da análise de qualidade da água
  resultado = str(linha["resultado"])
  
  # Faz limpeza e prepara transformar em número se for 'QUANTIFICADO'
  resultado = resultado.strip()
  resultado = resultado.replace(",", ".")

  # Testa condições que estão vazias ou têm número
  if resultado != "MENOR_LQ" and resultado != "MENOR_LD":
    # Faz dois testes para verificar se é um valor vazio
    try:
      copia_resultado = float(resultado)
    except ValueError:
      copia_resultado = "vazio"
  
    if copia_resultado != "vazio":
      if math.isnan(copia_resultado) or copia_resultado == "":
        copia_resultado = "vazio"
      else:
        copia_resultado = resultado
  else:
    copia_resultado = resultado
  

  # Depois dos testes acima habilita o resultado final 
  if copia_resultado == "vazio":
    documento = "TUDO_VAZIO"
  elif resultado == "MENOR_LQ":
    documento = "MENOR_LQ"
  elif resultado == "MENOR_LD":
    documento = "MENOR_LD"
  else:
    documento = "QUANTIFICADO"
  

  #print("Documento: ", documento)
  #print("------------------------")

  return str(documento)

In [None]:
# Função para criar coluna "vmp"
# Devolve o valor encontrado em parametro - Valor Máximo Permitido (VMP), para os parâmetros físicos e químicos

In [None]:
def fvmp(linha):
  parametro = str(linha["parâmetro"])
  parametro = parametro.strip()

  if parametro in dict_vmp:
    encontra = dict_vmp[parametro].strip()
    return encontra            

In [None]:
# Função para criar nova coluna "consistencia"
# Com valores 'Consistente', 'Inconsistente'

In [None]:
'''
Os registros que se enquadraram em alguma das situações abaixo foram
considerados inconsistentes:
● registros com resultado ‘menor que LQ’, sem o valor de LQ;
● registros com resultado ‘menor que LD’, sem o valor de LD;
● registros com valor de LD ou LQ igual a 0;
● registros com valor de LD superior ou igual ao valor de LQ;
● registros com resultado quantificado, igual a 0 (zero);
● registros com valor de resultado quantificado, inferior ao LQ;
● registros com valor de resultado quantificado, igual ou inferior ao LD;
'''

'\nOs registros que se enquadraram em alguma das situações abaixo foram\nconsiderados inconsistentes:\n● registros com resultado ‘menor que LQ’, sem o valor de LQ;\n● registros com resultado ‘menor que LD’, sem o valor de LD;\n● registros com valor de LD ou LQ igual a 0;\n● registros com valor de LD superior ou igual ao valor de LQ;\n● registros com resultado quantificado, igual a 0 (zero);\n● registros com valor de resultado quantificado, inferior ao LQ;\n● registros com valor de resultado quantificado, igual ou inferior ao LD;\n'

In [None]:
def fconsistencia(linha):
  # Verifica coluna existente "resultado" - Resultado da análise de qualidade da água
  resultado = str(linha["resultado"]).strip()
  # Prepara para trabalhar para trabalhar com número, se for o caso
  resultado = resultado.replace(",", ".")
  #print("RESULTADO: ", resultado)

  # Verifica coluna existente "lq" 
  '''
  Limite de quantificação.
Obs: Limite de quantificação (LQ) é a menor concentração do analito presente em uma amostra que pode ser determinado, 
com precisão e exatidão aceitáveis, sob condições experimentais aceitáveis. Ele pode ser determinado de diversas formas, 
tais como: relação sinal/ruído superior a 10:1 da linha base, desvio padrão da média do branco, estimativa do desvio padrão 
da resposta próximo ao LQ e método visual. Desde que sejam respeitados os critérios de aceitabilidade e comprovado por meio de 
testes de precisão e exatidão (ANVISA, 2003).
  '''
  lq = str(linha["lq"]).strip()
  # Prepara para trabalhar para trabalhar com número, se for o caso
  lq = lq.replace(",", ".")
  #print("LQ: ", lq)

  # Verifica coluna existente "ld" 
  '''
  Limite de Detecção.
Obs: Limite de Detecção (LD) do método é a menor quantidade do analito presente em uma amostra que pode ser detectado, 
porém não necessariamente quantificada sob condições experimentais estabelecidas (ANVISA, 2003).
  '''
  ld = str(linha["ld"]).strip()
  # Prepara para trabalhar para trabalhar com número, se for o caso
  ld = ld.replace(",", ".")
  #print("LD: ", ld)

  # Cria copias de lq e ld para trabalho e testa se são números, duas vezes
  try:
    copia_lq = float(lq)
  except ValueError:
    copia_lq = "vazio"
  
  if copia_lq != "vazio":
    if math.isnan(copia_lq) or copia_lq == "":
      copia_lq = "vazio"

  try:
    copia_ld = float(ld)
  except ValueError:
    copia_ld = "vazio"

  if copia_ld != "vazio":
    if math.isnan(copia_ld) or copia_ld == "":
      copia_ld = "vazio"


  # Registra valor de coluna récem-criada - tipo_de_resultado
  tipo_de_resultado = str(linha["tipo_de_resultado"]).strip()
  #print("Tipo Resultado: ", tipo_de_resultado)

        
  #print("ld: ", ld)
  #print("lq: ", lq)
  #print("copia_ld: ", copia_ld)
  #print("copia_lq: ", copia_lq)
  #print("---")
  #print("resultado: ", resultado)
  #print("tipo resultado: ", tipo_de_resultado)
  
        
  # Se é vazio já pode considerar como Inconsistente
  if tipo_de_resultado  == "TUDO_VAZIO":
    consist = "Inconsistente"
  # Testes para resultados com números
  elif tipo_de_resultado  == "QUANTIFICADO":
    # Cria cópia numérica de resultado
    copia_resultado = float(resultado)
       		
    #print(copia_resultado)
    
    # Se resultado for 0 é Inconsistente - registros com resultado quantificado, igual a 0 (zero)
    if copia_resultado == 0 or copia_resultado == 0.0:
      consist = "Inconsistente"

    else:
      
      #print("---")
      #print("LD: ", copia_ld)
      #print("LQ: ", copia_lq)
      #print("resultado: ", copia_resultado)
      #print("---")
      #print("ESPECIAL")

      # Faz todos os testes, de acordo com orientação do Ministério da Saúde
      # A ordem dos testes importa aqui
      # Se uma condição é encontrada no inicio não importa as demais abaixo
      # E se nenhuma é encontrada só pode ser "Consistente"
      #if copia_lq == "vazio" and copia_ld == "vazio":
      #  consist = "Consistente"
      #  #print("Aqui 1")
      if copia_ld == copia_lq:
        consist = "Inconsistente" 
        #print("Aqui 2")
      elif copia_ld != "vazio" and copia_resultado <= copia_ld:
        consist = "Inconsistente"    
        #print("Aqui 3")
      elif copia_lq != "vazio" and copia_resultado < copia_lq:
        consist = "Inconsistente"
        #print("Aqui 4")
      elif (copia_lq != "vazio" and copia_ld != "vazio") and copia_ld >= copia_lq:
        consist = "Inconsistente" 
        #print("Aqui 5")
      elif copia_ld == "0" or copia_lq == "0" or copia_ld == 0.0 or copia_lq == 0.0 or copia_ld == 0 or copia_lq == 0:
        consist = "Inconsistente"
      elif copia_lq != "vazio" and copia_ld == "vazio":
        consist = "Consistente"
        #print("Aqui 6")
      elif copia_lq == "vazio" and copia_ld != "vazio":
        consist = "Consistente"   
        #print("Aqui 7")
      else:
        consist = "Consistente"
        #print("Aqui 8")


  # Testes para resultados sem números
  elif tipo_de_resultado != "QUANTIFICADO":
    # Faz todos os testes, de acordo com orientação do Ministério da Saúde
    # A ordem dos testes importa aqui
    # Se uma condição é encontrada no inicio não importa as demais abaixo
    # E se nenhuma é encontrada só pode ser "Consistente"
    if copia_ld == copia_lq:
      consist = "Inconsistente"
      #print("Aqui 1")
    elif (copia_lq != "vazio" and copia_ld != "vazio") and copia_ld >= copia_lq:
      consist = "Inconsistente" 
      #print("Aqui 2")
    elif resultado == "MENOR_LQ" and copia_lq == "vazio":
      consist = "Inconsistente"
      #print("Aqui 3")
    elif copia_ld == "0" or copia_lq == "0" or copia_ld == 0.0 or copia_lq == 0.0 or copia_ld == 0 or copia_lq == 0:
      consist = "Inconsistente"
      #print("Aqui 7")
    elif resultado == "MENOR_LD" and copia_ld == "vazio":
      consist = "Inconsistente"
      #print("Aqui 5")
    elif resultado == "MENOR_LQ" and copia_lq != "vazio":
      consist = "Consistente"
      #print("Aqui 4")
    elif resultado == "MENOR_LD" and copia_ld != "vazio":
      consist = "Consistente"
      #print("Aqui 6")
    else:
      consist = "Consistente"
      #print("Aqui 8")

  #print("Consistencia: ", consist)
  #print("vmp", str(linha["vmp"]).strip())
  #print("%%%%%%%%%%%%%%%%%")
  return str(consist)

In [None]:
# Função para criar nova coluna "atendimento_ao_padrao"
# Com valores 'Abaixo do VMP', 'Acima do VMP', 'Inconclusivo' ou (vazio)N/A

In [None]:
'''
A classificação dos resultados em relação aos valores de referência definidos para
cada substância no padrão de potabilidade conforme definições abaixo.
Resultado quantificado com valor menor ou igual ao VMP  Abaixo do VMP
Resultado ‘menor que LQ’, sendo o LQ menor ou igual ao VMP  Abaixo do VMP
Resultado ‘menor que LD’, sendo o LD menor ou igual ao VMP  Abaixo do VMP
Resultado ‘quantificado’ com valor maior que o VMP  Acima do VMP
Resultado menor que LQ, sendo o LQ maior que o VMP  Inconclusivo
Resultado menor que LD, sendo o LD maior que o VMP  Inconclusivo
Inconsistentes  N/A
Os registros classificados como inconclusivos são os que não apresentam uma
inconsistência analítica, mas não permitem avaliar o atendimento ao valor de
referência devido ao uso de um método ou equipamento não apropriado.
A classificação dos municípios para os mapas foi realizada da seguinte maneira.
Sem informação  Municípios que não possuem registro de análises.

Abaixo do VMP  Municípios que apresentaram pelo menos uma análise, mas
nenhum resultado acima do VMP.
Acima do VMP  Municípios que apresentaram pelo menos uma análise com
resultado quantificado e acima do VMP.
'''

'\nA classificação dos resultados em relação aos valores de referência definidos para\ncada substância no padrão de potabilidade conforme definições abaixo.\nResultado quantificado com valor menor ou igual ao VMP \uf0e0 Abaixo do VMP\nResultado ‘menor que LQ’, sendo o LQ menor ou igual ao VMP \uf0e0 Abaixo do VMP\nResultado ‘menor que LD’, sendo o LD menor ou igual ao VMP \uf0e0 Abaixo do VMP\nResultado ‘quantificado’ com valor maior que o VMP \uf0e0 Acima do VMP\nResultado menor que LQ, sendo o LQ maior que o VMP \uf0e0 Inconclusivo\nResultado menor que LD, sendo o LD maior que o VMP \uf0e0 Inconclusivo\nInconsistentes \uf0e0 N/A\nOs registros classificados como inconclusivos são os que não apresentam uma\ninconsistência analítica, mas não permitem avaliar o atendimento ao valor de\nreferência devido ao uso de um método ou equipamento não apropriado.\nA classificação dos municípios para os mapas foi realizada da seguinte maneira.\nSem informação \uf0e0 Municípios que não possuem regis

In [None]:
def fatendimento(linha):
  # Verifica coluna existente "resultado" - Resultado da análise de qualidade da água
  resultado = str(linha["resultado"]).strip()
  # Prepara para trabalhar para trabalhar com número, se for o caso
  resultado = resultado.replace(",", ".")

  # Verifica coluna existente "lq" 
  '''
  Limite de quantificação.
Obs: Limite de quantificação (LQ) é a menor concentração do analito presente em uma amostra que pode ser determinado, 
com precisão e exatidão aceitáveis, sob condições experimentais aceitáveis. Ele pode ser determinado de diversas formas, 
tais como: relação sinal/ruído superior a 10:1 da linha base, desvio padrão da média do branco, estimativa do desvio padrão 
da resposta próximo ao LQ e método visual. Desde que sejam respeitados os critérios de aceitabilidade e comprovado por meio de 
testes de precisão e exatidão (ANVISA, 2003).
  '''
  lq = str(linha["lq"]).strip()
  lq = lq.replace(",", ".")

  # Verifica coluna existente "ld" 
  '''
  Limite de Detecção.
Obs: Limite de Detecção (LD) do método é a menor quantidade do analito presente em uma amostra que pode ser detectado, 
porém não necessariamente quantificada sob condições experimentais estabelecidas (ANVISA, 2003).
  '''
  ld = str(linha["ld"]).strip()
  ld = ld.replace(",", ".")

  tipo_de_resultado = str(linha["tipo_de_resultado"]).strip()

  # Registra valor de coluna récem-criada - vmp
  # Valor Máximo Permitido (VMP), para os parâmetros físicos e químicos
  vmp = str(linha["vmp"]).strip()
  vmp = vmp.replace(",", ".")
  vmp = float(vmp)

  # Registra valor de coluna récem-criada - consistencia
  consistencia = str(linha["consistencia"]).strip()
  #print("----")
  #print("Consistencia: ", consistencia)

  
  # Faz todos os testes, de acordo com orientação do Ministério da Saúde
  # A ordem dos testes importa aqui
  # Se uma condição é encontrada no inicio não importa as demais abaixo
  
  if consistencia == "Inconsistente":
    atendimento = "not applicable"
    #print("Atendimento: ", atendimento)
    #print("----")
    return atendimento
  
  elif tipo_de_resultado  == "QUANTIFICADO":
    copia_resultado = float(resultado)
    if copia_resultado <= vmp:
      atendimento = "Abaixo do VMP"
    elif copia_resultado > vmp:
      atendimento = "Acima do VMP"

  elif tipo_de_resultado != "QUANTIFICADO":
    try:
      copia_lq = float(lq)
    except ValueError:
      copia_lq = 0

    if math.isnan(copia_lq) or copia_lq == "":
      copia_lq = 0

    try:
      copia_ld = float(ld)
    except ValueError:
      copia_ld = 0
    
    if math.isnan(copia_ld) or copia_ld == "":
      copia_ld = 0
    
    if resultado == "MENOR_LQ" and copia_lq <= vmp:
      atendimento = "Abaixo do VMP"
    elif resultado == "MENOR_LD" and copia_ld <= vmp:
      atendimento = "Abaixo do VMP"
    elif resultado == "MENOR_LQ" and copia_lq > vmp:
      atendimento = "Inconclusivo"
    elif resultado == "MENOR_LD" and copia_ld > vmp:
      atendimento = "Inconclusivo"
    else:
      atendimento = "not applicable"

        
  #print("Atendimento: ", atendimento)
  #print("----")

  return atendimento

In [None]:
# Chama funcao e cria nova coluna com o resultado
ano_2020["tipo_de_resultado"] = ano_2020.apply(ftipo, axis=1)

In [None]:
# Chama funcao e cria nova coluna com o resultado
ano_2020["vmp"] = ano_2020.apply(fvmp, axis=1)

In [None]:
# Chama funcao e cria nova coluna com o resultado
ano_2020["consistencia"] = ano_2020.apply(fconsistencia, axis=1)

In [None]:
# Chama funcao e cria nova coluna com o resultado
ano_2020["atendimento_ao_padrao"] = ano_2020.apply(fatendimento, axis=1)

In [None]:
ano_2020.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1831819 entries, 0 to 1831818
Data columns (total 31 columns):
 #   Column                                        Dtype 
---  ------                                        ----- 
 0   região_geográfica                             object
 1   uf                                            object
 2   regional_de_saúde                             object
 3   município                                     object
 4   código_ibge                                   object
 5   tipo_da_instituição                           object
 6   sigla_da_instituição                          object
 7   nome_da_instituição                           object
 8   cnpj_da_instituição                           object
 9   nome_do_escritório_regional/local             object
 10  cnpj_do_escritório_regional/local             object
 11  tipo_da_forma_de_abastecimento                object
 12  código_forma_de_abastecimento                 object
 13  nome_da_form

In [None]:
ano_2020.reset_index().head(1)

Unnamed: 0,index,região_geográfica,uf,regional_de_saúde,município,código_ibge,tipo_da_instituição,sigla_da_instituição,nome_da_instituição,cnpj_da_instituição,nome_do_escritório_regional/local,cnpj_do_escritório_regional/local,tipo_da_forma_de_abastecimento,código_forma_de_abastecimento,nome_da_forma_de_abastecimento,nome_da_eta_/_uta,ano_de_referência,semestre_de_referência,data_de_registro,data_de_preenchimento_do_relatório_semestral,data_da_coleta,data_da_análise,ponto_de_monitoramento,grupo_de_parâmetros,parâmetro,ld,lq,resultado,tipo_de_resultado,vmp,consistencia,atendimento_ao_padrao
0,0,NORDESTE,CE,18 REGIONAL DE SAUDE IGUATU,PIQUET CARNEIRO,231090,Empresa Estadual,CAGECE,COMPANHIA DE AGUA E ESGOTO DO CEARA,7040108000157,UNIDADE DE NEGOCIO DA BACIA DE BANABUIU UNBBA,7040108000157,SAA,S231090000001,CAGECE PIQUET CARNEIRO,,2020,1,2020/01/28 00:00:00.000,2020/01/28 00:00:00.000,05/01/2020,06/01/2020,SISTEMA DE DISTRIBUIÇÃO,Parâmetros Organolépticos,"Sódio VMP - 200,0 mg/L",,,2700,QUANTIFICADO,200,Consistente,Abaixo do VMP


In [None]:
# Mostra tipos que gerou

In [None]:
ano_2020["tipo_de_resultado"].unique()

array(['QUANTIFICADO', 'MENOR_LQ', 'MENOR_LD'], dtype=object)

In [None]:
ano_2020["vmp"].unique()

array(['0.03', '15', '0.3', '0.2', '0.1', '250', '10', '1.5', '500',
       '1000', '0.5', '20', '0.08', '5', '2', '1', '60', '180', '0.7',
       '0.07', '0.12', '0.17', '6', '0.05', '200', '0.01', '0.001', '12',
       '9', '90', '50', '0.005', '1.2', '30', '4', '7', '8', '40', '0.6',
       '120'], dtype=object)

In [None]:
ano_2020["consistencia"].unique()

array(['Inconsistente', 'Consistente'], dtype=object)

In [None]:
ano_2020["atendimento_ao_padrao"].unique()

array(['Abaixo do VMP', 'Acima do VMP', 'N/A', 'Inconclusivo'],
      dtype=object)

In [None]:
# Faz recorte menor se precisar
#recorte_ano_2020 = ano_2020.reset_index().head(5000)
#recorte_ano_2020.info()
#recorte_ano_2020.to_excel('/drive/My Drive/Data-driven/RB/resultados_sisagua/recorte_ano_2020.xlsx',sheet_name='Sheet1',index=False)

In [None]:
# Grava arquivo inteiro
ano_2020.to_csv('/drive/My Drive/Data-driven/RB/resultados_sisagua/sisagua_ano2020_download_2_nov_2021_versao_rodada_30_jan_2022.csv',index=False)