<br>

# Introdução

In [134]:
import os
import re
import sys
import pprint
import pandas as pd
from scipy.stats import gmean
from dateutil.relativedelta import relativedelta

In [135]:
from paths import *

In [153]:
# Parameters
#cod_ibge = '3548906' # São Carlos
#cod_ibge = '3526902' # Limeira
#cod_ibge = '3505203' # Barrrrrr
cod_ibge = '3501608' # Americana

<br>

# Tabelas do Controle

<br>

## Parâmetros Básicos

In [34]:
# Read Table
df_bruta = pd.read_excel(
    os.path.join(output_path, str(cod_ibge), 'dados brutos', 'controle', 'controle_mensal_parametros_basicos.xlsx')
)

In [35]:
# Filtra Apenas SAAs
df = df_bruta.loc[df_bruta['Tipo Da Forma De Abastecimento'] == 'SAA'].copy()

In [36]:
# Filtra Apenas Último Ano
df = df[df['Ano De Referência'] == max(df['Ano De Referência'])].copy()

In [37]:
set(df['Parâmetro'])

{'Bactérias Heterotróficas (UFC/mL)',
 'Cloro Residual Livre (mg/L)',
 'Coliformes totais',
 'Cor (uH)',
 'Escherichia coli',
 'Fluoreto (mg/L)',
 'Turbidez (uT)',
 'pH'}

<br>

## Demais Parâmetros

In [38]:
# Read Table
df_bruta = pd.read_excel(
    os.path.join(output_path, str(cod_ibge), 'dados brutos', 'controle', 'controle_mensal_demais_parametros.xlsx')
)

In [39]:
# Filtra Apenas SAAs
df = df_bruta.loc[df_bruta['Tipo Da Forma De Abastecimento'] == 'SAA'].copy()

In [40]:
# Filtra Apenas Último Ano
df = df[df['Ano De Referência'] == max(df['Ano De Referência'])].copy()

In [41]:
set(df['Parâmetro'])

{'Cianobactérias',
 'Clorofila-a',
 'Cryptosporidium',
 'Escherichia coli',
 'Giardia',
 'Vírus'}

<br>

## Fora do Padrão

In [42]:
# Read Table
df_bruta = pd.read_excel(
    os.path.join(output_path, str(cod_ibge), 'dados brutos', 'controle', 'controle_mensal_amostras_fora_padrao.xlsx')
)

In [43]:
# Filtra Apenas SAAs
df = df_bruta.loc[df_bruta['Tipo Da Forma De Abastecimento'] == 'SAA'].copy()

In [44]:
# Filtra Apenas Último Ano
df = df[df['Ano De Referência'] == max(df['Ano De Referência'])].copy()

In [45]:
set(df['Parâmetro'])

{'Cloro Residual Livre (mg/L)', 'Coliformes totais'}

<br>

## Controle Semestral

In [46]:
# Read Table
df_bruta = pd.read_excel(
    os.path.join(output_path, str(cod_ibge), 'dados brutos', 'controle', 'controle_semestral.xlsx')
)

In [47]:
# Filtra Apenas SAAs
df = df_bruta.loc[df_bruta['Tipo Da Forma De Abastecimento'] == 'SAA']

In [48]:
#df.info()
#list(df.columns)

In [49]:
# Filtra Apenas Último Ano
df = df[df['Ano De Referência'] == max(df['Ano De Referência'])].copy()

In [50]:
set(df['Parâmetro'])

{'1,1 Dicloroeteno - VMP:30,0 µg/L',
 '1,2 Diclorobenzeno VMP - 0,01 mg/L',
 '1,2 Dicloroetano - VMP:10,0 µg/L',
 '1,2 Dicloroeteno (cis + trans) - VMP:50,0 µg/L',
 '1,4 Diclorobenzeno VMP - 0,03 mg/L',
 '2, 4, 6 Triclorofenol - VMP: 0,2 mg/L',
 '2,4 D + 2,4,5 T - VMP: 30,0 µg/L',
 'Acrilamida - VMP:0,5 µg/L',
 'Alaclor - VMP: 20,0 µg/L',
 'Aldicarbe + Aldicarbesulfona + Aldicarbesulfóxido',
 'Aldrin + Dieldrin - VMP: 0,03 µg/L',
 'Alumínio VMP - 0,2 mg/L',
 'Amônia (como NH3) VMP - 1,5 mg/L',
 'Antimônio - VMP:0,005 mg/L',
 'Arsênio - VMP:0,01 mg/L',
 'Atividade alfa total - VMP: 0,5 Bq/L',
 'Atividade beta total - VMP: 1,0 Bq/L',
 'Atrazina - VMP: 2,0 µg/L',
 'Benzeno - VMP:5,0 µg/L',
 'Benzo[a]pireno - VMP:0,7 µg/L',
 'Bário - VMP:0,7 mg/L',
 'Carbendazim + benomil - VMP: 120,0 µg/L',
 'Carbofurano - VMP: 7,0 µg/L',
 'Chumbo - VMP:0,01 mg/L',
 'Cianeto - VMP:0,07 mg/L',
 'Clordano - VMP: 0,2 µg/L',
 'Cloreto VMP - 250,0 mg/L',
 'Cloreto de Vinila - VMP:2,0 µg/L',
 'Clorpirifós + clo

<br>

# Tabelas da Vigilância

<br>

## Parâmetros Básicos

In [164]:
# Read Table
df_bruta = pd.read_excel(
    os.path.join(output_path, str(cod_ibge), 'dados brutos', 'vigilancia', 'vigilancia_parametros_basicos.xlsx')
)

In [165]:
# Filtra Apenas SAAs
df = df_bruta.loc[df_bruta['Tipo Da Forma De Abastecimento'] == 'SAA'].copy()

In [166]:
# Filtra Apenas Último Ano
#df = df[df['Ano'] == max(df['Ano'])].copy()

- 'Cloro residual livre (mg/L)',
- 'Escherichia coli',
- 'Fluoreto (mg/L)',
- 'Turbidez (uT)',
- 'Cor (uH)',
- 'Coliformes totais',

- 'pH'

In [167]:
set(df['Parâmetro (Parâmetros Básicos)'])

{'Cloro residual livre (mg/L)',
 'Coliformes totais',
 'Cor (uH)',
 'Escherichia coli',
 'Fluoreto (mg/L)',
 'Turbidez (uT)',
 'pH'}

In [168]:
df = df[df['Parâmetro (Parâmetros Básicos)'].str.contains('Coliformes')]

In [169]:
df.reset_index(drop=True, inplace=True)
df.dropna(how='all', inplace=True)

In [170]:
set(df['Resultado'])

{'AUSENTE', 'PRESENTE'}

In [159]:
df['Resultado'] = df['Resultado'].map({'AUSENTE': 0, 'PRESENTE': 1})

In [160]:
# Ajusta Resultados
df['Resultado'] = df['Resultado'].astype(str).str.replace(',', '.')
df['Resultado'] = pd.to_numeric(df['Resultado'])

In [161]:
# Adjust Dates
df['Data Da Coleta'] = pd.to_datetime(df['Data Da Coleta'])

In [162]:
df.dtypes

Região Geográfica                            object
Regional De Saúde                            object
Município                                    object
Número Da Amostra                            object
Motivo Da Coleta                             object
Tipo Da Forma De Abastecimento               object
Código Forma De Abastecimento                object
Nome Da Forma De Abastecimento               object
Tipo Da Instituição                          object
Sigla Da Instituição                        float64
Nome Da Instituição                          object
Cnpj Da Instituição                         float64
Nome Do Escritório Regional/Local           float64
Cnpj Do Escritório Regional/Local           float64
Nome Da Eta/Uta                             float64
Ano                                           int64
Mês                                           int64
Data Da Coleta                       datetime64[ns]
Data Do Laudo                                object
Data De Regi

In [163]:
df.tail()

Unnamed: 0,Região Geográfica,Regional De Saúde,Município,Número Da Amostra,Motivo Da Coleta,Tipo Da Forma De Abastecimento,Código Forma De Abastecimento,Nome Da Forma De Abastecimento,Tipo Da Instituição,Sigla Da Instituição,...,Tipo Do Local,Local,Latitude,Longitude,Parâmetro (Parâmetros Básicos),Análise Realizada,Resultado,Providência,Uf,Código Ibge
6297,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,211741000186,Rotina,SAA,S350160000001,ETA,Serviço Municipal e outros,,...,,,,,Escherichia coli,,0,,SP,350160
6298,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,211741000149,Rotina,SAA,S350160000001,ETA,Serviço Municipal e outros,,...,,,,,Escherichia coli,,0,,SP,350160
6331,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,221741000005,Rotina,SAA,S350160000001,ETA,Serviço Municipal e outros,,...,,,,,Escherichia coli,,0,,SP,350160
6333,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,221741000007,Rotina,SAA,S350160000001,ETA,Serviço Municipal e outros,,...,,,,,Escherichia coli,,0,,SP,350160
6337,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,221741000006,Rotina,SAA,S350160000001,ETA,Serviço Municipal e outros,,...,,,,,Escherichia coli,,0,,SP,350160


In [133]:
#df.iloc[616]
print(len(df))
df.loc[600:616]

616


Unnamed: 0,Região Geográfica,Regional De Saúde,Município,Número Da Amostra,Motivo Da Coleta,Tipo Da Forma De Abastecimento,Código Forma De Abastecimento,Nome Da Forma De Abastecimento,Tipo Da Instituição,Sigla Da Instituição,...,Tipo Do Local,Local,Latitude,Longitude,Parâmetro (Parâmetros Básicos),Análise Realizada,Resultado,Providência,Uf,Código Ibge
600,SUDESTE,GVS XV - BAURU,BARIRI,211523000002,Rotina,SAA,S350520000001,ESTACAO DE TRATAMENTO DE AGUA BARIRI,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,1.52,,SP,350520
601,SUDESTE,GVS XV - BAURU,BARIRI,211523000004,Rotina,SAA,S350520000004,POCO SETE,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,1.24,,SP,350520
602,SUDESTE,GVS XV - BAURU,BARIRI,211523000040,Rotina,SAA,S350520000001,ESTACAO DE TRATAMENTO DE AGUA BARIRI,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,1.0,,SP,350520
603,SUDESTE,GVS XV - BAURU,BARIRI,211523000010,Rotina,SAA,S350520000001,ESTACAO DE TRATAMENTO DE AGUA BARIRI,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,1.22,,SP,350520
604,SUDESTE,GVS XV - BAURU,BARIRI,211523000110,Rotina,SAA,S350520000001,ESTACAO DE TRATAMENTO DE AGUA BARIRI,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,1.69,,SP,350520
605,SUDESTE,GVS XV - BAURU,BARIRI,211523000077,Rotina,SAA,S350520000002,POCO TIRO DE GUERRA,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,1.43,,SP,350520
606,SUDESTE,GVS XV - BAURU,BARIRI,211523000106,Rotina,SAA,S350520000002,POCO TIRO DE GUERRA,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,0.49,,SP,350520
607,SUDESTE,GVS XV - BAURU,BARIRI,211523000043,Rotina,SAA,S350520000004,POCO SETE,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,1.46,,SP,350520
608,SUDESTE,GVS XV - BAURU,BARIRI,211523000041,Rotina,SAA,S350520000001,ESTACAO DE TRATAMENTO DE AGUA BARIRI,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,2.33,,SP,350520
609,SUDESTE,GVS XV - BAURU,BARIRI,211523000100,Rotina,SAA,S350520000003,POCO SANTA HELENA,Serviço Municipal e outros,,...,,,,,Cloro residual livre (mg/L),EM_CAMPO,0.1,Enviado oficio ao SAA,SP,350520


<br>

## Demais Parâmetros

In [55]:
# Read Table
df_bruta = pd.read_excel(
    os.path.join(output_path, str(cod_ibge), 'dados brutos', 'vigilancia', 'vigilancia_demais_parametros.xlsx')
)

df_bruta.columns

Index(['Região Geográfica', 'Regional De Saúde', 'Município',
       'Número Da Amostra', 'Motivo Da Coleta',
       'Tipo Da Forma De Abastecimento', 'Código Forma De Abastecimento',
       'Nome Da Forma De Abastecimento', 'Tipo Da Instituição',
       'Sigla Da Instituição', 'Nome Da Instituição', 'Cnpj Da Instituição',
       'Nome Do Escritório Regional/Local',
       'Cnpj Do Escritório Regional/Local', 'Nome Da Eta/Uta', 'Ano', 'Mês',
       'Data Da Coleta', 'Data Do Laudo', 'Data De Registro No Sisagua',
       'Procedência Da Coleta', 'Ponto De Coleta', 'Descrição Do Local',
       'Zona', 'Categoria Área', 'Área', 'Tipo Do Local', 'Local', 'Latitude',
       'Longitude', 'Grupo De Parâmetros', 'Parâmetro (Demais Parâmetros)',
       'Data Da Análise', 'Ld', 'Lq', 'Resultado', 'Uf', 'Código Ibge'],
      dtype='object')

In [58]:
# Filtra Apenas SAAs
df = df_bruta.loc[df_bruta['Tipo Da Forma De Abastecimento'] == 'SAA'].copy()

In [59]:
# Filtra Apenas Último Ano
df = df[df['Ano'] == max(df['Ano'])].copy()

In [60]:
set(df['Parâmetro (Demais Parâmetros)'])

{'Cor Aparente - VMP: 15,0 mg/L', 'Ferro - VMP: 0,3 mg/L'}

<br>

# Análises

# Lixos

In [17]:
#df = df[df['Parâmetro'] == 'Escherichia coli'].copy()
df = df[df['Parâmetro'].str.contains('Cloro')].copy()
df.head()

Unnamed: 0,Região Geográfica,Regional De Saúde,Município,Tipo Da Instituição,Sigla Da Instituição,Nome Da Instituição,Cnpj Da Instituição,Nome Do Escritório Regional/Local,Cnpj Do Escritório Regional/Local,Tipo Da Forma De Abastecimento,...,Data Da Coleta,Data Da Análise,Ponto De Monitoramento,Grupo De Parâmetros,Parâmetro,Ld,Lq,Resultado,Uf,Código Ibge


In [18]:
set(df['Ponto De Monitoramento'])

set()

In [18]:
df = df[df['Ponto De Monitoramento'] == 'SAÍDA DO TRATAMENTO'].copy()
df.head()

Unnamed: 0,Região Geográfica,Regional De Saúde,Município,Tipo Da Instituição,Sigla Da Instituição,Nome Da Instituição,Cnpj Da Instituição,Nome Do Escritório Regional/Local,Cnpj Do Escritório Regional/Local,Tipo Da Forma De Abastecimento,...,Nome Da Eta / Uta,Tipo De Filtração,Ano De Referência,Mês De Referência,Ponto De Monitoramento,Parâmetro,Campo,Valor,Uf,Código Ibge
327619,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,Local,,DEPARTAMENTO DE AGUA E ESGOTO,46755690000000.0,,,SAA,...,ETA,FILTRAÇÃO RÁPIDA,2021,11,SAÍDA DO TRATAMENTO,Cloro Residual Livre (mg/L),Número de amostras analisadas,2436,SP,350160
327620,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,Local,,DEPARTAMENTO DE AGUA E ESGOTO,46755690000000.0,,,SAA,...,ETA,FILTRAÇÃO RÁPIDA,2021,11,SAÍDA DO TRATAMENTO,Cloro Residual Livre (mg/L),"Número de dados > 5,0 mg/L",0,SP,350160
327621,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,Local,,DEPARTAMENTO DE AGUA E ESGOTO,46755690000000.0,,,SAA,...,ETA,FILTRAÇÃO RÁPIDA,2021,11,SAÍDA DO TRATAMENTO,Cloro Residual Livre (mg/L),"Número de dados > 2,0 mg/L e <= 5,0mg/L",223,SP,350160
327622,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,Local,,DEPARTAMENTO DE AGUA E ESGOTO,46755690000000.0,,,SAA,...,ETA,FILTRAÇÃO RÁPIDA,2021,11,SAÍDA DO TRATAMENTO,Cloro Residual Livre (mg/L),"Número de dados >= 0,2 mg/L e <= 2,0mg/L",2213,SP,350160
327623,SUDESTE,GVS XVII - CAMPINAS,AMERICANA,Local,,DEPARTAMENTO DE AGUA E ESGOTO,46755690000000.0,,,SAA,...,ETA,FILTRAÇÃO RÁPIDA,2021,11,SAÍDA DO TRATAMENTO,Cloro Residual Livre (mg/L),"Número de dados < 0,2 mg/L",0,SP,350160


In [19]:
df = df[['Ano De Referência', 'Mês De Referência', 'Campo', 'Valor']].copy()
df = df.sort_values(by=['Ano De Referência', 'Mês De Referência', 'Campo']).copy()
df.head()

Unnamed: 0,Ano De Referência,Mês De Referência,Campo,Valor
327648,2021,1,Número de amostras analisadas,1483
327652,2021,1,"Número de dados < 0,2 mg/L",0
327650,2021,1,"Número de dados > 2,0 mg/L e <= 5,0mg/L",0
327649,2021,1,"Número de dados > 5,0 mg/L",0
327651,2021,1,"Número de dados >= 0,2 mg/L e <= 2,0mg/L",1483


Americana não tinha amostras no Ponto de captação....

{'SAÍDA DO TRATAMENTO', 'SISTEMA DE DISTRIBUIÇÃO'}

In [23]:
df['Valor'] = df['Valor'].astype(str).str.replace(',','.')
df['Valor'] = df['Valor'].astype(float).fillna(0.0)
df.head()

Unnamed: 0,Ano De Referência,Mês De Referência,Campo,Valor
327648,2021,1,Número de amostras analisadas,1483.0
327652,2021,1,"Número de dados < 0,2 mg/L",0.0
327650,2021,1,"Número de dados > 2,0 mg/L e <= 5,0mg/L",0.0
327649,2021,1,"Número de dados > 5,0 mg/L",0.0
327651,2021,1,"Número de dados >= 0,2 mg/L e <= 2,0mg/L",1483.0


<br>

Fazer gráfico multidimensional...
Gráfico...