In [None]:
import pandas as pd
import plotly

In [None]:
# Abrir, Ler e atribuir a uma variável os dados .csv do snis de 2021
df_snis = pd.read_csv('snis_municipios.csv', sep=';', decimal=',', thousands='.', encoding='utf-16-le', index_col=False)

# Exibir o dataframe
df_snis.head()

In [None]:
# FORMAS DE FAZER LISTAS UTILIZANDO 'list comprehension'

# Construir uma lista "colunas_sem_codigo" iterando nas colunas até 8 do "df"
colunas_sem_codigo = [coluna for coluna in df_snis.columns[:8]]
# Construir uma lista "colunas_com_codigo" iterando nas colunas do "df" que não estão na lista "colunas_sem_codigo"
colunas_com_codigo = [coluna for coluna in df_snis.columns if coluna not in colunas_sem_codigo]

# OUTRA FORMA DE FAZER LISTAS UTILIZANDO Laço For

'''# Cria uma lista com o nome das colunas
# Itera nas colunas até 8 e adiciona/append a coluna na lista
colunas_sem_codigo = []
for coluna in df.columns[:8]:
    colunas_sem_codigo.append(coluna)

# Cria uma lista com o nome das colunas
# Itera nas colunas que não fazem parte da lista "colunas_sem_codigo"
# adiciona/append a coluna na lista "coluna_com_codigo"
colunas_com_codigo = []
for col in df.columns:
    if col not in colunas_sem_codigo:
        colunas_com_codigo.append(col)'''



In [None]:
# Limpar o nome textual e deixar somente os códigos das informações e indicadores do SNIS no dataframe "colunas"
colunas_com_codigo = [x[:x.find('-') -1 ] for x in colunas_com_codigo]
colunas = colunas_sem_codigo + colunas_com_codigo

# Exibir as colunas
colunas

In [None]:
# Atribuir o nome limpo das colunas que estão no dataframe "colunas" ao dataframe "df"
df_snis.columns = colunas

# Renomear os headers de todas as colunas para minúsculo
df_snis.columns = df.columns.str.lower()

# Renomear os headers das colunas iniciais
df_snis = df_snis.rename(columns={"código do ibge": "cd_mun7", "código do município": "cd_mun6", "município":"nm_mun", "estado":"uf", "ano de referência":"ano_ref", 'serviços':'servicos', 'natureza jurídica':'nat_jur'})

# Exibir os registros iniciais
df_snis.head()

In [None]:
# Exibindo as informações do dataframe
df_snis.info()

In [None]:
# Exibir os tipos de dados

# Obtenha os headers de coluna e dtypes
headers = df_snis.columns
dtypes = df_snis.dtypes

# Crie um laço for para iterar sobre os headers de coluna
for header in headers:
    # Imprima o header de coluna e o dtype
    print(f"{header} - {dtypes[header]}")

In [None]:
# Selecionar apenas as colunas de abastecimento que decidi trabalhar
df_filtrado = df_snis[['cd_mun7', 'cd_mun6', 'nm_mun', 'uf', 'ano_ref', 'prestadores', 'servicos', 'nat_jur',
                'ge009','ge011','es002','es004','es005','es006','es007','es008','es009','in015_ae','in016_ae','in021_ae','in046_ae',
                'ge008', 'ge010','ag003','ag004','ag005','ag021','ag022','ag008','ag010','ag011','ag012','in003_ae','in005_ae','in028_ae','in049_ae']]

# filtrando para 2021
df_snis_2021 = df_filtrado[df_filtrado['ano_ref'] == '2021']

# Alterando o index dos novos dataframes filtrados porque eles herdaram o index do dataframe "df_snis_abastecimento" e "df_snis_esgotamento"
df_snis_2021 = df_snis_2021.reset_index(drop=True)

#Exibir o dataframe
df_snis_2021

In [None]:
# Calcular a estatística descritiva básica do dataset para cada coluna numérica
df_snis_2021.describe()

In [None]:
def calcula_media_metrica_ano(metrica: str, ano: int, df: pd.DataFrame) -> float:
    """
    Função para retornar a média de uma métrica em um determinado ano
    metrica: nome da métrica
    ano: ano da métrica
    df: DataFrame a ser analisado
    """
    return df[df['ano_ref'] == str(ano)][metrica.lower()].mean(skipna=True)

def calcula_total_metrica_ano(metrica: str, ano: int, df: pd.DataFrame) -> float:
    """
    Função para retornar o total de uma métrica em um determinado ano
    metrica: nome da métrica
    ano: ano da métrica
    df: DataFrame a ser analisado
    """
    return df[df['ano_ref'] == str(ano)][metrica.lower()].sum(skipna=True)

In [None]:
# dicionário com os nomes e os indicadores
dicionario_indicadores_total = dict()

# Cálculo de fato dos indicadores
# GE008 - Quantidade de sedes municipais atendidas com abastecimento de água
ge008 = calcula_total_metrica_ano('GE008',2021,df_snis)
dicionario_indicadores_total['ge008'] = ge008

# GE009 - Quantidade de sedes municipais atendidas com esgotamento sanitário
ge009 = calcula_total_metrica_ano('GE009',2021,df_snis)
dicionario_indicadores_total['ge009'] = ge009

# GE010 - Quantidade de localidades (excluídas as sedes) atendidas com abastecimento de água
ge010 = calcula_total_metrica_ano('GE010',2021,df_snis)
dicionario_indicadores_total['ge010'] = ge010

# GE011 - Quantidade de localidades (excluídas as sedes) atendidas com esgotamento sanitário
ge011 = calcula_total_metrica_ano('GE011',2021,df_snis)
dicionario_indicadores_total['ge010'] = ge010

# AG003 - Quantidade de economias ativas de água 
ag003 = calcula_total_metrica_ano('AG003',2021,df_snis)
dicionario_indicadores_total['ag003'] = ag003

# AG004 - Quantidade de ligações ativas de Água Micromedidas 
ag004 = calcula_total_metrica_ano('AG004',2021,df_snis)
dicionario_indicadores_total['ag004'] = ag004

# AG005 - Extensão da Rede de Água (km)
ag005 = calcula_total_metrica_ano('AG005',2021,df_snis)
dicionario_indicadores_total['ag005'] = ag005

# AG008 - Volume de água micromedido
ag008 = calcula_total_metrica_ano('AG008',2021,df_snis)
dicionario_indicadores_total['ag008'] = ag008

# AG010 - Volume de água consumido
ag010 = calcula_total_metrica_ano('AG010',2021,df_snis)
dicionario_indicadores_total['ag010'] = ag010

# AG011 - Volume de água faturado
ag011 = calcula_total_metrica_ano('AG011',2021,df_snis)
dicionario_indicadores_total['ag011'] = ag011

# AG012 - Volume de água Macromedido
ag012 = calcula_total_metrica_ano('AG012',2021,df_snis)
dicionario_indicadores_total['ag012'] = ag012

# AG021 - Quantidade de Ligações Totais de Água
ag021 = calcula_total_metrica_ano('AG021',2021,df_snis)
dicionario_indicadores_total['ag021'] = ag021

# AG022 - Quantidade de economias residenciais ativas de água Micromedidas
ag022 = calcula_total_metrica_ano('AG022',2021,df_snis)
dicionario_indicadores_total['ag022'] = ag022

# ES002 - Quantidade de ligações ativas de esgoto
es002 = calcula_total_metrica_ano('ES002',2021,df_snis)
dicionario_indicadores_total['es002'] = es002

# ES004 - Extensão da rede de esgotos
es004 = calcula_total_metrica_ano('ES004',2021,df_snis)
dicionario_indicadores_total['es004'] = es004

# ES005 - Volume de esgotos coletado
es005 = calcula_total_metrica_ano('ES005',2021,df_snis)
dicionario_indicadores_total['es005'] = es005

# ES006 - Volume de esgoto tratado
es006 = calcula_total_metrica_ano('ES006',2021,df_snis)
dicionario_indicadores_total['es006'] = es006

# AG007 - Volume de esgotos faturado
es007 = calcula_total_metrica_ano('ES007',2021,df_snis)
dicionario_indicadores_total['es007'] = es007

# ES008 - Quantidade de economias residenciais ativas de esgoto
es008 = calcula_total_metrica_ano('ES008',2021,df_snis)
dicionario_indicadores_total['es008'] = es008

# ES009 - Quantidade de ligações totais de esgoto
es009 = calcula_total_metrica_ano('ES009',2021,df_snis)
dicionario_indicadores_total['es009'] = es009

'''-------------------------------------------------------------------------------------------------------------'''

# * médias
# São calculadas usando do dataframe completo "df" e não o dataframe filtrado

# dicionário com os nomes e os indicadores
dicionario_indicadores_medias = dict()

# Cálculo de fato dos indicadores
# 'IN003_AE': Despesa total com os serviços por M³ faturado - (R$/M³)
# 'IN003_AE' = (FN017 / AG011 + ES007) * 1/1000
fn017 = calcula_media_metrica_ano('FN017', 2021, df_snis)
ag011 = calcula_media_metrica_ano('AG011', 2021, df_snis)
es007 = calcula_media_metrica_ano('ES007', 2021, df_snis)
in003_ae = (fn017 / ag011 + es007) * 1/1000
dicionario_indicadores_medias['in003_ae'] = in003_ae

# 'IN005_AE': Tarifa média de água - (R$/M³)
# 'IN005_AE' = (FN002 / AG011 - AG017 - AG019) * 1/1000
fn002 = calcula_media_metrica_ano('fn002', 2021, df_snis)
ag011 = calcula_media_metrica_ano('AG011', 2021, df_snis)
ag017 = calcula_media_metrica_ano('AG017', 2021, df_snis)
ag019 = calcula_media_metrica_ano('AG019', 2021, df_snis)
in005_ae = (fn002 / ag011 - ag017 - ag019) * 1/1000
dicionario_indicadores_medias['in005_ae'] = in005_ae

# 'IN049_AE': Índice de Perdas na Distribuição
# 'IN049_AE' = (AG006 + AG018 - AG010 - AG024 / AG006 + AG018 - AG024) * 100
ag006 = calcula_media_metrica_ano('ag006', 2021, df_snis)
ag010 = calcula_media_metrica_ano('ag010', 2021, df_snis)
ag018 = calcula_media_metrica_ano('ag018', 2021, df_snis)
ag024 = calcula_media_metrica_ano('ag024', 2021, df_snis)
in049_ae = (ag006 + ag018 - ag010 - ag024 / ag006 + ag018 - ag024) * 100
dicionario_indicadores_medias['in049_ae'] = in049_ae


# 'IN015_AE': Índice de Perdas na Distribuição (%)
# 'IN015_AE' = (ES005 / AG010 - AG019) * 100
es005 = calcula_media_metrica_ano('ES005', 2021, df_snis)
ag010 = calcula_media_metrica_ano('AG010',2021, df_snis)
ag019 = calcula_media_metrica_ano('AG019', 2021, df_snis)
in015_ae = (es005 / ag010 - ag019) * 100
dicionario_indicadores_medias['in015_ae'] = in015_ae

# 'IN016_AE': Índice de Perdas na Distribuição (%)
# 'IN016_AE' = (ES006 + ES014 + ES015 / ES005 + ES013) * 100
es005 = calcula_media_metrica_ano('ES005', 2021, df_snis)
es006 = calcula_media_metrica_ano('ES006', 2021, df_snis)
es013 = calcula_media_metrica_ano('ES013', 2021, df_snis)
es014 = calcula_media_metrica_ano('ES014', 2021, df_snis)
es015 = calcula_media_metrica_ano('ES015', 2021, df_snis)
in016_ae = (es006 + es014 + es015 / es005 + es013) * 100
dicionario_indicadores_medias['in016_ae'] = in016_ae

# 'IN021_AE': Extensão da rede de esgoto por ligação (m/lig)
# 'IN021_AE' = 
es004 = calcula_media_metrica_ano('ES004', 2021, df_snis)
es009 = calcula_media_metrica_ano('ES009', 2021, df_snis)
in021_ae = (es004 / es009) * 1000
dicionario_indicadores_medias['in021_ae'] = in021_ae

# 'IN046_AE': Índice de esgoto tratado referido a água consumida
# 'IN046_AE' = 
es006 = calcula_media_metrica_ano('ES006', 2021, df_snis)
es015 = calcula_media_metrica_ano('ES015', 2021, df_snis)
ag010 = calcula_media_metrica_ano('AG010', 2021, df_snis)
ag019 = calcula_media_metrica_ano('AG019', 2021, df_snis)
in046_ae = (es006 + es015 / ag010 - ag019) * 100
dicionario_indicadores_medias['in046_ae'] = in046_ae


In [None]:
linha_valor_erj = pd.DataFrame([
                                {'cd_mun7' : 333, 'cd_mun6': 333000, 'nm_mun': 'Valor para ERJ', 'uf':'RJ','ano_ref': '2021', 'prestadores': 'não se aplica', 'servicos': 'não se aplica', 'nat_jur':'nat_jur'}
                                |dicionario_indicadores_medias
                                |dicionario_indicadores_total
                                ])
linha_valor_erj.index = [92]

# inserindo linha com total e médias, nesta ordem
df_snis_2021 = pd.concat([df_snis_2021, linha_valor_erj])

df_snis_2021

In [None]:
# CONEXÃO COM BANCO DE DADOS LOCAL

from sqlalchemy import create_engine

#Criar uma engine de conexão
engine = create_engine(conn_string)

# Substitua os valores entre chaves {} pelos seus próprios dados
connection  = 'postgresql://{}:{}@localhost:{}/{}'.format('postgres','MudarePreciso123','5432','gisdb') # SINTAXE: usuario:senha@localhost:porta/database

# Exibir a string de conexão
print(connection )

df.to_sql('df_snis', engine, schema='saneamento', if_exists='replace', index=False)

# Fecha a conexão com o banco
connection.close()