In [5]:
import os
import pandas as pd
import openpyxl
from datetime import date
import matplotlib.pyplot as plt
import numpy as np
import glob

## MONITORAMENTO MENSAL DO CONSUMO DE ÁGUA DA UFSC 2013 - 2024

##### Outrobro/2024

### Importação e estrutura de organização dos dados MENSAIS 2013/01 a 2024/09
#### - Parte 0 - Funções para obter CSVs a partir de um arquivo excel
#### - Parte 1 - Visualização de dados importados a partir do dicionário gerado, dfs ainda separadas
#### - Parte 2 - Visualização de informações a partir de um único df

##### Nome: Djesser Zechner Sergio

##### https://github.com/Djesser/ENS410064.git



### Parte 0 - Funções para obter CSVs a partir de um arquivo excel

In [10]:

#--------------------------------------------------------------------------------------------------------------------------------
#Main_def-1 - gerar_csv_dados_agua_a_partir_arquivo_xls(nome_arquivo_xls):

def gerar_csvs_a_partir_excel_func(nome_arquivo_xls):
    
    #sub-def1
    pasta_projeto = pasta_projeto_func()
    #sub-def2
    pasta_dados_origem = pasta_dados_origem_func(pasta_projeto)
    #sub-def3
    xls_file = xls_para_csvs_separados(pasta_dados_origem, nome_arquivo_xls)
    #sub-def4
    pasta_dados_csv = pasta_dados_csv_func(pasta_dados_origem)
    #sub-def5
    gerar_csvs(xls_file, pasta_dados_csv)
    
#sub-def 1: -------------------------------------

def pasta_projeto_func():
    # identificando pasta de trabalho
    pasta_projeto = r'I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto'
    print('Pasta projeto: ', pasta_projeto)
    return pasta_projeto

#sub-def 2: -------------------------------------

def  pasta_dados_origem_func(pasta_projeto):
    pasta_dados_origem = os.path.join(pasta_projeto, 'Dados','Origem')
    print('\n','Pasta dados origem :', pasta_dados_origem)
    
    #definir pasta:
    os.chdir(pasta_dados_origem)

    return pasta_dados_origem


#sub-def 3: -------------------------------------

def xls_para_csvs_separados(pasta_dados_origem, nome_arquivo_xls):

    # Read Excel file into a Pandas ExcelFile object 
    #https://www.geeksforgeeks.org/exporting-multiple-sheets-as-csv-using-python/

    #xls_caminho = 
    xls_file = pd.ExcelFile(os.path.join(pasta_dados_origem, nome_arquivo_xls))
    display(xls_file)

    return xls_file

#sub-def 4: -------------------------------------

def pasta_dados_csv_func(pasta_dados_origem):
    
    pasta_dados_csv = os.path.join(pasta_dados_origem, "CSVs")
    print('Pasta dados csv:', pasta_dados_csv)
    try:
        os.mkdir(pasta_dados_csv)
    except:
        pass
    return pasta_dados_csv
 
#sub-def 5: -------------------------------------

# Percorrer cada planilha do arquivo excel e exporta para csv
def gerar_csvs(xls_file, pasta_dados_csv):
    os.chdir(pasta_dados_csv)
    total_csvs_exportados = 0
    for sheet_name in xls_file.sheet_names:
        df = pd.read_excel(xls_file, sheet_name)
        #print(sheet_name)
        # Export the DataFrame to a CSV file
        df.to_csv(f'{sheet_name}.csv', index=False)
        total_csvs_exportados +=1
    total_csvs_pasta = 0
    for file in glob.glob('*.csv'):
        total_csvs_pasta +=1
        
    print('\n', f'CSVs exportados com sucesso para a pasta {pasta_dados_csv}.')
    print('\n', f'Foram exportados {total_csvs_exportados} arquivos com extensão csv.')
    print('\n', f'A pasta CSV possui ao todo {total_csvs_pasta} arquivos csv.')


#------------------------------------------------------------------------------------------------------------------------------
#main_def-2 - gerar dicionário a partir de csvs previamente salvos
def gerar_e_corrigir_dicionario_a_partir_csvs_func():
    #sub-def1
    pasta_projeto = pasta_projeto_func()
    #sub-def2
    pasta_dados_origem = pasta_dados_origem_func(pasta_projeto)
    #sub-def4
    pasta_dados_csv = pasta_dados_csv_func(pasta_dados_origem)
    #sub-def6
    dict_dfs = adicionar_csv_dicionario(pasta_dados_csv)
    #sub-def7
    dict_dfs = reordenar_dicionario(dict_dfs)
    #sub-def8
    dict_dfs = retirar_csvs_de_cadastro(dict_dfs)
    #sub-def9
    verificar_n_colunas_dicionario(dict_dfs)

    return dict_dfs


#sub-def 6: -------------------------------------

# Percorrer cada csv, converter em dataframe e adicionar a um dicionário:
def adicionar_csv_dicionario(pasta_dados_csv):
    os.chdir(pasta_dados_csv)
    dict_dfs = {}
    for csv in os.listdir(pasta_dados_csv):
        nome = (f'{csv[:-4]}_df')
        df = pd.read_csv(csv)
        dict_dfs[nome] = df
    
    lista_dict_dfs_chaves = dict_dfs.keys()
    return dict_dfs

#sub-def 7: -------------------------------------

# Percorrer cada csv, converter em dataframe e adicionar a um dicionário:
def reordenar_dicionario(dict_dfs):
    lista_dict_dfs_chaves = list(dict_dfs.keys())
    lista_dict_dfs_chaves.sort()
    sorted_dict_dfs = {}
    # Sorted Dictionary
    for chave in lista_dict_dfs_chaves:
        sorted_dict_dfs[chave] = dict_dfs[chave]
    print(sorted_dict_dfs.keys())
    return sorted_dict_dfs

#sub-def 8: -------------------------------------

def retirar_csvs_de_cadastro(dict_dfs):
    # retirar csvs que não precisam no momento, (slicing dictionary)
    dict_dfs = dict(list(dict_dfs.items())[:-2])

    # acessar as chaves do dicionário e converter em lista
    lista_dict_dfs_chaves = dict_dfs.keys()
    return dict_dfs
    
#sub-def 9: -------------------------------------

#verificar se todos os dataframes do dicionário possuem o mesmo número de colunas
def verificar_n_colunas_dicionario(dict_dfs):
    lista_colunas= []
    verificador=[]
    print('\n','Verificação do número de colunas importadas em cada df:', '\n')
    for i, chave in enumerate(dict_dfs):
        lista_colunas.append(list(dict_dfs[chave].columns))
        if len(lista_colunas) == 1:
            verificador.append(True)
            pass
        else:
            if lista_colunas[i-1] == lista_colunas[i]:
                verificador.append(True)
            else:
                verificador.append(False)
        print(i, chave, len(list(dict_dfs[chave].columns)), verificador[i])
    
    # https://stackoverflow.com/questions/12765833/counting-the-number-of-true-booleans-in-a-python-list
    if sum(verificador) == len(verificador):
        print('\n',f'Todos os {i} dfs importados possuem o mesmo número de colunas, {lista_colunas[i]}')
    else:
        print('\n', "Número de colunas não é o mesmo em todos os df, verificar e corrigir df importados")


#--------------------------------------------------------------------------------------------------------------------------------------
## Main_def 3 - junta dfs em um único df e exporta csv único, dados_agua_df e dados_agua_csv

def juntar_dfs_remover_NAN_e_exportar_func(chave, dict_dfs): 

    pasta_projeto = pasta_projeto_func()
    # sub-def-10:
    dados_agua_df = dataframe_vazio(chave, dict_dfs)
    # sub-def-11:
    dados_agua_df = concat_df_dict(dict_dfs, dados_agua_df)
    # sub-def-12:
    dados_agua_df = verificar_e_remover_NAN_de_dados_agua_df(dados_agua_df)
    # sub-def-13:
    dados_agua_df = corrigir_texto_mes_e_cria_coluna_mesN(dados_agua_df)
    # sub-def-14:
    dados_agua_df = inserir_coluna_datetime(dados_agua_df)
    # sub-def-15:
    dados_agua_df = remover_colunas(dados_agua_df)
    # sub-def-16:
    exportar_pd_unico_to_csv(dados_agua_df, pasta_projeto)
    return dados_agua_df

#sub-def 10: -------------------------------------
### - criando um dataframe vazio com as colunas existentes de um dataframe escolhido:

def dataframe_vazio (chave, dict_dfs):
    columns_lista = list(dict_dfs[chave].columns)
    dados_agua_df = pd.DataFrame (columns = columns_lista)
    return dados_agua_df
    
#sub-def 11: -------------------------------------
## - concatenar todos os dataframes em um único dataframe, 

def concat_df_dict (dict_dfs, dados_agua_df):
    for chave in dict_dfs:
        dados_agua_df = pd.concat([dados_agua_df, dict_dfs[chave]], ignore_index=True)
    print('\n',f'dados_agua_df concatenado em um único arquivo dados_agua_df')
    return dados_agua_df

#sub-def 12: -------------------------------------
## - verificar e contar número de linhas com NAN na coluna ANO

def verificar_e_remover_NAN_de_dados_agua_df(dados_agua_df):
    
    conta_nan = 0
    for i, item in enumerate(dados_agua_df['ANO']):
        if pd.isna(dados_agua_df.iloc[i,2]) == True:
            conta_nan += 1
        else:
            pass
    linhas_dados_agua_df = len(dados_agua_df['ANO'])
    print('\n', f'Total de linhas em dados_agua_df: {linhas_dados_agua_df}. Total de NANs em dados_agua_df: {conta_nan}')
    linhas_resultantes = linhas_dados_agua_df - conta_nan
    
    # comando drop para remover NAN de dados_agua_df
    dados_agua_df = dados_agua_df.dropna(subset=['ANO'])
    
    dados_agua_df = dados_agua_df.reset_index(drop=True) # IMPORTANTE (PRECISA RESETAR O INDEX SENÃO HAVERÁ FALHAS NO DF FINAL]!!!!!!!!!!!!!!!
    
    return dados_agua_df

#sub-def 13: -------------------------------------
## - corrige texto da coluna Mês e associa a coluna mês-N o número do mês

def corrigir_texto_mes_e_cria_coluna_mesN (dados_agua_df):
        
    meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']
    meses_n = np.arange(13)[1:]
    
    # Substituindo texto mês com a primeira letra não maiuscula
    #https://www.hashtagtreinamentos.com/pandas-where-ciencia-de-dados
    
    lista_unique_mes = dados_agua_df['MÊS'].unique()
   
    for i in range(len(meses)):
        dados_agua_df['MÊS'] = np.where(dados_agua_df['MÊS'] == meses[i].lower(), meses[i], dados_agua_df['MÊS'])
    lista_unique_mes = dados_agua_df['MÊS'].unique()
    
   
    # criando coluna df (MES_N) e associando com a coluna MES
   
    for i in range(len(meses)):
        if i == 0:
            dados_agua_df['MES_N'] = np.where(dados_agua_df['MÊS'] == meses[i], meses_n[i], 0)
        else:
            dados_agua_df['MES_N'] = np.where(dados_agua_df['MÊS'] == meses[i], meses_n[i], dados_agua_df['MES_N'])
    
    lista_unique_mes_N = dados_agua_df['MES_N'].unique()
   
    
    return dados_agua_df

#sub-def 14: -------------------------------------
## - corrige texto da coluna Mês e associa a coluna mês-N o número do mês

def inserir_coluna_datetime(dados_agua_df):

    #https://stackoverflow.com/questions/58072683/combine-year-month-and-day-in-python-to-create-a-date
    #inserir dia 20 a todos os registros
    dados_agua_df['DIA'] = 20
    df = dados_agua_df[['ANO','MES_N','DIA']]
    df.columns = ["year", "month", "day"]
    dados_agua_df['Dtime'] = pd.to_datetime(df)
    print('\n','Coluna Dtime no formato datetime com dia 20 atribuído inserida em dados_agua_df')
    return dados_agua_df


#sub-def 15: -------------------------------------
## - remover coluna Volume Consumido, pois não representa o consumo, apenas a diferença entre as leituras dos hidrômetros, 
## - e estas retornam a zero, o que gera valores negativos:
def remover_colunas(dados_agua_df):
    dados_agua_df = dados_agua_df.drop('VOLUME_CONSUMIDO', axis=1)
    dados_agua_df = dados_agua_df.drop('VERIFICACAO', axis=1)
    dados_agua_df = dados_agua_df.drop('DIFERENCA', axis=1)
    dados_agua_df = dados_agua_df.drop('DIA', axis=1)
    
    return dados_agua_df
 

#sub-def 16: -------------------------------------
## - exportar o arquivo para um csv unico:

def exportar_pd_unico_to_csv(dados_agua_df, pasta_projeto):
    pasta_produtos = os.path.join(pasta_projeto, 'Dados', 'Produtos')
    caminho_dados_agua_csv = os.path.join(pasta_produtos, 'dados_agua_df.csv')
    dados_agua_df.to_csv(caminho_dados_agua_csv)
    print('\n',f'dados_agua_df exportado em csv para a pasta: {pasta_produtos}')





#### Parte 1 - Gerar e exportar CSVs em separado do excel para uma pasta específica;
##### Rodar apenas para acessar e corrigir histórico de faturas no excel

In [7]:
# dados de entrada: nome do arquivo em excel para acesso às planilhas mensais
nome_arquivo_xls = 'M00 - Dados mensais_R5.xlsx'
gerar_csvs_a_partir_excel_func(nome_arquivo_xls)

Pasta projeto:  I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto

 Pasta dados origem : I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto\Dados\Origem


<pandas.io.excel._base.ExcelFile at 0x2e3cce3ca50>

Pasta dados csv: I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto\Dados\Origem\CSVs


  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)



 CSVs exportados com sucesso para a pasta I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto\Dados\Origem\CSVs.

 Foram exportados 143 arquivos com extensão csv.

 A pasta CSV possui ao todo 143 arquivos csv.


#### Parte 2 - Gerar df único a partir de dados em csv separados, e exportar csv único 

In [11]:
chave = '2024_09_df' #### colunas de todos os dfs serão baseadas na df chave selecionada
dict_dfs = gerar_e_corrigir_dicionario_a_partir_csvs_func()
dados_agua_df = juntar_dfs_remover_NAN_e_exportar_func(chave, dict_dfs)

#visualizar os atributos do dataframe concatenado:
dados_agua_df.info()
#visualizar parte do dataframe concatenado:
display(dados_agua_df.iloc[80:90,:])
#visualizar estatísticas
dados_agua_df.describe()

Pasta projeto:  I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto

 Pasta dados origem : I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto\Dados\Origem
Pasta dados csv: I:\Meu Drive\UFSC\PPGEA 2024\Python_for_env\ENS410064\Projeto\Dados\Origem\CSVs
dict_keys(['2013_01_df', '2013_02_df', '2013_03_df', '2013_04_df', '2013_05_df', '2013_06_df', '2013_07_df', '2013_08_df', '2013_09_df', '2013_10_df', '2013_11_df', '2013_12_df', '2014_01_df', '2014_02_df', '2014_03_df', '2014_04_df', '2014_05_df', '2014_06_df', '2014_07_df', '2014_08_df', '2014_09_df', '2014_10_df', '2014_11_df', '2014_12_df', '2015_01_df', '2015_02_df', '2015_03_df', '2015_04_df', '2015_05_df', '2015_06_df', '2015_07_df', '2015_08_df', '2015_09_df', '2015_10_df', '2015_11_df', '2015_12_df', '2016_01_df', '2016_02_df', '2016_03_df', '2016_04_df', '2016_05_df', '2016_06_df', '2016_07_df', '2016_08_df', '2016_09_df', '2016_10_df', '2016_11_df', '2016_12_df', '2017_01_df', '2017_02_df', '2017_03_df', '2

Unnamed: 0,CODIGO,CATEGORIA,ANO,MÊS,MATRICULA,CAMPUS,N_HIDROMETRO,COD_HIDROMETRO,CONCESSIONARIA,CIDADE,...,OCORRENCIA,ANORMALIDADE,VALOR_AGUA,VALOR_ESGOTO,DESCONTOS,OUTROS,MULTAS_JUROS,VALOR_TOTAL,MES_N,Dtime
80,H017 2013 Fevereiro,14,2013,Fevereiro,2296950,,,H017,CASAN,Florianópolis,...,,,6750.75,6750.75,-1275.89,,,12225.61,2,2013-02-20
81,H018 2013 Fevereiro,15,2013,Fevereiro,2296640,2013-02-20,A10C017754,H018,CASAN,Florianópolis,...,Lido,,61.92,61.92,-11.7,,,112.14,2,2013-02-20
82,H019 2013 Fevereiro,16,2013,Fevereiro,9097821,2013-02-20,793193,H019,CASAN,Florianópolis,...,Lido,,1142.78,1142.78,-216.0,,,2069.56,2,2013-02-20
83,H020 2013 Fevereiro,17,2013,Fevereiro,2296829,2013-02-20,C09B271060,H020,CASAN,Florianópolis,...,Lido,,2710.27,2710.27,-512.25,,,4908.29,2,2013-02-20
84,H021 2013 Fevereiro,18,2013,Fevereiro,2296632,2013-02-20,B10C001813,H021,CASAN,Florianópolis,...,Médio,,82.68,82.68,-15.62,,,149.74,2,2013-02-20
85,H023 2013 Fevereiro,19,2013,Fevereiro,2296934,2013-02-20,A93S053431,H023,CASAN,Florianópolis,...,Lido,,2258.69,2258.69,-426.88,,,4090.5,2,2013-02-20
86,H024 2013 Fevereiro,20,2013,Fevereiro,2296926,2013-02-20,A96C161864,H024,CASAN,Florianópolis,...,Mínimo,,82.68,82.68,-15.62,,,149.74,2,2013-02-20
87,H025 2013 Fevereiro,21,2013,Fevereiro,2296900,2013-02-20,D83S122687,H025,CASAN,Florianópolis,...,Lido,,1537.04,1537.04,-290.5,,,2783.58,2,2013-02-20
88,H026 2013 Fevereiro,22,2013,Fevereiro,9912770,2013-02-20,A11C032293,H026,CASAN,Florianópolis,...,Lido,,432.42,432.42,-81.73,,,783.11,2,2013-02-20
89,H027 2013 Fevereiro,23,2013,Fevereiro,2296888,2013-02-20,654300,H027,CASAN,Florianópolis,...,Informado,,2815.87,2815.87,-532.2,,,5099.54,2,2013-02-20


Unnamed: 0,ECON_PUB,ECON_COM,ECON_IND,VALOR_AGUA,VALOR_ESGOTO,DESCONTOS,OUTROS,MULTAS_JUROS,VALOR_TOTAL,MES_N,Dtime
count,10774.0,6513.0,5864.0,11163.0,9524.0,11019.0,6279.0,7342.0,11163.0,11184.0,11184
mean,1.65064,0.443881,0.050989,3663.171287,3334.81726,-618.51602,50.762921,216.708,6068.372,6.402092,2019-01-27 20:45:03.862660864
min,0.0,0.0,0.0,0.0,0.0,-52346.22,-7011.66,-33113.76,0.0,1.0,2013-01-20 00:00:00
25%,1.0,0.0,0.0,108.135,42.51,-468.825,0.0,0.0,157.76,3.0,2016-03-20 00:00:00
50%,1.0,0.0,0.0,683.4,390.71,-94.77,0.0,0.0,972.57,6.0,2019-02-20 00:00:00
75%,1.0,1.0,0.0,2820.795,2308.96,-12.5,0.0,0.0,4407.975,9.0,2021-12-20 00:00:00
max,51.0,9.0,1.0,239568.12,239568.12,349.45,18124.11,1222006.0,1415330.0,12.0,2024-09-20 00:00:00
std,5.687579,1.13492,0.219994,12160.283353,12636.822704,2229.827829,959.218069,14277.95,25633.2,3.42358,
