In [1]:
import pandas as pd

In [2]:
# Ler arquivo de dados meteorologicos
df = pd.read_excel('/home/franciele/Projetos/dados-dengue/Dados/dados_meteorologicos.xlsx', head=[0, 1, 2, 3, 4, 5, 6])

# Alterando o nome das colunas
df.columns = ['municipio', 'data', 'hora', 'precipitacao', 'temperatura_maxima',
     'temperatura_minima', 'temperatura_media', 'umidade_relativa_media']

In [3]:
# Visualizando os primeiros registros do data frame
print(df.head())

    municipio       data  hora  precipitacao  temperatura_maxima  \
0  Alagoinhas 2001-01-01     0           NaN                33.1   
1  Alagoinhas 2001-01-01  1200           0.0                 NaN   
2  Alagoinhas 2001-01-02     0           NaN                32.3   
3  Alagoinhas 2001-01-02  1200           0.0                 NaN   
4  Alagoinhas 2001-01-03     0           NaN                32.5   

   temperatura_minima  temperatura_media  umidade_relativa_media  
0                 NaN              26.20                   69.25  
1                21.5                NaN                     NaN  
2                 NaN              25.00                   69.25  
3                17.5                NaN                     NaN  
4                 NaN              25.16                   70.75  


In [4]:
# Visualizando os tipos dos dados contidos no data frame
df.dtypes

municipio                         object
data                      datetime64[ns]
hora                               int64
precipitacao                     float64
temperatura_maxima               float64
temperatura_minima               float64
temperatura_media                float64
umidade_relativa_media           float64
dtype: object

In [5]:
# Formatando a coluna data
df['data'] = df.data.dt.strftime('%d/%m/%Y')

In [None]:
import sys
sys.path.append("..")
from Utils import normalizarNome

In [None]:
# Normalizando nome do municipio
df['municipio'] = df['municipio'].map(normalizarNome.normalizar_nome)

In [None]:
# Lista única de municípios do data frame
lista_municipios = df.municipio.unique()

# Visualizando tamanho da lista
print(lista_municipios.size)

# Visualizando lista de municípios
print(lista_municipios)

In [None]:
# Visualizando alterações
print(df.head())

In [None]:
# Visualizando as dimensões do data frame
print(df.shape)

In [None]:
# Salvando a quantidade de registros do data frame
size = df.shape[0]

# Visualizando valor armazenado
print(size)

In [None]:
# Organizando os dados municipio, data e hora de forma ascendente
df.sort_values(['municipio', 'data', 'hora'], ascending=[True, True, True])

In [None]:
# Lista única de datas do data frame
lista_datas = df.data.unique()

# Visualizando tamanho da lista
print(lista_datas.size)

# Visualizando lista de datas
print(lista_datas)

In [None]:
colunas = ['municipio', 'data', 'precipitacao', 'temperatura_maxima',
     'temperatura_minima', 'temperatura_media', 'umidade_relativa_media']
    
# Criando dataframe
dfNormalizado = pd.DataFrame(columns=colunas)
rows = []

In [None]:
import numpy as np

In [None]:
import getDado

In [None]:
import sys
sys.path.append("..")
from Utils import log

In [None]:
qtdMunicipios = lista_municipios.size
print(qtdMunicipios)

In [None]:
# Loop Municipio e data
for i in range(0, qtdMunicipios, 1):
    print ('[' + str(i) + '] ' + lista_municipios[i])
    
    # Filtrando os dados pelo municipio
    df_filtered_municipio = df[df['municipio'] == lista_municipios[i]]
    
    # Verificando se há dados para o município
    municipioExiste = (df_filtered_municipio.shape[0] != 0)
    
    # Controle de log
    if (not municipioExiste):
        arquivoCodigo = 'testeNormalizacao.ipynb'
        arquivoDados = 'dados_meteorologicos.xlsx'
        msgErro = 'Não há dados.'
        municipio = lista_municipios[i]
        data = ''
        campo = ''
        log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
        print(msgErro)
    
    for j in range(0, lista_datas.size, 1):
        # print ('---- [' + str(j) + '] ' + lista_datas[j])
        
        # Filtrando os dados pela data
        df_filtered_mun_data = df_filtered_municipio[df_filtered_municipio['data'] == lista_datas[j]]
                
        # Verificando se há dados para a data no município em questão
        dataExiste = (df_filtered_mun_data.shape[0] != 0)
        
        if(dataExiste):
            
            qtdRegistros = df_filtered_mun_data.shape[0]

            if (qtdRegistros == 2):
                
                # Precipitacao
                dadosPrecipitacao = df_filtered_mun_data['precipitacao'].values
                resultadoPrecipitacao = getDado.getDadoNumerico(dadosPrecipitacao[0], dadosPrecipitacao[1])

                if (resultadoPrecipitacao == 'Ambos os dados estão vazios.' or resultadoPrecipitacao == 'Ambos os dados não estão vazios.'):
                    arquivoCodigo = 'testeNormalizacao.ipynb'
                    arquivoDados = 'dados_meteorologicos.xlsx'
                    msgErro = resultadoPrecipitacao
                    municipio = lista_municipios[i]
                    data = lista_datas[j]
                    campo = 'precipitacao'
                    log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
                    print(msgErro)
                else: 
                    precipitacao = resultadoPrecipitacao
                    
                # Temperatura Máxima
                dadosTempMaxima = df_filtered_mun_data['temperatura_maxima'].values
                resultadoTempMaxima = getDado.getDadoNumerico(dadosTempMaxima[0], dadosTempMaxima[1])

                if (resultadoTempMaxima == 'Ambos os dados estão vazios.' or resultadoTempMaxima == 'Ambos os dados não estão vazios.'):
                    arquivoCodigo = 'testeNormalizacao.ipynb'
                    arquivoDados = 'dados_meteorologicos.xlsx'
                    msgErro = resultadoTempMaxima
                    municipio = lista_municipios[i]
                    data = lista_datas[j]
                    campo = 'temperatura_maxima'
                    log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
                    print(msgErro) 
                else: 
                    temperaturaMaxima = resultadoTempMaxima
                
                # Temperatura Minima
                dadosTempMinima = df_filtered_mun_data['temperatura_minima'].values
                resultadoTempMinima = getDado.getDadoNumerico(dadosTempMinima[0], dadosTempMinima[1])

                if (resultadoTempMinima == 'Ambos os dados estão vazios.' or resultadoTempMaxima == 'Ambos os dados não estão vazios.'):
                    arquivoCodigo = 'testeNormalizacao.ipynb'
                    arquivoDados = 'dados_meteorologicos.xlsx'
                    msgErro = resultadoTempMinima
                    municipio = lista_municipios[i]
                    data = lista_datas[j]
                    campo = 'temperatura_minima'
                    log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
                    print(msgErro) 
                else: 
                    temperaturaMinima = resultadoTempMinima
                
                # Temperatura Média
                dadosTempMedia = df_filtered_mun_data['temperatura_media'].values
                resultadoTempMedia = getDado.getDadoNumerico(dadosTempMedia[0], dadosTempMedia[1])

                if (resultadoTempMedia == 'Ambos os dados estão vazios.' or resultadoTempMedia == 'Ambos os dados não estão vazios.'):
                    arquivoCodigo = 'testeNormalizacao.ipynb'
                    arquivoDados = 'dados_meteorologicos.xlsx'
                    msgErro = resultadoTempMedia
                    municipio = lista_municipios[i]
                    data = lista_datas[j]
                    campo = 'temperatura_media'
                    log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
                    print(msgErro) 
                else: 
                    temperaturaMedia = resultadoTempMedia
                
                # Umidade relativa média
                dadosUmidRelMedia = df_filtered_mun_data['umidade_relativa_media'].values
                resultadoUmidRelMedia = getDado.getDadoNumerico(dadosUmidRelMedia[0], dadosUmidRelMedia[1])

                if (resultadoUmidRelMedia == 'Ambos os dados estão vazios.' or resultadoUmidRelMedia == 'Ambos os dados não estão vazios.'):
                    arquivoCodigo = 'testeNormalizacao.ipynb'
                    arquivoDados = 'dados_meteorologicos.xlsx'
                    msgErro = resultadoUmidRelMedia
                    municipio = lista_municipios[i]
                    data = lista_datas[j]
                    campo = 'umidade_relativa_media'
                    log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
                    print(msgErro) 
                else: 
                    umidadeRelativaMedia = resultadoUmidRelMedia
                    
                                   
                # Salvar dados num data frame
                registro = [lista_municipios[i], lista_datas[j], precipitacao,
                            temperaturaMaxima, temperaturaMinima, temperaturaMedia, umidadeRelativaMedia]
                rows.append(registro)

            else:
                
                if (qtdRegistros == 1):
                    
                    dadosPrecipitacao = df_filtered_mun_data['precipitacao'].values
                    dadosTempMaxima = df_filtered_mun_data['temperatura_maxima'].values
                    dadosTempMinima = df_filtered_mun_data['temperatura_minima'].values
                    dadosTempMedia = df_filtered_mun_data['temperatura_media'].values
                    dadosUmidRelMedia = df_filtered_mun_data['umidade_relativa_media'].values
                    
                    if ((not np.isnan(dadosPrecipitacao)) and (not np.isnan(dadosTempMaxima)) and (not np.isnan(dadosTempMinima)) and (not np.isnan(dadosTempMedia)) and (not np.isnan(dadosUmidRelMedia))) :
                        arquivoCodigo = 'testeNormalizacao.ipynb'
                        arquivoDados = 'dados_meteorologicos.xlsx'
                        msgErro = 'TEM APENAS UM REGISTRO COMPLETO.'
                        municipio = lista_municipios[i]
                        data = lista_datas[j]
                        campo = 'Todos'
                        log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
                        print(msgErro)
                                                                
                arquivoCodigo = 'testeNormalizacao.ipynb'
                arquivoDados = 'dados_meteorologicos.xlsx'
                msgErro = 'Há ' + str(qtdRegistros) + ' registros.'
                municipio = lista_municipios[i]
                data = lista_datas[j]
                campo = ''
                log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
                print(msgErro)
        
        # Controle de log
        if (not dataExiste):
            arquivoCodigo = 'testeNormalizacao.ipynb'
            arquivoDados = 'dados_meteorologicos.xlsx'
            msgErro = 'Não há dados.'
            municipio = lista_municipios[i]
            data = lista_datas[j]
            campo = ''
            log.save_log(arquivoCodigo, arquivoDados, msgErro, municipio, data, campo)
            print(msgErro)
        
        # Salvando dados filtrados pelo municipio e data num arquivo .csv
        '''
        dia, mes, ano = getDateSplit(lista_datas[j])
        arquivo = lista_municipios[i] + '_' + dia + '-' + mes +'-' + ano +'.csv'
        df_filtered_mun_data.to_csv(arquivo)
        '''

In [None]:
# Salvando linhas no dataframe
for row in rows:
    dfNormalizado.loc[len(dfNormalizado)] = row

In [None]:
# Salvando dados do dataframe em um arquivo .csv
dfNormalizado.to_csv('saidaDadosMeteorologicos.csv')