In [1]:
import pandas as pd

In [2]:
# Ler arquivo de dados meteorologicos
df = pd.read_excel('/home/franciele/Projetos/dados-dengue/Dados/dados_meteorologicos.xlsx', head=[0, 1, 2, 3, 4, 5, 6])

# Alterando o nome das colunas
df.columns = ['municipio', 'data', 'hora', 'precipitacao', 'temperatura_maxima',
     'temperatura_minima', 'temperatura_media', 'umidade_relativa_media']

In [3]:
# Visual os primeiros registros do data frame
print(df.head())

    municipio       data  hora  precipitacao  temperatura_maxima  \
0  Alagoinhas 2001-01-01     0           NaN                33.1   
1  Alagoinhas 2001-01-01  1200           0.0                 NaN   
2  Alagoinhas 2001-01-02     0           NaN                32.3   
3  Alagoinhas 2001-01-02  1200           0.0                 NaN   
4  Alagoinhas 2001-01-03     0           NaN                32.5   

   temperatura_minima  temperatura_media  umidade_relativa_media  
0                 NaN              26.20                   69.25  
1                21.5                NaN                     NaN  
2                 NaN              25.00                   69.25  
3                17.5                NaN                     NaN  
4                 NaN              25.16                   70.75  


In [4]:
# Visualizando os tipos dos dados contidos no data frame
df.dtypes

municipio                         object
data                      datetime64[ns]
hora                               int64
precipitacao                     float64
temperatura_maxima               float64
temperatura_minima               float64
temperatura_media                float64
umidade_relativa_media           float64
dtype: object

In [5]:
# Formatando a coluna data
df['data'] = df.data.dt.strftime('%d/%m/%Y')

In [6]:
# Visualizando alterações
print(df.head())

    municipio        data  hora  precipitacao  temperatura_maxima  \
0  Alagoinhas  01/01/2001     0           NaN                33.1   
1  Alagoinhas  01/01/2001  1200           0.0                 NaN   
2  Alagoinhas  02/01/2001     0           NaN                32.3   
3  Alagoinhas  02/01/2001  1200           0.0                 NaN   
4  Alagoinhas  03/01/2001     0           NaN                32.5   

   temperatura_minima  temperatura_media  umidade_relativa_media  
0                 NaN              26.20                   69.25  
1                21.5                NaN                     NaN  
2                 NaN              25.00                   69.25  
3                17.5                NaN                     NaN  
4                 NaN              25.16                   70.75  


In [8]:
# Visualizando as dimensões do data frame
print(df.shape)

(327665, 8)


In [9]:
# Salvando a quantidade de registros do data frame
size = df.shape[0]

# Visualizando valor armazenado
print(size)

327665


In [10]:
# Organizando os dados municipio, data e hora de forma ascendente
df.sort_values(['municipio', 'data', 'hora'], ascending=[True, True, True])

Unnamed: 0,municipio,data,hora,precipitacao,temperatura_maxima,temperatura_minima,temperatura_media,umidade_relativa_media
0,Alagoinhas,01/01/2001,0,,33.1,,26.20,69.25
1,Alagoinhas,01/01/2001,1200,0.0,,21.5,,
730,Alagoinhas,01/01/2002,0,,27.9,,24.84,92.50
731,Alagoinhas,01/01/2002,1200,1.1,,23.3,,
1460,Alagoinhas,01/01/2003,0,,35.0,,26.56,67.00
1461,Alagoinhas,01/01/2003,1200,0.0,,18.8,,
2190,Alagoinhas,01/01/2004,0,,33.3,,26.64,68.50
2191,Alagoinhas,01/01/2004,1200,0.0,,20.4,,
2922,Alagoinhas,01/01/2005,0,,34.9,,27.28,67.25
2923,Alagoinhas,01/01/2005,1200,0.0,,21.7,,


In [11]:
# Lista única de municípios do data frame
lista_municipios = df.municipio.unique()

# Visualizando tamanho da lista
print(lista_municipios.size)

# Visualizando lista de municípios
print(lista_municipios)

28
['Alagoinhas' 'Barra' 'Barreiras' 'Bom  Jesus da Lapa' 'Caetite'
 'Canavieiras' 'Caravelas' 'Carinhanha' 'Cipo' 'Correntina'
 'Cruz das Almas' 'Feira de Santana' 'Guaratinga' 'Irece' 'Itaberaba'
 'Itiruçu' 'Ituaçu' 'Jacobina' 'Lençois' 'Monte Santo' 'Morro do Chapéu'
 'Paulo Afonso' 'Remanso' 'Salvador' 'Santa Rita de Cassia'
 'Senhor do Bonfim' 'Serrinha' 'Vitoria da Conquista']


In [12]:
# Lista única de datas do data frame
lista_datas = df.data.unique()

# Visualizando tamanho da lista
print(lista_datas.size)

# Visualizando lista de datas
print(lista_datas)

6209
['01/01/2001' '02/01/2001' '03/01/2001' ... '29/12/2017' '30/12/2017'
 '31/12/2017']


In [17]:
# Função para retornar dia mês e ano
def getDateSplit(data):
    split = data.split('/')
    dia = split[0]
    mes = split[1]    
    ano = split[2]
    return dia, mes, ano

In [47]:
def log(arquivoCodigo, arquivoDados, msgErro):
    arquivo = open('log.txt','a')
    arquivo.write('Arquivo do código: ' + arquivoCodigo + '\n')
    arquivo.write('Arquivo de dados: ' + arquivoDados + '\n')
    arquivo.write('Erro: ' + msgErro + '\n')
    arquivo.close()

In [51]:
# Loop Municipio e data
for i in range(0, lista_municipios.size, 1):
    print ('[' + str(i) + '] ' + lista_municipios[i])
    
    # Filtrando os dados pelo municipio
    df_filtered_municipio = df[df['municipio'] == lista_municipios[i]]
    
    # Verificando se há dados para o município
    municipioExiste = (df_filtered_municipio.shape[0] != 0)
    
    # Controle de log
    if (not municipioExiste):
        arquivoCodigo = 'testeNormalizacao.ipynb'
        arquivoDados = 'dados_meteorologicos.xlsx'
        msgErro = 'Não há dados para o municipio ' + lista_municipios[i] + '.'
        log(arquivoCodigo, arquivoDados, msgErro)
        print(msgErro)
    
    for j in range(0, lista_datas.size, 1):
        # print ('---- [' + str(j) + '] ' + lista_datas[j])
        
        # Filtrando os dados pela data
        df_filtered_mun_data = df_filtered_municipio[df_filtered_municipio['data'] == lista_datas[j]]
        
        # Verificando se há dados para a data no município em questão
        dataExiste = (df_filtered_municipio.shape[0] != 0)
        
        # Controle de log
        if (not dataExiste):
            arquivoCodigo = 'testeNormalizacao.ipynb'
            arquivoDados = 'dados_meteorologicos.xlsx'
            msgErro = 'Não há dados para a data ' + lista_datas[j] + ' para o município ' + lista_municipios[i] + '.'
            log(arquivoCodigo, arquivoDados, msgErro)
            print(msgErro)
        
        # Salvando dados filtrados pelo municipio e data num arquivo .csv
        '''
        dia, mes, ano = getDateSplit(lista_datas[j])
        arquivo = lista_municipios[i] + '_' + dia + '-' + mes +'-' + ano +'.csv'
        df_filtered_mun_data.to_csv(arquivo)
        '''

[0] Alagoinhas
[1] Barra
[2] Barreiras
[3] Bom  Jesus da Lapa
[4] Caetite
[5] Canavieiras
[6] Caravelas
[7] Carinhanha
[8] Cipo
[9] Correntina
[10] Cruz das Almas
[11] Feira de Santana
[12] Guaratinga
[13] Irece
[14] Itaberaba
[15] Itiruçu
[16] Ituaçu
[17] Jacobina
[18] Lençois
[19] Monte Santo
[20] Morro do Chapéu
[21] Paulo Afonso
[22] Remanso
[23] Salvador
[24] Santa Rita de Cassia
[25] Senhor do Bonfim
[26] Serrinha
[27] Vitoria da Conquista
