In [None]:
#Importando bibliotecas
import pandas as pd
import numpy as np
from datetime import datetime
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
import pickle

In [None]:
aracajuData = pd.read_csv("https://raw.githubusercontent.com/gilvandrocesardemedeiros/Meteorology_replace-missing-values/master/DadosDiarios/aracajudiario.csv",
                      sep=';',skiprows=16)

In [None]:
#Transformando data em variável do tipo datetime
aracajuData["Data"] = pd.to_datetime(aracajuData["Data"], format = "%d/%m/%Y")

In [None]:
aracajuData.describe()

In [None]:
#Verificando dados
aracajuData.head()

In [None]:
dataInicial = datetime.datetime.strptime('1980-01-01', '%Y-%m-%d')
dataFinal = datetime.datetime.strptime('2017-12-31', '%Y-%m-%d') 
tempo = datetime.timedelta(days=1)

In [None]:
aracajuData = aracajuData.set_index("Data")

In [None]:
#Separando os dados em dois dataframes, um para as 00:00 h e outro para as 12:00 h
aracajuData00, aracajuData12 = aracajuData[aracajuData["Hora"] == 0], aracajuData[aracajuData["Hora"] == 1200]

In [None]:
#Descartando a coluna "Hora"
aracajuData00, aracajuData12 = aracajuData00.drop(columns = ["Hora", "Estacao", "Unnamed: 11"]), aracajuData12.drop(columns = ["Hora", "Estacao", "Unnamed: 11"])

In [None]:
#Verificando dataframe para os dados disponibilizados às 00:00 h
aracajuData00.head()

In [None]:
#Verificando dataframe para os dados disponibilizados às 12:00 h
aracajuData12.head()

In [None]:
#Juntando os dados em um mesmo dataframe (no caso, o dataSet00)
for i in aracajuData00.index:
  try:
    aracajuData00["Precipitacao"].loc[i] = aracajuData12["Precipitacao"].loc[i]
    aracajuData00["TempMinima"].loc[i] = aracajuData12["TempMinima"].loc[i]
  except:
    print("Data " + str(i.day) + "/" + str(i.month) + "/" + str(i.year) + " Não encontrada!")

In [None]:
#Atribuindo à variável dataSet o DataFrame atualizado
aracajuData = aracajuData00
#Verificando DataFrame
aracajuData.describe()

In [None]:
aracajuData["Mes"] = aracajuData.index.month

In [None]:
#Transformando a coluna Data de volta em uma coluna de informações do dataSet
aracajuData = aracajuData.reset_index(drop = True)

In [None]:
aracajuData.head()

In [None]:
aracajuData = aracajuData.dropna(subset = ["TempMaxima"])

In [None]:
#Separando a variável que será prevista, TempMaxima, da base de dados
tempMaxAracaju = aracajuData["TempMaxima"]
aracajuData = aracajuData.drop(columns = "TempMaxima")

In [None]:
#Visualizando dados
aracajuData.head()

In [None]:
tempMaxAracaju.head()

In [None]:
colunas = aracajuData.columns

In [None]:
#Efetuando uma transformação robusta, trabalhando com os dados entre os percentis 10 e 90
mms = MinMaxScaler(feature_range=(-1, 1))
aracajuData = mms.fit_transform(aracajuData)

In [None]:
prov = pd.DataFrame(aracajuData)
prov.columns = colunas
prov.describe()

In [None]:
#Trocando dados faltantes por 0
aracajuData = np.nan_to_num(aracajuData, copy = False)

In [None]:
#Verificando dimensões do dataSet
print(aracajuData.shape)

In [None]:
#Separando conjunto de treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(aracajuData, tempMaxAracaju, test_size = 0.1, random_state = 9)

In [None]:
#Definindo uma função para criar a MLP
def trainMLP(optimizer='adam', init='random_uniform', units = 8, camadas = 2):    
  #Criando o modelo
  mlp = Sequential()
  #Adicionando a camada de entrada
  mlp.add(Dense(activation = 'tanh', input_dim = units, units = units, kernel_initializer = init, bias_initializer='zeros'))
  #Adicionando as camadas escondidas
  for i in range(camadas):
    mlp.add(Dense(activation = 'tanh', units = units, kernel_initializer = init, bias_initializer='zeros'))
  #Adicionando a camada de saída
  mlp.add(Dense(units = 1, kernel_initializer = init, bias_initializer='zeros'))    
  # Compilando o modelo
  mlp.compile(loss='mean_squared_error', optimizer = optimizer, metrics= ['mae'])
  return mlp

In [None]:
#Modelo de classificação do Keras
estimator = KerasRegressor(build_fn=trainMLP, epochs = 200, verbose = 2)

In [None]:
#Criando o objeto para Cross Validation
kfold = KFold(n_splits=4, shuffle=True, random_state=5)

In [None]:
#Parâmetros para o Grid Search
#Adicionando e alterando parâmetros neste dicionário, pode-se aumentar ou diminuir a quantidade de parâmetros a serem testados na modelagem
parameters = {'batch_size': [10],             
              'camadas': [2],
              'units': [8]}

In [None]:
#Modelagem para buscar os melhores parâmetros
#Por limitações de poder de processamento, retirou-se o n_jobs = -1 dos parâmetros do Grid Search
grid_search = GridSearchCV(estimator = estimator, param_grid = parameters, 
                     scoring = "neg_mean_squared_error", verbose=500, cv = kfold, return_train_score = True)

In [None]:
#Busca pelos melhores parâmetros
grid_result = grid_search.fit(X_train, Y_train)

In [None]:
#Exibição dos melhores resultados
print("Melhor resultado: %f, usando %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
print("Resultados (Desvio padrão) {Parâmetros}")
for mean, stdev, param in zip(means, stds, params):
	print("%f (%f) %r" % (mean, stdev, param))

In [None]:
#Gráfico de previsão para o conjunto de treino
plt.scatter(grid_search.predict(X_train), Y_train)

In [None]:
#Gráfico de previsão para o conjunto de treino normalizado
plt.scatter(grid_search.predict(X_train) / max(grid_search.predict(X_train)), Y_train / max(Y_train))

In [None]:
#Mostrando uma matriz de correlação das variáveis com a melhor modelagem
print(np.corrcoef(Y_train, grid_search.predict(X_train)))

In [None]:
#Previsão com base no resultado da Grid Search
Y_pred = grid_search.predict(X_test)

In [None]:
#Gráfico que mostra a relação entre ROP real e ROP previsto
plt.scatter(Y_test, Y_pred)

In [None]:
#Gráfico normalizado que mostra a relação entre a chuva real e a prevista
plt.scatter(Y_test / max(Y_test), Y_pred / max(Y_pred))

In [None]:
#Mostrando uma matriz de correlação das variáveis com a melhor modelagem
print(np.corrcoef(Y_test, Y_pred))

In [None]:
#Erro absoluto médio entre o ROP previsto e o real
print(mean_absolute_error(Y_test, Y_pred))

In [None]:
#Erro quadrático médio entre o ROP previsto e o real
print(mean_squared_error(Y_test, Y_pred))