In [1]:
#Importando bibliotecas
import numpy as np
import pandas as pd
from datetime import datetime
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.utils import np_utils
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder

Using Theano backend.


In [2]:
#Nomes para as colunas
columns = ["Estacao","Data","Hora","Prec","TempMax","TempMin","Insolacao","EvapoPiche","TempCompMedia",
           "UmidRelatMedia", "VelocVento", "Missing"]

#Tipos de dados em cada coluna
types = {"Hora":np.uint16,"Prec":np.float64,"TempMax":np.float64,"TempMin":np.float64,"Insolacao":np.float64,
         "EvapoPiche":np.float64,"TempCompMedia":np.float64,"UmidRelatMedia":np.float64,"VelocVento":np.float64}

#Leitura do arquivo csv
dataSet = pd.read_csv("https://github.com/gilvandrocesardemedeiros/ClimatePrediction/raw/master/Dados_INMET/Diarios/INMET-Dados_Diarios_Natal_1968-2018.csv",
                      sep=';',skiprows=48, nrows = 27003, usecols = columns[1:11], names=columns, dtype = types)

In [3]:
#Transformando data em variável do tipo datetime
dataSet["Data"] = pd.to_datetime(dataSet["Data"], format = "%d/%m/%Y")

In [4]:
#Verificando dados
dataSet.head()

Unnamed: 0,Data,Hora,Prec,TempMax,TempMin,Insolacao,EvapoPiche,TempCompMedia,UmidRelatMedia,VelocVento
0,1968-01-01,0,,30.6,,11.1,4.4,25.14,73.5,2.666667
1,1968-01-01,1200,0.0,,21.4,,,,,
2,1968-01-02,0,,31.0,,11.9,6.5,24.92,74.75,1.666667
3,1968-01-02,1200,0.0,,19.6,,,,,
4,1968-01-03,0,,31.6,,11.3,5.0,24.9,77.25,2.333333


In [5]:
#Verificando o tipo dos dados
dataSet.dtypes

Data              datetime64[ns]
Hora                      uint16
Prec                     float64
TempMax                  float64
TempMin                  float64
Insolacao                float64
EvapoPiche               float64
TempCompMedia            float64
UmidRelatMedia           float64
VelocVento               float64
dtype: object

In [6]:
#Separando os dados em dois dataframes, um para as 00:00 h e outro para as 12:00 h
dataSet00, dataSet12 = dataSet[dataSet["Hora"] == 0], dataSet[dataSet["Hora"] == 1200]

In [7]:
#Verificando dataframe para os dados disponibilizados às 00:00 h
dataSet00.head()

Unnamed: 0,Data,Hora,Prec,TempMax,TempMin,Insolacao,EvapoPiche,TempCompMedia,UmidRelatMedia,VelocVento
0,1968-01-01,0,,30.6,,11.1,4.4,25.14,73.5,2.666667
2,1968-01-02,0,,31.0,,11.9,6.5,24.92,74.75,1.666667
4,1968-01-03,0,,31.6,,11.3,5.0,24.9,77.25,2.333333
6,1968-01-04,0,,31.2,,10.3,4.0,24.82,80.75,3.666667
8,1968-01-05,0,,30.8,,11.0,4.2,24.78,76.0,4.0


In [8]:
#Verificando dataframe para os dados disponibilizados às 12:00 h
dataSet12.head()

Unnamed: 0,Data,Hora,Prec,TempMax,TempMin,Insolacao,EvapoPiche,TempCompMedia,UmidRelatMedia,VelocVento
1,1968-01-01,1200,0.0,,21.4,,,,,
3,1968-01-02,1200,0.0,,19.6,,,,,
5,1968-01-03,1200,0.0,,18.5,,,,,
7,1968-01-04,1200,0.0,,20.7,,,,,
9,1968-01-05,1200,0.0,,19.9,,,,,


In [9]:
#Transformando a data no índice de cada dataframe
dataSet00 = dataSet00.set_index("Data")
dataSet12 = dataSet12.set_index("Data")

In [10]:
#Descartando a coluna "Hora"
dataSet00, dataSet12 = dataSet00.drop(columns = "Hora"), dataSet12.drop(columns = "Hora")

In [11]:
#Juntando os dados em um mesmo dataframe (no caso, o dataSet00)
for i in dataSet00.index:
    try:
        dataSet00["Prec"].loc[i] = dataSet12["Prec"].loc[i]
        dataSet00["TempMin"].loc[i] = dataSet12["TempMin"].loc[i]
    except:
        print("Data " + str(i.day) + "/" + str(i.month) + "/" + str(i.year) + " Não encontrada!")

Data 5/7/1986 Não encontrada!
Data 20/7/1986 Não encontrada!
Data 3/6/1989 Não encontrada!
Data 12/6/1989 Não encontrada!
Data 4/12/1992 Não encontrada!
Data 26/5/2018 Não encontrada!
Data 1/8/2018 Não encontrada!
Data 27/10/2018 Não encontrada!


In [12]:
#Atribuindo à variável dataSet o DataFrame atualizado
dataSet = dataSet00
#Verificando dimensões do DataFrame
print(dataSet.shape)

(13502, 8)


In [13]:
#Eliminando dias que estejam faltando variáveis
dataSet = dataSet.dropna()

In [14]:
#Verificando dimensões do DataFrame após excluir linhas com problema
print(dataSet.shape)

(11911, 8)


In [15]:
#Transformando a coluna Data de volta em uma coluna de informações do dataSet
dataSet = dataSet.reset_index()

# Considerando os seguintes intervalos: 
- Outono: 20 de março a 21 de junho (fechado em 20/03 e aberto em 21/06)
- Inverno: 21 de junho a 22 de setembro (fechado em 21/06 e aberto em 22/09)
- Primavera: de 22 de setembro a 21 de dezembro (fechado em 22/09 e aberto em 21/12)
- Verão: de 21 de dezembro a 20 de março (fechado em 21/12 e aberto em 20/03)

In [16]:
#Função que retorna a estação do ano para uma determinada data
def season(data):
    if (data.month > 3 and data.month < 6) or (data.month == 3 and data.day >= 20) or (data.month == 6 and data.day < 21):
        return "Out"
    if (data.month > 6 and data.month < 9) or (data.month == 6 and data.day >= 21) or (data.month == 9 and data.day < 22):
        return "Inv"
    if (data.month > 9 and data.month < 12) or (data.month == 9 and data.day >= 22) or (data.month == 12 and data.day < 21):
        return "Pri"
    else:
        return "Ver"

In [17]:
#Identificando a estação do ano na base de dados e guardando a informação referente ao ano de cada dado
estacao, ano = [], []
for i in dataSet.index:
    estacao.insert(i, season(dataSet.loc[i, "Data"]))
    ano.insert(i, dataSet.loc[i,"Data"].year)

In [18]:
#Contando quantos dados existem para cada estação
print("Outono: " + str(estacao.count("Out")))
print("Inverno: " + str(estacao.count("Inv")))
print("Primavera: " + str(estacao.count("Pri")))
print("Verão: " + str(estacao.count("Ver")))

Outono: 3048
Inverno: 2988
Primavera: 2946
Verão: 2929


In [19]:
#Adicionando a estação do ano na base de dados
dataSet["Season"] = estacao

In [20]:
#Efetuando uma transformação simples nos dados referentes ao ano
ano = np.array(ano).astype(np.float64)
minMax = MinMaxScaler()
ano = minMax.fit_transform(ano.reshape(-1,1))

In [21]:
#Eliminando a coluna "Data" e visualizando dados
dataSet = dataSet.drop(columns="Data")
dataSet.head()

Unnamed: 0,Prec,TempMax,TempMin,Insolacao,EvapoPiche,TempCompMedia,UmidRelatMedia,VelocVento,Season
0,0.0,30.6,21.4,11.1,4.4,25.14,73.5,2.666667,Ver
1,0.0,31.0,19.6,11.9,6.5,24.92,74.75,1.666667,Ver
2,0.0,31.6,18.5,11.3,5.0,24.9,77.25,2.333333,Ver
3,0.0,31.2,20.7,10.3,4.0,24.82,80.75,3.666667,Ver
4,0.0,30.8,19.9,11.0,4.2,24.78,76.0,4.0,Ver


In [22]:
#Separando a variável que será prevista (Y) em função das demais variáveis (X) e convertendo-os em um ndarray
X = dataSet.drop(columns = "Season").values
Y = dataSet["Season"].values

In [23]:
#Efetuando uma transformação robusta nos dados - menor sensibilidade aos outliers
sc = RobustScaler(quantile_range = (10.0,90.0))
X = sc.fit_transform(X)

In [24]:
#Adicionando a coluna de informações referentes ao ano na base de dados X
X = np.append(X, ano, axis=1)

In [25]:
#Decodificando as estações em uma matriz (one hot encoding - dummy variables)
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)
dummy_Y = np_utils.to_categorical(encoded_Y)

In [26]:
#Amostra da matriz de estações (cada coluna representa uma classe: verão, outono, inverno e primavera)
dummy_Y[70:80,:]

array([[0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.]], dtype=float32)

In [27]:
#Dimensões da matriz de dados
print(X.shape)

(11911, 9)


In [28]:
#Definindo uma função para fazer o Cross Validation com a MLP
def trainMLP():
    #Criando o modelo
    mlp = Sequential()
    #Adicionando a camada de entrada
    mlp.add(Dense(activation = 'tanh', input_dim = 9, units = 18, kernel_initializer = 'normal'))
    #Adicionando a segunda camada
    mlp.add(Dense(activation = 'tanh', units = 9, kernel_initializer = 'normal'))
    #Adicionando a camada de saída
    mlp.add(Dense(activation = 'softmax', units = 4, kernel_initializer='normal'))
    # Compilando o modelo
    mlp.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['mse','mae'])
    return mlp

In [29]:
#Modelo de classificação do Keras
estimator = KerasClassifier(build_fn=trainMLP, epochs=200, batch_size=5, verbose=1)

In [30]:
#Treinando a MLP com Cross Validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

In [31]:
results = cross_val_score(estimator, X, dummy_Y, cv=10)



Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200


Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78/200
Epoch 79/200
Epoch 80/200
Epoch 81/200
Epoch 82/200
Epoch 83/200
Epoch 84/200
Epoch 85/200
Epoch 86/200
Epoch 87/200
Epoch 88/200
Epoch 89/200
Epoch 90/200
Epoch 91/200
Epoch 92/200
Epoch 93/200
Epoch 94/200
Epoch 95/200
Epoch 96/200
Epoch 97/200
Epoch 98/200
Epoch 99/200
Epoch 100/200
Epoch 101/200
Epoch 102/200
Epoch 103/200
Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200


Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200
Epoch 152/200
Epoch 153/200
Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200


Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 176/200
Epoch 177/200
Epoch 178/200
Epoch 179/200
Epoch 180/200
Epoch 181/200
Epoch 182/200
Epoch 183/200
Epoch 184/200
Epoch 185/200
Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200


ValueError: The model is not configured to compute accuracy. You should pass `metrics=["accuracy"]` to the `model.compile()` method.

In [32]:
#Mostrando os resultados obtidos:
print("A taxa de acerto foi de: " + str(results.mean()))

NameError: name 'results' is not defined