### Série temporal da poluição na China ###

A base de dados desta tarefa possui essas características, na qual temos em cada registro o ano, o mês, o dia e a hora juntamente com o valor de poluição naquele momento e algumas características climáticas.

**O objetivo desta tarefa é construir uma série temporal para prever a poluição na China em horas específicas**

**Importações iniciais**

In [218]:
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Dropout, LSTM
import matplotlib.pyplot as plt

**Carregamento da base de dados**

In [219]:
dataFrame = pd.read_csv('china_temporal.csv')

In [220]:
dataFrame

Unnamed: 0,No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
0,1,2010,1,1,0,,-21,-11.0,1021.0,NW,1.79,0,0
1,2,2010,1,1,1,,-21,-12.0,1020.0,NW,4.92,0,0
2,3,2010,1,1,2,,-21,-11.0,1019.0,NW,6.71,0,0
3,4,2010,1,1,3,,-21,-14.0,1019.0,NW,9.84,0,0
4,5,2010,1,1,4,,-20,-12.0,1018.0,NW,12.97,0,0
5,6,2010,1,1,5,,-19,-10.0,1017.0,NW,16.10,0,0
6,7,2010,1,1,6,,-19,-9.0,1017.0,NW,19.23,0,0
7,8,2010,1,1,7,,-19,-9.0,1017.0,NW,21.02,0,0
8,9,2010,1,1,8,,-19,-9.0,1017.0,NW,24.15,0,0
9,10,2010,1,1,9,,-20,-8.0,1017.0,NW,27.28,0,0


**Pré-processamento dos dados**

Em relação aos valores NaN, podemos realizar três ações:

* Exclução desses valores
* Substituição por 0
* Substituir pela média de cada coluna


In [221]:
dataFrame.isnull().sum()

No          0
year        0
month       0
day         0
hour        0
pm2.5    2067
DEWP        0
TEMP        0
PRES        0
cbwd        0
Iws         0
Is          0
Ir          0
dtype: int64

In [222]:
dataFrame = dataFrame.dropna()

**Apagando colunas desnecessárias na nossa previsão**

Os atributos No , year , month , day , hour  e cbwd  devem ser excluídos, pois em uma série temporal essas informações não são importantes (o cbwd  é somente um campo string)

In [223]:
dataFrame = dataFrame.drop('No', axis = 1)
dataFrame = dataFrame.drop('year', axis = 1)
dataFrame = dataFrame.drop('month', axis = 1)
dataFrame = dataFrame .drop('day', axis = 1)
dataFrame = dataFrame .drop('hour', axis = 1)
dataFrame = dataFrame .drop('cbwd', axis = 1)

Nesse cenário, faremos a previsão dos valores das ações com a utilização de múltiplos previsores. Com isso, usaremos todos os atributos da base de dados.

In [224]:
base_treinamento = dataFrame.iloc[:,1:7].values

poluicao = dataFrame.iloc[:, 0].values



Nosso modelo trabalha com valores reais, podemos dizer assim. Dessa forma, podemos encontrar valores muito altos, que podem influenciar no treinamento. Para resolver essa problemática, podemos escolher duas opções:

* Normalização dos dados

* Padronização dos dados

Ambas as técnicas trabalham com o um único objetivo: deixar os dados na mesma grandeza. Para isso, veremos como cada uma trabalha, de forma individual:


In [225]:
from sklearn.preprocessing import MinMaxScaler



Para normalizar esse dados, vamos utilizar a função MinMaxScaler(), que irá transformar os dados em uma escala de 0 e 1.


In [226]:
normalizador = MinMaxScaler(feature_range = (0,1))

In [227]:
base_treinamento_normalizer = normalizador.fit_transform(base_treinamento)

In [228]:
poluicao = poluicao.reshape(-1,1)

normalizador_poluicao = normalizador.fit_transform(poluicao)

**Estrutura da base de previsão temporal I**


Quando trabalha-se com dados temporais é preciso definir um intervalo de tempo entre os dados e o alvo. Neste caso, podemos pegar um registro que tenha registros anteriores.



**Estrutura da base para previsão temporal II**

In [229]:
previsores = []
poluicao_real = []

for i in range(10, 41757):
    previsores.append(base_treinamento_normalizer[i-90:i, 0:6])
    poluicao_real.append(base_treinamento_normalizer[i, 0])
    
previsores, poluicao_real = np.array(previsores), np.array(poluicao_real)



Com a utilização da biblioteca Keras, nosso vetor de entradas precisa manter uma dimensão 3D com o formato:

            (batch_size, timesteps, input_dim)

Sendo:

   * Batch_size - refere-se ao número de exemplos de treinamento usados em uma intereção

   * Timesteps - refere-se a descrição da forma dos dados

   * Input_dim - refere-se ao número de entradas



**Estrutura da Rede Neural**

In [230]:
regressor = Sequential()
regressor.add(LSTM(units = 100, return_sequences = True, input_shape = (previsores.shape[1], 6)))
regressor.add(Dropout(0.3))

regressor.add(LSTM(units = 50, return_sequences = True))
regressor.add(Dropout(0.2))

regressor.add(LSTM(units = 50, return_sequences = True))
regressor.add(Dropout(0.2))

regressor.add(LSTM(units = 50))
regressor.add(Dropout(0.2))

regressor.add(Dense(units = 1, activation = 'linear'))

regressor.compile(optimizer = 'rmsprop', loss = 'mean_squared_error', 
                  metrics = ['mean_absolute_error'])
regressor.fit(previsores, poluicao_real, epochs = 100, batch_size = 64)


IndexError: tuple index out of range