<a href="https://colab.research.google.com/github/vladimiralencar/DeepLearning-LANA/blob/master/LSTM/LSTM_Data_Preparation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Como Preparar os Dados Para LSTMs?

Os dados para as previsões de sequências, muito provavelmente terão que ser padronizados antes do treinamento da rede. Isso vale para todos os modelos de redes neurais artificiais. Quando um modelo é treinado em dados com escalas diferentes, com um diferente range de valores, isso pode tornar o treinamento mais lento e alguns casos impedir a convergência da rede. Existem basicamente duas formas de ajustar a escala dos seus dados: Normalização e Padronização. Em ambos os casos podemos usar o Scikit-learn.

## 1. Preparação de Dados Numéricos

### Normalização

A normalização é um redimensionamento dos dados do intervalo original para que todos os valores fiquem dentro do
intervalo de 0 e 1. A normalização exige que você conheça ou seja capaz de estimar com precisão valores observáveis mínimos e máximos. Você pode estimar esses valores a partir dos dados. Se a sua série estiver tendendo para cima ou para baixo, estimar esses valores esperados pode ser difícil e a normalização pode não ser o melhor método para usar em seu problema.

Se um valor a ser escalado estiver fora dos limites dos valores mínimo e máximo, o valor resultante não estará no intervalo de 0 e 1. Você pode verificar essas observações antes e removê-los do conjunto de dados ou limitá-los ao valores máximos ou mínimos pré-definido. Você pode normalizar seu conjunto de dados usando funções do scikit-learn MinMaxScaler.

In [1]:
from pandas import Series
from sklearn.preprocessing import MinMaxScaler

# Definindo uma série
data = [10.0, 20.0, 30.0, 40.0, 50.0, 60.0, 70.0, 80.0, 90.0, 100.0]
series = Series(data)
print(series)

# Preparando os dados para normalização
values = series.values
values = values.reshape((len(values), 1))
print('values reshaped')
print(values)


# Treinando os dados normalizados. 
# Para a normalização, usamos a função MinMaxScaler()
# http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html
scaler = MinMaxScaler(feature_range=(0, 1))
scaler = scaler.fit(values)
print('Min: %f, Max: %f' % (scaler.data_min_, scaler.data_max_))

# Normaliza o dataset e imprime
normalized = scaler.transform(values)
print('normalized values')
print(normalized)

# Inverte a transformação e imprime
inversed = scaler.inverse_transform(normalized)
print('inversed_tranformed values')
print(inversed)

0     10.0
1     20.0
2     30.0
3     40.0
4     50.0
5     60.0
6     70.0
7     80.0
8     90.0
9    100.0
dtype: float64
values reshaped
[[ 10.]
 [ 20.]
 [ 30.]
 [ 40.]
 [ 50.]
 [ 60.]
 [ 70.]
 [ 80.]
 [ 90.]
 [100.]]
Min: 10.000000, Max: 100.000000
normalized values
[[0.        ]
 [0.11111111]
 [0.22222222]
 [0.33333333]
 [0.44444444]
 [0.55555556]
 [0.66666667]
 [0.77777778]
 [0.88888889]
 [1.        ]]
inversed_tranformed values
[[ 10.]
 [ 20.]
 [ 30.]
 [ 40.]
 [ 50.]
 [ 60.]
 [ 70.]
 [ 80.]
 [ 90.]
 [100.]]


## Padronização

A padronização de um conjunto de dados envolve a reavaliação da distribuição de valores, de modo que a média de observação dos valores seja 0 e o desvio padrão seja 1. Como a normalização, a padronização pode ser útil, e até mesmo necessária em aprendizado e máquina quando seus dados têm valores de entrada com diferentes escalas. Padronização assume que suas observações são uma distribuição gaussiana (curva do sino). Se os dados não estiverem com uma distribuição normal, você ainda pode tentar a Padronização, mas o resultado pode não ser confiável.

In [2]:
from pandas import Series
from sklearn.preprocessing import StandardScaler
from math import sqrt

# Definindo uma série
data = [1.0, 5.5, 9.0, 2.6, 8.8, 3.0, 4.1, 7.9, 6.3]
series = Series(data)
print(series)

# Preparando os dados para normalização
values = series.values
values = values.reshape((len(values), 1))

# Treinando os dados normalizados. 
# Para a normalização, usamos a função StandardScaler()
# http://scikit-learn.org/stable/modules/preprocessing.html
scaler = StandardScaler()
scaler = scaler.fit(values)
print('Média: %f, Desvio Padrão: %f' % (scaler.mean_, sqrt(scaler.var_)))

# Normaliza o dataset e imprime
standardized = scaler.transform(values)
print(standardized)

# Inverte a transformação e imprime
inversed = scaler.inverse_transform(standardized)
print(inversed)

0    1.0
1    5.5
2    9.0
3    2.6
4    8.8
5    3.0
6    4.1
7    7.9
8    6.3
dtype: float64
Média: 5.355556, Desvio Padrão: 2.712568
[[-1.60569456]
 [ 0.05325007]
 [ 1.34354035]
 [-1.01584758]
 [ 1.26980948]
 [-0.86838584]
 [-0.46286604]
 [ 0.93802055]
 [ 0.34817357]]
[[1. ]
 [5.5]
 [9. ]
 [2.6]
 [8.8]
 [3. ]
 [4.1]
 [7.9]
 [6.3]]


## 2. Preparação de Dados Categóricos

Os dados categóricos são variáveis que contêm valores de labels em vez de valores numéricos. O número dos valores possíveis geralmente é limitado a um conjunto fixo. As variáveis categóricas geralmente são chamadas de nominais.

As palavras em um texto podem ser consideradas dados categóricos, onde cada palavra é considerada uma categoria diferente. Além disso, cada letra em dados de texto pode ser considerada uma categoria. Problemas de previsão de sequência com entrada ou saída de texto podem ser considerados dados categóricos. Algumas categorias podem ter uma relação natural entre si, como uma ordem natural. Os dados categóricos devem ser convertidos em números quando
trabalhando com LSTMs.

### Integer Encoding

Como um primeiro passo, cada valor de categoria exclusivo é atribuído a um valor inteiro. Por exemplo, o vermelho é
1, verde é 2 e azul é 3. Isso é chamado de codificação de rótulo ou uma codificação de número inteiro e é facilmente
reversível. Para algumas variáveis, isso pode ser suficiente.

Os valores inteiros têm uma relação natural ordenada entre si e os algoritmos de aprendizagem de máquina podem ser capazes de compreender e aproveitar esse relacionamento. 

### One-Hot Encoding

Para variáveis categóricas onde não existe relação ordinal, o Integer Encoding não é suficiente. Na verdade, usando essa codificação e permitindo que o modelo assuma uma ordenação natural entre categorias pode resultar em desempenho fraco ou resultados inesperados (previsões erradas entre categorias). Neste caso, One-Hot Encoding pode ser aplicada na representação de inteiros. Aqui é onde a variável codificada inteira é removida e uma nova variável binária é adicionada para cada valor inteiro. No exemplo de variável de cores, existem 3 categorias e, portanto, 3 binários
são necessárias. Por exemplo, as cores citadas acima, seriam codificadas usando one-Hot da seguinte forma:

* Vermelho - [1, 0 , 0]
* Azul     - [0, 1, 0]
* Verde    - [0, 0, 1]

In [3]:
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# Define os dados
data = ['cold', 'cold', 'warm', 'cold', 'hot', 'hot', 'warm', 'cold', 'warm', 'hot']
values = array(data)
print(values)

# Integer Encoding
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(values)
print("Integer Encoding")
print(integer_encoded)
print("\n")

# One-Hot Encoding
onehot_encoder = OneHotEncoder(sparse=False)
integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)
onehot_encoded = onehot_encoder.fit_transform(integer_encoded)
print("One-Hot Encoding")
print(onehot_encoded)
print("\n")

# Inverte o primeito exemplo
inverted = label_encoder.inverse_transform([argmax(onehot_encoded[0, :])])
print(inverted)

['cold' 'cold' 'warm' 'cold' 'hot' 'hot' 'warm' 'cold' 'warm' 'hot']
Integer Encoding
[0 0 2 0 1 1 2 0 2 1]


One-Hot Encoding
[[1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]]


['cold']


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


Ao executar o exemplo, primeiro imprime a sequência de labels. Isto é seguido pela codificação em inteiros de cada label.

Por padrão, a classe OneHotEncoder retornará uma codificação esparsa mais eficiente. Isso pode não ser adequado para algumas aplicações, como o uso com a biblioteca de aprendizado profundo do Keras. Nesse caso, desativamos o tipo de retorno esparso configurando o argumento sparse = false. Se recebermos uma previsão nesta codificação a quente de 3 valores, podemos facilmente inverter a transformação para o rótulo original.

Podemos ainda usar a função NumPy argmax() para localizar o índice da coluna com o maior valor. Isso pode ser enviado ao LabelEncoder para calcular uma transformação inversa de volta para um rótulo de texto. Isto é demonstrado no final do exemplo com a transformação inversa do primeiro exemplo codificado a quente voltou ao valor do rótulo frio. Mais uma vez, note que a entrada foi formatado para legibilidade.


## Preparação de Sequências Com Comprimentos Variados

### Padding

In [4]:
# Pre-Sequence Padding
from keras.preprocessing.sequence import pad_sequences

# Sequências
sequences = [
    [1, 2, 3, 4],
       [1, 2, 3],
             [1]
    ]

# Pad sequence
padded = pad_sequences(sequences)
print(padded)

Using TensorFlow backend.


[[1 2 3 4]
 [0 1 2 3]
 [0 0 0 1]]


In [5]:
# Post-Sequence Padding
from keras.preprocessing.sequence import pad_sequences

# Sequências
sequences = [
    [1, 2, 3, 4],
       [1, 2, 3],
             [1]
    ]

# Pad sequence
padded = pad_sequences(sequences, padding='post')
print(padded)

[[1 2 3 4]
 [1 2 3 0]
 [1 0 0 0]]


### Truncando Sequências

In [6]:
# Pre-Sequence Truncate
from keras.preprocessing.sequence import pad_sequences

# Sequências
sequences = [
    [1, 2, 3, 4],
       [1, 2, 3],
             [1]
    ]

# Truncando sequências
truncated= pad_sequences(sequences, maxlen=2)
print(truncated)

[[3 4]
 [2 3]
 [0 1]]


In [7]:
# Post-Sequence Truncate
from keras.preprocessing.sequence import pad_sequences

# Sequências
sequences = [
    [1, 2, 3, 4],
       [1, 2, 3],
             [1]
    ]

# Truncando sequências
truncated= pad_sequences(sequences, maxlen=2, truncating='post')
print(truncated)

[[1 2]
 [1 2]
 [0 1]]


## Definindo Sequências - Shift

In [8]:
from pandas import DataFrame

# Define a sequência
df = DataFrame()
df['t'] = [x for x in range(10)]
print(df)

   t
0  0
1  1
2  2
3  3
4  4
5  5
6  6
7  7
8  8
9  9


In [9]:
from pandas import DataFrame

# Define a sequência
df = DataFrame()
df['t'] = [x for x in range(10)]

# Shift forward
df['t-1'] = df['t'].shift(1)
print(df)

   t  t-1
0  0  NaN
1  1  0.0
2  2  1.0
3  3  2.0
4  4  3.0
5  5  4.0
6  6  5.0
7  7  6.0
8  8  7.0
9  9  8.0


In [10]:
from pandas import DataFrame

# Define a sequência
df = DataFrame()
df['t'] = [x for x in range(10)]

# Shift backward
df['t+1'] = df['t'].shift(-1)
print(df)

   t  t+1
0  0  1.0
1  1  2.0
2  2  3.0
3  3  4.0
4  4  5.0
5  5  6.0
6  6  7.0
7  7  8.0
8  8  9.0
9  9  NaN
