<h1 style='font-size:40px'> Processing Sequences Using RNNs and CNNs</h1>
<div> 
    <ul style='font-size:20px'>
        <li> 
            As Redes Neurais Recorrentes (RNN's) são uma modalidade de modelos de Deep Learning que demonstraram bastante sucesso em previsões de séries temporais extensas e NLP.
        </li>
        <li> 
            No entanto, elas apresentam dois grandes problemas: instabilidade de gradientes e uma memória de curto-prazo bastante limitada.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Recurrent Neurons and Layers</h2>
<div> 
    <ul style='font-size:20px'>
        <li> 
            O principal componente das RNN's são os neurônios recorrentes. Eles funcionam de maneira bastante similar às camadas dos MLP's, com o acréscimo de eles somarem o output da última iteração ao produto da função linear.
            <center style='margin-top:20px'> 
                <img src='recurrent_function.png'>
            </center>
        </li>
        <li style='margin-top:20px'> 
            Podemos ilustrar a passagem do output $y_{t-1}$ por um diagrama.
            <center style='margin-top:20px'>
                <img src='rnn_unrolled.png'>
            </center>
        </li>
        <li style='margin-top:20px'> 
            Observe que $Y_{t-1}$ é uma função de $X_{t-1}$ e $Y_{t-2}$. Este, por sua vez, é uma função de $X_{t-2}$ e $Y_{t-3}$. Então, as iterações anteriores sempre impactarão o resultado da atual.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Memory Cell</h2>
<div> 
    <ul style='font-size:20px'>
        <li> 
            As camadas recorrentes também são conhecidas como células de memória, por conta da sua capacidade de memorizar os outputs de iterações anteriores.
        </li>
        <li> 
            Aqui é distinguido também o significado de state e output de uma memory cell. O state é a função composta $h_{(t)}=f(h_{(t-1)}, x_{(t)})$ que vimos acima e ele nem sempre será o output da célula, como sugere a representação abaixo.
            <center style='margin-top:20px'> 
                <img src='cell_state_outputs.png'>
            </center>
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Input and Output Sequences</h2>
<div> 
    <ul style='font-size:20px'>
        <li> 
            Existem inúmeras modalidades de RNN's, sendo cada uma delas utilizada em tarefas distintas.  
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Sequence-to-Sequence Networks </h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Recebe uma sequência de inputs para lançar uma sequência de outputs. Bastante utilizada na previsão de séries temporais.
            <center style='margin-top:20px'> 
                <img src='seq_seq.png'>
            </center>
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Sequence-to-Vector Networks </h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Essa RNN propõe receber uma sequência de inputs e levar em conta apenas o output da última iteração. 
        </li> 
        <li>
            Por exemplo, podemos abastecê-la com uma sequência de palavras e fazê-la lançar um score sentimental (0=insatisfeito, 1=muito satisfeito) 
            <center style='margin-top:20px'> 
                <img src='seq_vec.png'>
            </center>
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Vector-to-Sequence Networks </h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Capaz de gerar sequências de dados com base no abastecimento de um único vetor. 
        </li> 
        <li>
            Essa modalidade pode ser usada em sistemas de descrição de fotografias.
            <center style='margin-top:20px'> 
                <img src='vec_seq.png'>
            </center>
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Encoder-Decoder Networks </h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            É uma rede híbrida que possui uma RNN sequence-to-vector cujo output alimenta outra RNN vector-to-sequence.
        </li>
        <li>
            Pode ser bastante útil em sistemas de tradução de frases.
        </li>
        <li>
            Essa arquitetura inspirou o surgimento dos Transformers, modelos considerados SOTA principalmente no âmbito do NLP. 
            <center style='margin-top:20px'> 
                <img src='encoder_decoder.png'>
            </center>
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Forecasting a Time Series</h2>
<div> 
    <ul style='font-size:20px'>
        <li>  
            Uma série temporal consiste em uma sequência de dados ao longo de um período de tempo.
        </li>
        <li>
            Essa série pode envolver uma única sequência de dados (univarial), ou várias (multivarial). Por exemplo, poderíamos criar uma RNN para prever o Dividend Yield de uma companhia, ou para estimar o valor de uma série de métricas sobre a sua saúde financeira (Dívida, Lucro, etc).
        </li>
        <li>
            Podemos tanto usar nossos modelos para prever valores futuros da sequência, quanto números passados, no caso de eles constarem como nulos na tabela. Esse último caso de uso leva o nome de imputação.
        </li>
    </ul>
</div>

In [12]:
# Vamos fazer uma breve demonstração do uso de RNN's em Séries Temporais.

import numpy as np

def generate_time_series(batch_size:int, n_steps:int)->np.array:
    '''
        Gera uma quantidade `batch_size` de séries temporais com `n_steps` de comprimento.
        
        Parâmetros
        ----------
        `batch_size`: int
            Número de séries temporais.
        `n_steps`: int
            Tamanho das séries.
        
        Retorna
        -------
        Um `np.array` com os dados das séries temporais. Elas serão a soma de duas funções seno mais um noise Gaussiano.
    '''
    np.random.seed(42)
    freq1, freq2, offsets1, offsets2 = np.random.rand(4, batch_size, 1)
    time = np.linspace(0, 1, n_steps)
    series = .5 * np.sin((time-offsets1) * (freq1*10+10))
    series += .2 * np.sin((time-offsets2) * (freq2*10+10))
    series += .1 * (np.random.rand(batch_size, n_steps) - 0.5)
    return series[..., np.newaxis].astype(np.float32)

In [13]:
# Montando 10000 séries temporais de 51 períodos.
# Nossa target será o último valor dessas séries.
n_steps = 50 
series = generate_time_series(10000, n_steps+1)
X_train, y_train = series[:7000, :n_steps], series[:7000, -1]
X_valid, y_valid = series[7000:9000, :n_steps], series[7000:9000, -1]
X_test, y_test = series[9000:, :n_steps], series[9000:, -1]

<div> 
    <ul style='font-size:20px'>
        <li>  
            Os dados de séries temporais costumam ser armazenados em matrizes 3-D, do formato $[\text{n-series, n-steps, dimensionality}]$. No caso de séries multivariais, dimensionality sempre será maior do que 1.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Baseline Metrics</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Vamos criar aqui algumas baselines que representarão a menor performance para o modelo.
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Naïve Approach</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Esse método consiste em avaliar a performance, caso o modelo apenas preveja o último valor de cada série de $X$ (ou o penúltimo número da série como um todo). 
        </li>
    </ul>
</div>

In [14]:
from tensorflow.keras.metrics import mean_squared_error
from tensorflow.math import reduce_mean
y_pred = X_valid[:, -1]
mean_squared_error(y_valid.flatten(), y_pred.flatten())

<tf.Tensor: shape=(), dtype=float32, numpy=0.014811385>

<p style='color:red'> Grifado p.669</p>