## Construindo uma Rede Neural Recorrente

São redes neurais arquitetadas para reconhecer padrões em sequência de dados, como textos, genomas, caligrafia, discursos falados, ou dados de séries uméricas que emanam de sensores, bolsas de valores, e agências governamentais. Esses algoritmos consideram tempo e sequência e, por conta disso, tem uma ordem temporal.

As redes neurais recorrentes tem sua efetividade tão alta para o caso de sequência pelo fato de serem estruturas com "memória".

<img src="images/RNN.png" style="width:700px;">

<!-- Here is my nifty citation {cite}`holdgraf_evidence_2014`. -->


**Notação**:
- Sobrescrito $[l]$ refere-se a um objeto relacionado à $l$-ésima camada. 

- Sobrescrito $(i)$ refere-se a um objeto relacionado com o $i$-ésimo exemplo. 

- Sobrescrito $\langle t \rangle$ refere-se à um objeto to  $t$-ésimo passo temporal.
    
- Subscrito $i$ refere-se à $i$-ésima entrada de um vetor.

- $n_x$: dimensão do vetor em cada passo temporal. Para o caso de palavras, será a dimensão do espaço onde as palavras estão representadas

- $T_x$: tamanho da sequência de entrada

- $n_a$: Número de elementos da ativação

- $g = g(x)$: função de ativação

**Exemplo**:  
- $a^{(2)[3]<4>}_5$ é a ativação do segundo exemplo (2), terceira camada [3], quarto passo temporal, e quinta entrada do vetor.



<a name='1'></a>
## 1 - Rede Neural Recorrente Básica


Para um dado exemplo dentro e um corpus, designado por $i$, vamos considerar a seguinte sequência: [$x^{(i)<1>}$ , $x^{(i)<2>}$ , $x^{(i)<3>}$ ,..., $x^{(i)<4>}$]. Mas o que é $x^{(i)<t>}$? A quantidade $x^{(i)<t>}$ é um vetor de dimensão $n_x$, cuja a $j$-ésima componente é $x^{(i)<t>}_{j}$.

**Exemplo**
Vamos considerar a seguinte sequência.

$$
    x^{(i)} = \text{"A casa é bela."}
$$


Logo:

$$
    x^{(i)<1>} = \text{"A"}, \
    x^{(i)<2>} = \text{"casa"}, \
    x^{(i)<3>} = \text{"é"}, \
    x^{(i)<4>} = \text{"bela"}. \
$$

Agora, vamos considerar o seguinte dicionário de palavras:
$$
D = \left[\begin{array}{c} \text{A} \\ \text{bela} \\ \text{casa} \\ \text{é} \\ \end{array}\right]
$$

Esse dicionário tem 4 elementos. Vamos representar essa quantidade pela notação $n_x$.

$$
    n_x = 4.
$$

Assim, podemos representar as palavras como:

$$
    x^{(i)<1>} = \left[\begin{array}{c} 1 \\ 0 \\ 0 \\ 0 \\ \end{array}\right], \
    x^{(i)<2>} = \left[\begin{array}{c} 0 \\ 0 \\ 1 \\ 0 \\ \end{array}\right], \
    x^{(i)<3>} = \left[\begin{array}{c} 0 \\ 0 \\ 0 \\ 1 \\ \end{array}\right], \
    x^{(i)<4>} = \left[\begin{array}{c} 0 \\ 1 \\ 0 \\ 0 \\ \end{array}\right], \
$$

Portanto, a frase "A casa é bela", será representada por:
$$
    x^{(i)} = 
    \left[\begin{array}{cccc}
    \text{"A"}\\
    \text{"casa"}\\
    \text{"é"}\\
    \text{"bela"}
    \end{array}\right] = 
    \left[\begin{array}{cccc}
    x^{(i)<1>}\\
    x^{(i)<2>}\\
    x^{(i)<3>}\\
    x^{(i)<4>}
    \end{array}\right]
    = \left[\begin{array}{cccc}
    1 & 0 & 0 & 0\\
    0 & 0 & 1 & 0\\
    0 & 0 & 0 & 1\\
    0 & 1 & 0 & 0
    \end{array}\right]
$$



<!-- $$
    x^{(i)} = 
    \left[\begin{array}{cccc}
    0 & 1 & \cdots & 0\\
    0 & 0 & \cdots & 1\\
    1 & 0 & \ddots & 0\\
    \vdots & \vdots & \vdots & \vdots\\
    0 & 1 & 0 & 0
    \end{array}\right]
$$ -->

Considerando um caso geral, teremos:


<img src="images/matrix.png" style="height:200px;">

In [1]:
import pandas as pd
import numpy as np

from datetime import datetime, timedelta
from tqdm import tqdm

In [2]:
%config IPCompleter.use_jedi=False

pd.options.display.max_columns = None

In [38]:
def softmax(x):
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum(axis=0)


n_a = 2
n_x = 4
n_y = 1

Wax = np.random.randn(n_a, n_x)

Waa = np.random.randn(n_a, n_a)

xt = np.random.randn(n_x,1)

at = np.random.randn(n_a,1)

ba = np.random.randn(n_a,1)

# Dimensão de $x^{<t>}$ = n_x



In [36]:
np.dot(Wax,xt) + np.dot(Waa,at) + ba

array([[1.25150744],
       [1.73784543]])

In [41]:
softmax([13,2])

array([9.99983299e-01, 1.67014218e-05])

In [14]:
x = np.array(
    [
        [1,],
        [0,],
        [0,],
        [0,],
    ]
)

np.transpose(x_t)

array([[1, 0, 0, 0]])

In [22]:
np.matmul(Wax, x)

array([[ 2.88493051],
       [-2.73064836]])

array([[-0.40568605,  0.56756403,  1.63334468, -0.61758611],
       [-0.32423653,  2.11101596,  0.21589122, -0.51540087],
       [-0.35836128,  0.75951775, -0.28494713,  0.0465506 ],
       [-0.66905754,  2.7682252 ,  0.31994799,  0.49097578],
       [ 0.8972995 ,  0.66977169,  1.21644911,  0.21844172]])