# Linear y softmax finales

Por último tenemos dos capas más, una `Linear` y una `Softmax`

<div style="text-align:center;">
  <img src="Imagenes/transformer_architecture_model_linear.png" alt="Add and norm" style="width:425px;height:626px;">
  <img src="Imagenes/transformer_architecture_model_softmax.png" alt="Encoder Feed Forward" style="width:425px;height:626px;">
</div>


## Linear

Como hemos dicho el transformer se pensó como un traductor de un idioma a otro, así que ponte que lo queremos usar para hacer un traductor del español al inglés. Como hemos visto hasta ahora, la matriz que sale del decoder es una matriz de tamaño $\left(m_D \times n_D\right)$, pero esto es una matriz de secuencias, nosotros lo que necesitamos es predecir la siguiente palabra. Pues con el módulo `Linear` lo que se hace es contruir un última red fully connected de manera que a la salida tengamos un vector con un montón de posibles tokens del inglés

Y ¿cuántos tokens tenemos que tener en ese vector? Todos los que tengamos, es decir, si hemos definido dos millones de tokens para definir todas las posibles palabras del ingĺes, a la salida deberemos tener un vector con esos dos millones de tokens, a esto normalmente se le llama `vocab size` o tamaño de nuestro vocabulario.

Por lo que la capa `Linear` es una red fully connected que transformará nuestra matriz de tamaño $\left(m_E \times n_E\right)$ a un vector de tamaño `vocab size`. Y lo hará con unos pesos que en función de la matriz que salga del trnasformer, tras todos los mecanismos de atención, haga que tengan más valor unos tokens que otros

## Softmax

Y de todos los posibles tokens de nuestro vocabulario ¿con cuál nos qudamos? Pues para eso tenemos el último módulo `Softmax` con el que convertimos todos los elementos de nuestro vector en probabilidades, de manera que nos quedamos con el token que tenga más probabilidad

## Implementación

Creamos dos clases para estos últimos módulos

In [1]:
import torch
import torch.nn as nn

class Linear(nn.Module):
    def __init__(self, dim_embedding, vocab_size):
        super().__init__()
        self.linear = nn.Linear(dim_embedding, vocab_size)
        
    def forward(self, x):
        x = self.linear(x)
        return x

class Softmax(nn.Module):
    def __init__(self):
        super().__init__()
        self.softmax = nn.Softmax(dim=1)
        
    def forward(self, x):
        x = self.softmax(x)
        return x