## Reti neurali

Schema di rete neurale per classificazione multiclasse ($t$ classi) su campioni con $d$ feautures. La rete ha uno strato nascosto con $h$ neuroni e uno strato nascosto con $t$ neuroni.

<img src="10_01_nn.png" width=500>

+ input: $\bold{x}=(x_1,...,x_d)\in \R^d$
+ Layer nascosto:
  $$ z_k^H=\sum_{i=1}^d w_{ki}^Hx_i+b_k^H,$$ 
  
  $$ a_k^H=\sigma(z_k^H),$$ 
  
  $$ \bold{a}^H=(a_1^H,...,a_h^H) \in \R^h$$
+ Layer output:
  
  $$ z_k^{OUT}=\sum_{k=1}^d w_{kj}^Ha_k^H+b_j^{OUT},$$ 
  
  $$ a_j^{OUT}=\sigma(z_j^{OUT}),$$ 
  
  $$ \bold{a}^{OUT}=(a_1^{OUT},...,a_t^{OUT}) \in \R^t$$

+ Etichette: $1,...,t$
+ Output: l'etichetta assegnata a $\bold{x}$ ovvero 
  $$\argmax_{i=1}^t \set{a_i^{OUT}}$$

## Algoritmo di propoagazione in avanti

$$
W^H =
\begin{bmatrix}
w^H_{11} & w^H_{12} & \cdots & w^H_{1d} \\
w^H_{21} & w^H_{22} & \cdots & w^H_{2d} \\
\vdots   & \vdots   & \ddots & \vdots   \\
w^H_{h1} & w^H_{h2} & \cdots & w^H_{hd}
\end{bmatrix}
$$

$$
W^{OUT} =
\begin{bmatrix}
w^{OUT}_{11} & w^{OUT}_{12} & \cdots & w^{OUT}_{1h} \\
w^{OUT}_{21} & w^{OUT}_{22} & \cdots & w^{OUT}_{2h} \\
\vdots       & \vdots       & \ddots & \vdots       \\
w^{OUT}_{t1} & w^{OUT}_{t2} & \cdots & w^{OUT}_{th}
\end{bmatrix}
$$

+ Attivazione strato nascosto
    + $$ \boldsymbol{z}^H = W^H \boldsymbol{x} + \boldsymbol{b}^H \in \mathbb{R}^h $$
    + $$  W^H \in \mathbb{R}^{h \times d} ,  \boldsymbol{x} \in \mathbb{R}^d $$

    + **Costo moltiplicazione matrice per vettore** : 
        $$O(h \cdot d)$$

    + **Costo attivazione sigmoide**:

        $$O(h)$$

+ Attivazione strato di output

  + $$\boldsymbol{z}^{OUT} = W^{OUT} \boldsymbol{a}^H + \boldsymbol{b}^{OUT} \in \mathbb{R}^t$$

  + $$ W^{OUT} \in \mathbb{R}^{t \times h} , \  \boldsymbol{a}^H \in \mathbb{R}^h $$

  + **Costo**:
    $$O(t \cdot h) $$

  + **Costo attivazione sigmoide**:

    $$O(t)$$


**Costo totale della forward pass:**

$$O(h \cdot d + h + t \cdot h + t) = O(h \cdot d + t \cdot h) $$

> Che equivale al **numero totale di tutti i pesi** della rete:
>
> - $( h \cdot d )$: pesi input → hidden  
> 
> - $( t \cdot h )$: pesi hidden → output

