# Vectorización

Pensemos en una red neuronal de alimentación hacia adelante (_feedforward_) de cualquier número de capas.

<center>
<img src="./figuras/Red4Capas.png/">
</center>

La fórmula general vectorizada para calcular el valor de la capa siguiente se puede expresar como:
\begin{align*}
  A^{(l+1)} = g(A^{(l)} W^{(l)} + B^{(l)})
\end{align*}
donde:
* $A$ es la matriz de valores de activación, un ejemplar por cada renglón.
* $W$ es la matriz de pesos que conectan dos capas sucesivas.
* $B$ es el vector de sesgos (o los pesos conectados a $a_0$).

## Conjunto de datos

Tipicamente en el conjunto de datos, representado por la matriz $X$, los renglones son los ejemplares y las columnas corresponden a las características de entrada.  Y estos datos se convierten en la primer matriz de valores de activación:
\begin{align}
 A^{(0)} = X = \begin{bmatrix}
      x_{11} & ... & x_{1n} \\
      & ... & \\
      x_{m1} & ... & x_{mn}
     \end{bmatrix}
\end{align}

Por ejemplo:

In [2]:
#!pip3 install scikit-learn

In [6]:
from sklearn.datasets import load_wine
import pandas as pd

In [7]:
data = load_wine()
data_frame = pd.DataFrame(data=data.data, columns=data.feature_names)

In [13]:
data_frame

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


Una vez asignada la primer matriz $A$, la activación de las capas siguientes se realiza aplicando siempre la misma fórmula.

In [14]:
A0 = X = data_frame.to_numpy()

In [11]:
print(X)

[[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]


## Matriz de pesos

\begin{align}
 W &= \begin{bmatrix}w_{11} & ... & w_{1n'} \\
 ... \\
 w_{n1} & ... & w_{nn'}
 \end{bmatrix}
 &
 B &= \begin{bmatrix}
   w_{01} & ... & w_{0n'}
 \end{bmatrix}
\end{align}
* Los pesos que conectan a las neuronas de la capa $l$ con la $j$-ésima neurona de la capa $l+1$ se encuentran en la columna $j$.
* Los pesos que conectan a la $i$-ésima neurona de la capa $l$ con las neuronas de la capa $l+1$ se encuentran en el renglón $i$.

Sustituyendo en la fórmula:
\begin{align}
A^{(l+1)} &= g(A^{(l)} W^{(l)} + B^{(l)}) \\
\begin{bmatrix}
      a_{11} & ... & a_{1n'} \\
      & ... & \\
      a_{m1} & ... & a_{mn'}
     \end{bmatrix}
     &= g\left(\begin{bmatrix}
      a_{11} & ... & a_{1n} \\
      & ... & \\
      a_{m1} & ... & a_{mn}
     \end{bmatrix}
     \begin{bmatrix}w_{11} & ... & w_{1n'} \\
 ... \\
 w_{n1} & ... & w_{nn'}
 \end{bmatrix}+ \begin{bmatrix}
   w_{01} & ... & w_{0n'}
 \end{bmatrix}\right)
\end{align}

## Ejemplo
Sea la función booleana XAND:

| $x_1$ | $x_2$ | $XAND$ |
|-------|-------|--------|
|   0   |   0   |    1   |
|   0   |   1   |    0   |
|   1   |   0   |    0   |
|   1   |   1   |    1   |

Dada la red XAND:
<center>
<img src="./figuras/xand.png/">
</center>
las matrices de pesos son:

In [15]:
import numpy as np

In [25]:
W0 = np.array([[-5.12, 3.38],
               [-5.1, 3.37]])
B0 = np.array([[1.72, -5.25]])

In [26]:
A0 = X = np.array([[0, 0],
                   [0, 1],
                   [1, 0],
                   [1, 1]])

In [27]:
def sigma(z):
    return 1 / (1 + np.exp(-z))

In [28]:
A1 = sigma(np.dot(A0, W0) + B0)

In [29]:
print(A1)

[[8.48128836e-01 5.22012569e-03]
 [3.29263948e-02 1.32388874e-01]
 [3.22954647e-02 1.33541723e-01]
 [2.03426978e-04 8.17574476e-01]]


## Ejercicio

Calcula A2, que es la salida de la red.  Verifica que obtengas los valores correspondientes a la función XAND.