# **MLP** (Multi-Layer Perceptron)
<img src="docs/images/image-5.png" alt="mlp" width="550" />

In [1]:
import numpy as np
import math as m
import pandas as pd

In [2]:
def standardize(X):

    mu = X.mean(axis=0)
    std = X.std(axis=0)
    std = np.where(std == 0, 1, std)

    XS = (X - mu) / std

    return XS

In [3]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("uciml/pima-indians-diabetes-database")
pima = pd.read_csv(f"{path}/diabetes.csv")
pima.head()

  from .autonotebook import tqdm as notebook_tqdm


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [4]:
len(pima.columns)

9

- EJEMPLO GPT para visualizar matrices de parametros

In [5]:
import numpy as np
import pandas as pd

# Ejemplo: 5 instancias √ó 8 features
X = np.random.randn(5, 8).round(2)
df_X = pd.DataFrame(X, columns=[f"x{i+1}" for i in range(8)])
print("Matriz de entrada X:")
print(df_X, "\n")

# Pesos capa oculta: supongamos h = 4 neuronas
W1 = np.random.randn(4, 8).round(2) 
df_W1 = pd.DataFrame(W1,
                     index=[f"h{j+1}" for j in range(4)],
                     columns=[f"x{i+1}" for i in range(8)])
print("Pesos W1 (4 √ó 8):")
print(df_W1, "\n")

# Bias de la capa oculta
b1 = np.random.randn(4).round(2)
print("Bias b1:", b1, "\n")

# Pesos capa salida: 2 neuronas √ó h
W2 = np.random.randn(2, 4).round(2)
df_W2 = pd.DataFrame(W2,
                     index=[f"o{k+1}" for k in range(2)],
                     columns=[f"h{j+1}" for j in range(4)])
print("Pesos W2 (2 √ó 4):")
print(df_W2, "\n")

# Bias de la capa salida
b2 = np.random.randn(2).round(2)
print("Bias b2:", b2)


Matriz de entrada X:
     x1    x2    x3    x4    x5    x6    x7    x8
0 -1.19  1.54  1.38 -0.03 -1.71 -0.22  0.26 -0.42
1  1.79 -0.00 -0.46  0.13 -1.69  0.65 -1.03  0.02
2 -1.21  0.40  0.94  2.83 -0.73 -0.90  0.99  1.14
3 -0.17 -0.98 -0.57 -1.20 -0.61 -0.37  0.08  0.53
4 -0.12  1.32  0.60 -1.41 -0.75 -0.92 -0.90  1.30 

Pesos W1 (4 √ó 8):
      x1    x2    x3    x4    x5    x6    x7    x8
h1  1.94 -0.14 -0.33  1.03  0.89 -0.21  1.50  0.37
h2  1.49 -0.75 -1.80 -0.64 -1.62 -0.54 -0.26 -0.92
h3  1.23 -0.65  1.02 -0.44  1.57 -0.39  0.62  0.83
h4 -0.81 -0.44  0.81 -0.93 -0.38 -0.46  1.40 -2.08 

Bias b1: [ 2.04 -0.01  0.78 -0.35] 

Pesos W2 (2 √ó 4):
      h1    h2    h3    h4
o1  0.09 -0.72  1.39  0.78
o2  1.47 -1.80  1.88  0.03 

Bias b2: [1.89 0.97]


## DESDE 0

## **ARQUITECTURA**

* **Entry: 8** atributos
* **Capas ocultas (H): 1**
* **Neuronas** Capa **H: 3**
* **Neuronas** Capa **Salida (O) = 2**

<div style="text-align:center;">
  <img src="docs/images/x1.png" alt="perceptron" width="500" />
</div>


## **DISPOSICI√ìN MATRICIAL OPTIMA**


### 1Ô∏è‚É£ **Entrada**

Cada dato de entrada (una instancia):

$$
x = \begin{bmatrix} x_1 & x_2 & x_3 & x_4 \end{bmatrix}_{(1,4)}
$$

Si usas un batch de tama√±o $N$:

$$
X \in \mathbb{R}^{N \times 4}
$$

---

### 2Ô∏è‚É£ **Capa oculta**

#### ¬∑ **Pesos**

$$
W^{(1)} \in \mathbb{R}^{3 \times 4}
$$

#### ¬∑ **Bias**

$$
b^{(1)} \in \mathbb{R}^{1 \times 3}
$$

#### ¬∑ **C√°lculo de preactivaci√≥n (z)**

$$
Z^{(1)} = X \cdot W^{(1)^T} + b^{(1)}
$$

$$
Z^{(1)} \in \mathbb{R}^{N \times 3}
$$

#### ¬∑ **C√°lculo de la salida (activaci√≥n)**

$$
H^{(1)} = f(Z^{(1)})
$$

$$
H^{(1)} \in \mathbb{R}^{N \times 3}
$$

Aqu√≠ $f$ puede ser, por ejemplo, ReLU o Sigmoid, seg√∫n la arquitectura.

---

### **3Ô∏è‚É£ Capa de salida**

  #### ¬∑ **Pesos**

$$
W^{(2)} \in \mathbb{R}^{2 \times 3}
$$

#### ¬∑ **Bias**

$$
b^{(2)} \in \mathbb{R}^{1 \times 2}
$$

#### ¬∑ **C√°lculo de preactivaci√≥n (z)**

$$
Z^{(2)} = H^{(1)} \cdot W^{(2)^T} + b^{(2)}
$$

$$
Z^{(2)} \in \mathbb{R}^{N \times 2}
$$

#### ¬∑ **C√°lculo de la salida final (activaci√≥n)**

$$
Y = g(Z^{(2)})
$$

$$
Y \in \mathbb{R}^{N \times 2}
$$

Aqu√≠ $g$ puede ser, por ejemplo:

* Softmax si es clasificaci√≥n multiclase
* Sigmoid si es binaria
* Identidad (sin activaci√≥n) si es regresi√≥n

---

### Resumen de dimensiones

| Elemento                     | Forma  |
| ---------------------------- | ------ |
| Entrada $X$                  | (N, 4) |
| Pesos $W^{(1)}$              | (3, 4) |
| Bias $b^{(1)}$               | (1, 3) |
| Preactivaci√≥n $Z^{(1)}$      | (N, 3) |
| Salida capa oculta $H^{(1)}$ | (N, 3) |
| Pesos $W^{(2)}$              | (2, 3) |
| Bias $b^{(2)}$               | (1, 2) |
| Preactivaci√≥n $Z^{(2)}$      | (N, 2) |
| Salida final $Y$             | (N, 2) |




In [6]:
Y = pima['Outcome']
X = pima.drop('Outcome', axis=1).values
X = standardize(X)
X

array([[ 0.63994726,  0.84832379,  0.14964075, ...,  0.20401277,
         0.46849198,  1.4259954 ],
       [-0.84488505, -1.12339636, -0.16054575, ..., -0.68442195,
        -0.36506078, -0.19067191],
       [ 1.23388019,  1.94372388, -0.26394125, ..., -1.10325546,
         0.60439732, -0.10558415],
       ...,
       [ 0.3429808 ,  0.00330087,  0.14964075, ..., -0.73518964,
        -0.68519336, -0.27575966],
       [-0.84488505,  0.1597866 , -0.47073225, ..., -0.24020459,
        -0.37110101,  1.17073215],
       [-0.84488505, -0.8730192 ,  0.04624525, ..., -0.20212881,
        -0.47378505, -0.87137393]], shape=(768, 8))

In [7]:
entry_len = X.shape[1]
H_len = 3
O_len = 2

## **INICIALIZACION DE PESOS Y BIAS**

### Inicializaci√≥n **Glorot** (Xavier)

##### Para **inicializar los pesos** de cada capa hay que cuidar el **rango y la distribucion** de los mismos para evitar desvanecimiento de pesos y gradientes, para ello se inicializan aleatoriamente pero teniendo en cuenta que:

`np.random.randn()` produce una **normal est√°ndar**: media‚ÄØ0 y varianza‚ÄØ1.
Si la dejamos tal cual y la red tiene muchas entradas por neurona, al multiplicar por la matriz de pesos el resultado se convierte en una **suma de muchos t√©rminos independientes**:

$$
z = \sum_{i=1}^{n_{\text{in}}} w_i\,x_i
$$

* Si $w_i$ y $x_i$ tienen varianza 1, entonces
  $\operatorname{Var}(z) = n_{\text{in}}\!\cdot\!1\cdot 1 = n_{\text{in}}$.
  Con decenas o centenas de entradas, la varianza de $z$ se dispara ‚áí activaciones enormes ‚áí sigmoides saturadas ‚áí gradientes \~‚ÄØ0 (vanishing).
  
* Si hacemos lo contrario (pesos demasiado peque√±os), la se√±al se aten√∫a ‚áí gradientes diminutos.

La soluci√≥n es **imponer** una varianza m√°s baja a los pesos.
Tomamos los n√∫meros de $\mathcal N(0,1)$ y **los multiplicamos por $\sqrt{\text{Var deseada}}$**.  Escalar por la desviaci√≥n est√°ndar es la forma directa de transformar una normal est√°ndar en otra normal con la varianza que queremos:

$$
w = \underbrace{\mathcal N(0,1)}_{\text{salida de randn}} \times \sqrt{\operatorname{Var}_{\text{deseada}}}
$$


Para una capa con  
- $n_{\text{in}}$: n√∫mero de neuronas que **entran**  
- $n_{\text{out}}$: n√∫mero de neuronas que **salen**

se fija la varianza de los pesos como

$$
\operatorname{Var}(W)=\frac{2}{n_{\text{in}}+n_{\text{out}}}.
$$

$$
w = \underbrace{\mathcal N(0,1)}_{\text{salida de randn}} \times \sqrt{\operatorname{Var}_{\text{(W)}}}
$$

Dos implementaciones habituales:

| Distribuci√≥n | F√≥rmula de muestreo |
|--------------|--------------------|
| Normal | $W_{ij}\sim\mathcal{N}\!\Bigl(0,\; \frac{2}{n_{\text{in}}+n_{\text{out}}}\Bigr)$ |

---
> **Python (normal):**
> ```python
> W = np.random.randn(n_in, n_out) * np.sqrt(2 / (n_in + n_out))
> ```






In [8]:

np.set_printoptions(
    precision=3,      # decimales
    suppress=True,    # evita notaci√≥n cient√≠fica
    linewidth=120,    # ancho de l√≠nea antes de saltar
    formatter={'float': '{:7.3f}'.format}  # ancho fijo
)

---

### **1. H**

#### **W_xh**

In [9]:
Wxh = np.random.randn(H_len, entry_len) * np.sqrt(2 / (8 + 3))
print('Original')
print(Wxh)
print('\nTraspuesta')
print(Wxh.T)

Original
[[  0.340  -0.182  -0.133   0.196  -0.368  -0.010   0.528  -0.353]
 [  0.305  -0.036   0.014   0.616   0.046   0.539  -0.277  -0.387]
 [ -0.160   0.469  -0.054  -0.745  -0.119   0.060   0.057   0.813]]

Traspuesta
[[  0.340   0.305  -0.160]
 [ -0.182  -0.036   0.469]
 [ -0.133   0.014  -0.054]
 [  0.196   0.616  -0.745]
 [ -0.368   0.046  -0.119]
 [ -0.010   0.539   0.060]
 [  0.528  -0.277   0.057]
 [ -0.353  -0.387   0.813]]


#### **B_h**

In [10]:
Bh = np.zeros(H_len)
Bh

array([  0.000,   0.000,   0.000])

### **2. O**

#### **W_ho**

In [11]:
Who = np.random.randn(O_len, H_len) * np.sqrt(2 / (3 + 2))
print('Original')
print(Who)
print('\nTraspuesta')
print(Who.T)

Original
[[ -0.810  -0.035  -0.113]
 [ -0.176   0.546   0.355]]

Traspuesta
[[ -0.810  -0.176]
 [ -0.035   0.546]
 [ -0.113   0.355]]


#### **B_o**

In [12]:
Bo = np.zeros(O_len)
Bo

array([  0.000,   0.000])

## **PROCESO LINEAL PARA CADA INSTANCIA**

In [13]:
X_1 = np.array(X[0])
X_1.shape

(8,)

### FORMULAS

### * **Z**

$$
Z^{(N)} = X \cdot W^{(N)^T} + b^{(N)}
$$

In [14]:
'''
X_1 = (1, 8)
Wxh = (3, 8) -->  Wxh.T = (8, 3)
Bh = (1, 3)
'''
#   X_1 @ Wxh = (1,3)

Zh = (X_1 @ Wxh.T) + Bh
Zh

array([  0.217,   0.122,   0.892])

In [15]:
def Z(X, W, B):

    z = (X @ W.T) + B

    return z  

### * Sigmoid **ùõî(z)**

$$
ùõî(z)=\dfrac{1}{1+e^{-z}}  
$$

Version **equivalente para evitar overflow en la sigmoide:**

$$
\sigma(z)=
\begin{cases}
\dfrac{1}{1+e^{-z}}, & z\ge 0,\\[8pt]
\dfrac{e^{\,z}}{1+e^{\,z}}, & z<0.
\end{cases}
$$

* Para $z\ge 0$ el t√©rmino $e^{-z}$ es peque√±o y no explota.
* Para $z<0$ se usa $e^{\,z}$, que es diminuto (no desborda), y la fracci√≥n es algebraicamente equivalente a la sigmoide original.

In [16]:
# FORMULA SIGMOIDE ESTABLE PERCEPTRON, PARA Z ESCALAR
def sigmoid_esc(Z):

        # f = 1 / (1 + m.exp(-NET))      <--   overflows if NET > abs(700)
        # return f

        if Z >= 0:
            return 1 / (1 + m.exp(-Z))
        else:
            ez = m.exp(Z)        #  z is negative ‚Üí ez ‚â™ 1
            return ez / (1 + ez)


# FORMULA SIGMOIDE ESTABLE PARA Z
def sigmoid(Z):

    # # 1) Condici√≥n booleana para cada elemento
    # cond = Z >= 0

    # # 2) Dos expresiones, una para Z >= 0 y otra para Z < 0
    # pos = 1 / (1 + np.exp(-Z))          # parte 'positiva'
    # neg = np.exp(Z) / (1 + np.exp(Z))   # parte 'negativa'

    # # 3) Mezclamos los dos resultados seg√∫n la condici√≥n
    # result = np.where(cond, pos, neg)

    # # 4) Devolvemos la matriz/vector escalar con la sigmoide
    # return result
    
    result = np.where(
        Z >= 0,                      # Pej:  # [False False  True  True  True]
        1 / (1 + np.exp(-Z)),        # Array con la fx para Z >= 0 (A)
        np.exp(Z) / (1 + np.exp(Z))  # Array con la fx para Z < 0  (B)
        )                              # Result = B[i], B[i], A[i], A[i], A[i] 
    
    return result

In [17]:
Yh = sigmoid(Zh)
Yh

array([  0.554,   0.531,   0.709])

### * **Soft-Max s(z)** 
Transforma un vector de logits $\mathbf{z} = (z_1,\;z_2,\dots,z_K)$ en un vector de probabilidades $\mathbf{p} = (p_1,\;p_2,\dots,p_K)$:

$$
\boxed{%
p_k \;=\;
\frac{e^{\,z_k}}
     {\displaystyle\sum_{j=1}^{K} e^{\,z_j}}
}
\quad\text{para } k = 1,\dots,K.
$$

* Cada $p_k\in(0,1)$ y $\sum_{k} p_k = 1$.
* En la pr√°ctica se suele restar $\max_j z_j$ a todos los logits antes de exponenciar para evitar desbordamientos num√©ricos; matem√°ticamente no cambia el resultado porque el factor com√∫n se cancela.


    * Understanding matrix operations and numpy

In [18]:
# Yh = (1, 3)
# Who = (2, 3)  -->  Who.T = (3,2)
# 
# Zo = Yh @ Who.T + B0 = (1,2)

print(Yh)
print()
print(Who.T)

Zo = Z(Yh, Who, Bo)
Zo

[  0.554   0.531   0.709]

[[ -0.810  -0.176]
 [ -0.035   0.546]
 [ -0.113   0.355]]


array([ -0.548,   0.444])

In [19]:
arr = np.array(Zo)
ezs = np.exp(arr)
ezs

array([  0.578,   1.559])

    * Keepdims

In [20]:
Zi = np.array([[ 2. ,  1. , 0. ],
              [-1. ,  3. , 2.5],
              [ 0.1, -0.2, 4. ],
              [ 5. ,  2. , 1. ]])


m = np.max(Zi, axis=1)          # ‚Üí shape (4,)
print(m)

print()
m = np.max(Zi, axis=1, keepdims=True)   # ‚Üí shape (4,1)
print(m)

[  2.000   3.000   4.000   5.000]

[[  2.000]
 [  3.000]
 [  4.000]
 [  5.000]]


In [21]:
# Soft-Max manual
Zo_shift = Zo - np.max(Zo, keepdims=True) # Normalizar para evitar overflow del exp


ezs = np.exp(Zo_shift)
print(ezs)

sumezs = np.sum(ezs, keepdims=True)
print(sumezs)

sf_mx = ezs / sumezs
print(sf_mx)

[  0.371   1.000]
[  1.371]
[  0.271   0.729]


In [22]:
def soft_max(Z):    
    ezs = np.exp(Z)

    suma =  np.sum(ezs)

    result = ezs / suma

    return result


# Capaz de tratar vectores 2D, no solo vectores 1D para cuando tratemos con batch
def softmax_stable(Z, axis=None):
    """
    Soft-max estable:
    - Z puede ser escalar, vector 1-D o matriz 2-D
    - axis = None      ‚Üí vector 1-D   (por defecto)
      axis = 1         ‚Üí filas de una matriz (batch, clases)
    """
    # 1) Restamos el m√°ximo para evitar overflow de exp
    Z_shift = Z - np.max(Z, axis=axis, keepdims=True)

    # 2) Exponenciamos
    e = np.exp(Z_shift)

    # 3) Normalizamos dividiendo por la suma a lo largo del eje elegido, mantenemos la dimensionalidad
    sum_e = np.sum(e, axis=axis, keepdims=True)
    return e / sum_e


In [23]:
Yo = softmax_stable(Zo)
Yo

array([  0.271,   0.729])

### * LOSS FUNCTION: **MSE**

La **f√≥rmula del Error Cuadr√°tico Medio (ECM / MSE)** para un conjunto de $n$ observaciones es

$$
\text{ECM}\;=\;\frac{1}{n}\,\sum_{i=1}^{n}\bigl(\hat{o}_i - y_i\bigr)^2,
$$

donde

* $y_i$‚ÄÉes el valor real (objetivo) de la muestra $i$,
* $\hat{o}_i$‚ÄÇes la predicci√≥n del modelo para esa misma muestra,
* $n$‚ÄÉes el n√∫mero total de muestras.


Necesitamos una codificacion `One-Hot` para nuestros valores de y esperados, es decir el target:

- **0 = [1, 0]**
- **1 = [0, 1]**

In [24]:
Y.head()

0    1
1    0
2    1
3    0
4    1
Name: Outcome, dtype: int64

In [25]:
Ycoded = np.eye(2)[Y]
Ycoded

array([[  0.000,   1.000],
       [  1.000,   0.000],
       [  0.000,   1.000],
       ...,
       [  1.000,   0.000],
       [  0.000,   1.000],
       [  1.000,   0.000]], shape=(768, 2))

In [26]:
Yo.shape

(2,)

In [27]:
Yo

array([  0.271,   0.729])

In [28]:
def SME(Y, tgt, axis=None):
    """
    Mean Squared Error:
    - axis=None  ‚Üí escalar con el error medio global
    - axis=0     ‚Üí medio por columna (clase)  // No se usa // 
    - axis=1     ‚Üí medio por fila   (ejemplo)
    """
    return np.mean((Y - tgt) ** 2, axis=axis)

sme = SME(Yo, Ycoded[0])
sme

np.float64(0.07319148013782374)

### **Cross-Entropy** 
--> **MSE es mas problematica y menos eficiente**, provoca ajustes m√°s lentos y puede dificultar el aprendizaje, sobre todo cuando ùêæ aumenta.

**soft-max + entrop√≠a cruzada** simplifica much√≠simo los c√°lculos y, en clasificaci√≥n, suele aprender mejor que MSE.

---

$$
L \;=\; -\sum_{k=1}^{K} y_k \,\log p_k,
\qquad
p_k=\text{softmax}(z_k),\;
y_k\in\{0,1\}.
$$



In [29]:

def cross_entropy(Yo, tgt, axis=None):
    """
    Cross-entropy loss for soft-max outputs.

    Parameters
    ----------
    Yo   : np.ndarray
        Predicted probabilities (output of the soft-max)  
        Shape: (*batch*, n_classes) or any shape compatible with `tgt`.

    tgt  : np.ndarray
        One-hot (or soft) target distribution of the same shape as `Yo`.
        
    axis : int or None, optional
        Dimension along which to sum the class-wise losses.  
        ‚Ä¢ None  ‚Üí returns a single scalar (sum over all elements)  
        ‚Ä¢ int   ‚Üí returns a loss per slice (e.g. per sample if `axis=1`).

    Returns
    -------
    loss : float or np.ndarray
        Cross-entropy value(s).
    """

    # -------- estabilidad num√©rica --------------------------------------
    eps = 1e-12                  # peque√±o > 0   ‚Üí   evita log(0) = ‚àí‚àû
    # np.clip limita Yo al rango [eps, 1]:
    #  ‚Ä¢ valores < eps  se elevan a eps
    #  ‚Ä¢ valores entre  eps y 1  quedan igual
    #  ‚Ä¢ el techo 1 es redundante (soft-max ‚â§ 1) pero inofensivo
    safe_p = np.clip(Yo, eps, 1.0)

    # -------- p√©rdida ----------------------------------------------------
    # F√≥rmula:  L = ‚àí Œ£  y_k ¬∑ log(p_k)
    # Se multiplica elemento a elemento y luego se suma en 'axis'
    return -np.sum(tgt * np.log(safe_p), axis=axis)

## **BACKPROPAGATION**

### **Gradiente en la capa de salida**

Despu√©s de combinar **la derivada de la p√©rdida con el Jacobiano de la soft-max** sale un resultado sorprendentemente limpio:

$$
\boxed{\displaystyle
\frac{\partial L}{\partial z_k}\;=\;\hat{o}_k - y_k
}
$$

Es decir, el **vector** que retro-propagas desde la salida es

$$
\delta^{(\text{salida})} = \hat{o}_k \;-\; \mathbf{y}.
$$

#### Ventajas pr√°cticas

| Ventaja                     | Por qu√©                                                      |
| --------------------------- | ------------------------------------------------------------ |
| **F√≥rmula simple**          | No necesitas multiplicaciones adicionales ni sumas cruzadas. |
| **Gradiente estable**       | Evita saturaci√≥n cuando $p_k\to 0$ o $1$.                    |
| **Convergencia m√°s r√°pida** | Empuja con m√°s fuerza al principio del entrenamiento.        |




In [30]:
def grad_O(tgt, Yo):

    grad = Yo - tgt

    return grad

In [None]:
gradO = grad_O(Y[0], Yo)
gradO

array([ -0.729,  -0.271])

#### ¬∑ C√≥mo encaja en tu implementaci√≥n instancia-a-instancia

1. **Forward (una fila)**

   * $z^{(1)} = W^{(1)}x + b^{(1)}$ ‚Üí ReLU ‚Üí $a^{(1)}$
   * $z^{(2)} = W^{(2)}a^{(1)} + b^{(2)}$
   * $p = \text{softmax}(z^{(2)})$

2. **P√©rdida**
   $L = -\sum_k y_k\log p_k$.

3. **Delta salida**
   $\delta^{(2)} = p - y$.

4. **Delta oculta**
   $\delta^{(1)} = \bigl(W^{(2)}\bigr)^{\!\top}\delta^{(2)} \;\odot\; \mathbf{1}[z^{(1)}>0]$.

5. **Gradientes y actualizaci√≥n**

   * $\nabla_{W^{(2)}} = \delta^{(2)} a^{(1)\top}$;‚ÄÉ$b^{(2)}\gets b^{(2)}-\eta\,\delta^{(2)}$
   * $\nabla_{W^{(1)}} = \delta^{(1)} x^{\top}$;‚ÄÉ$b^{(1)}\gets b^{(1)}-\eta\,\delta^{(1)}$

*(con tu tasa de aprendizaje $\eta$)*


**Gradient at the Hidden Layer**

#### **Forma escalar ‚Äì neurona por neurona**

$$
\boxed{%
\displaystyle
\delta_i^{(l)}
  \;=\;
\sigma'\!\bigl(z_i^{(l)}\bigr)\,
\sum_{k=1}^{d_{l+1}} 
        w_{ik}^{(l+1)} \;\delta_k^{(l+1)}
}\tag{1}
$$

* $z_i^{(l)}$ ‚ÄÉ‚ÄÉ‚Üí entrada lineal de la neurona $i$ de la capa $l$
* $\sigma'(z)=a(1-a)$ ‚ÄÉ‚ÄÉ‚Üí derivada de la sigmoide en ese punto
* $w_{ik}^{(l+1)}$ ‚ÄÉ‚ÄÉ‚Üí peso que va **de la neurona $i$** a la neurona $k$ de la capa $l\!+\!1$
* $\delta_k^{(l+1)}$ ‚ÄÉ‚ÄÉ‚Üí culpa ya calculada en la capa siguiente

> **Lectura:** ‚ÄúToma la culpa de cada neurona de la capa superior, p√©sala con su conexi√≥n hacia m√≠ y, finalmente, aten√∫a el resultado por la pendiente local de mi sigmoide‚Äù.

---

#### **Forma matricial compacta ‚Äì toda la capa de un golpe**

$$
\boxed{%
\displaystyle
\delta^{(l)}
  = \bigl(W^{(l+1)}\bigr)^{\!\top} \,\delta^{(l+1)}
    \;\odot\;
    a^{(l)}\!\bigl(1-a^{(l)}\bigr)
}\tag{2}
$$

* $W^{(l+1)}\in\mathbb{R}^{d_{l+1}\times d_{l}}$
  (filas = neuronas de la capa $l\!+\!1$, columnas = neuronas de la capa $l$)
* $\delta^{(l)}$, $a^{(l)}$ ‚ÄÉ‚ÄÉ‚Üí vectores de longitud $d_{l}$
* $\odot$ ‚ÄÉ‚ÄÉ‚Üí producto elemento a elemento (Hadamard)

---

### ¬øPor qu√© usar la versi√≥n matricial?

| Punto                        | Escalar (ec. 1)                                                                                         | Matricial (ec. 2)                                                                                                                            |
| ---------------------------- | ------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------- |
| **Implementaci√≥n en Python** | Necesita **dos bucles**: uno sobre las neuronas $i$ y otro sobre las neuronas $k$ de la capa siguiente. | Una √∫nica l√≠nea vectorizada (`delta = W.T @ delta_next * (a * (1-a))`).                                                                      |
| **Rendimiento**              | Los bucles Python son lentos y no aprovechan BLAS.                                                      | `@` (matmul) llama a BLAS/BLIS/OpenBLAS en C; ejecuta la multiplicaci√≥n en bloque, mucho m√°s r√°pido.                                         |
| **Escalabilidad**            | Aumenta cuadr√°ticamente el n¬∫ de operaciones visibles en el c√≥digo.                                     | El mismo c√≥digo funciona para cualquier tama√±o de capa (o incluso un *batch* entero a√±adiendo una dimensi√≥n extra).                          |
| **Legibilidad macro**        | Buen para entender la mec√°nica neurona-a-neurona.                                                       | Expresa de golpe la **Regla de la Cadena** para toda la capa: ‚Äúrepartir culpa‚Äù ($W^\top\delta$) y ‚Äúmodular por la pendiente‚Äù ($\sigma'(z)$). |

En la pr√°ctica se calcula siempre la forma (2); la forma (1) es la misma operaci√≥n desglosada para que veas exactamente qu√© ocurre en cada neurona.

---

#### Derivada de la sigmoide

$$
\sigma(z) = \frac{1}{1+e^{-z}}, 
\qquad
\sigma'(z) = \sigma(z)\,\bigl(1-\sigma(z)\bigr) = a\,(1-a).
$$


In [32]:
def grad_H(Yh, gradO):

    grad = (Yh*(1-Yh)) * (gradO @ Who)
    return grad

gradH = grad_H(Yh, gradO)
gradH

array([  0.158,  -0.030,  -0.003])

## **Updating W & B**

In [33]:
print(f'Vector de gradientes capa oculta (gradH):\n{gradH}')
print(f'Shape(gradH):\n{gradH.shape}')
print()
print(f'Vector entrada a la red (Xi):\n{X_1}')
print(f'Shape(Xi):\n{X_1.shape}')


Vector de gradientes capa oculta (gradH):
[  0.158  -0.030  -0.003]
Shape(gradH):
(3,)

Vector entrada a la red (Xi):
[  0.640   0.848   0.150   0.907  -0.693   0.204   0.468   1.426]
Shape(Xi):
(8,)


In [34]:
def update_weights(Xi, Wxh, Who, Yh, gradH, gradO):

    Wxh = Wxh - (0.1 * np.outer(gradH, Xi))  # No puedo usar @ tal cual porque son dos vectores
    Who = Who - (0.1 * np.outer(gradO, Yh))  # planos, no se pueden trasponer como tal.

    return Wxh, Who



print('OG')
print(Wxh, '\n\n', Who)

Wxh, Who = update_weights(X_1, Wxh, Who, Yh, gradH, gradO)
print()
print('Updated')
print(Wxh, '\n\n', Who)

OG
[[  0.340  -0.182  -0.133   0.196  -0.368  -0.010   0.528  -0.353]
 [  0.305  -0.036   0.014   0.616   0.046   0.539  -0.277  -0.387]
 [ -0.160   0.469  -0.054  -0.745  -0.119   0.060   0.057   0.813]] 

 [[ -0.810  -0.035  -0.113]
 [ -0.176   0.546   0.355]]

Updated
[[  0.330  -0.195  -0.135   0.182  -0.357  -0.013   0.520  -0.376]
 [  0.307  -0.034   0.014   0.619   0.044   0.540  -0.276  -0.383]
 [ -0.160   0.469  -0.054  -0.744  -0.119   0.060   0.057   0.813]] 

 [[ -0.769   0.003  -0.062]
 [ -0.161   0.561   0.374]]


In [35]:
def update_bias(Bh, Bo, gradH, gradO):

    Bh = Bh - 0.1 * gradH
    Bo = Bo - 0.1 * gradO

    return Bh, Bo

print('OG')
print(Bh, '\n\n', Bo)

Bh, Bo = update_bias(Bh, Bo, gradH, gradO)

print()
print('Updated')
print(Bh, '\n\n', Bo)

OG
[  0.000   0.000   0.000] 

 [  0.000   0.000]

Updated
[ -0.016   0.003   0.000] 

 [  0.073   0.027]


# **CLEAN**

In [36]:
class MLP:
   
    def __init__(self, tr_data, tr_target, alpha, epoch):
        
        self.X = self.standardize(tr_data)
        self.target = np.asarray(tr_target, dtype=float)
        self.Ycoded = np.eye(2)[self.target]
        self.alpha = alpha

        self.epoch = epoch

        self.n_inputs = self.X.shape[1]
        self.W = np.random.uniform(-0.5, 0.5, self.n_inputs)
        self.U = np.random.uniform(0, 1)
