# Redes Neuronales Artificiales (ANN) vs. Redes Neuronales Informadas por la F√≠sica (PINNs)

**Autores:** Tabita Catal√°n, Tom√°s Banduc, David Ortiz y Francisco Sahli ‚Äî 2025

Accede al trabajo fundacional de las PINNs [aqu√≠](https://www.sciencedirect.com/science/article/pii/S0021999118307125).

### Introducci√≥n

En la lecci√≥n anterior se construy√≥ una PINN b√°sica siguiendo un esquema estructurado de seis pasos, aplicado a un sistema lineal cl√°sico (masa‚Äìresorte‚Äìamortiguador) con soluci√≥n anal√≠tica conocida. Ese ejercicio permiti√≥ establecer el marco conceptual y computacional de las PINNs, as√≠ como el rol de la f√≠sica en la funci√≥n de p√©rdida.

En esta lecci√≥n se profundiza en ese marco mediante una comparaci√≥n directa entre **Redes Neuronales Artificiales (ANNs)** y **Redes Neuronales Informadas por la F√≠sica (PINNs)**. Mientras que las ANNs aprenden la soluci√≥n exclusivamente a partir de datos, las PINNs incorporan expl√≠citamente las ecuaciones gobernantes del sistema, lo que introduce restricciones f√≠sicas durante el entrenamiento.

La comparaci√≥n se realiza sobre el modelo del **p√©ndulo oscilante**, un sistema no lineal que representa un incremento natural de complejidad respecto al caso lineal estudiado previamente.

### Resumen de la actividad

Se implementan dos aproximaciones para resolver el modelo matem√°tico no lineal de un p√©ndulo oscilante:

- una ANN entrenada √∫nicamente a partir de datos,
- y una PINN construida siguiendo el mismo esquema de seis pasos introducido en la lecci√≥n anterior.

Este planteamiento permite aislar el efecto de la informaci√≥n f√≠sica en la funci√≥n de p√©rdida y comparar ambos enfoques en t√©rminos de desempe√±o, estabilidad y capacidad de generalizaci√≥n.

### Objetivos de la actividad

Al finalizar esta actividad, ser√°s capaz de:

- Identificar las diferencias conceptuales y pr√°cticas entre ANNs y PINNs.  
- Analizar el impacto de incorporar la f√≠sica del sistema en el proceso de entrenamiento.  
- Implementar y entrenar ANNs y PINNs en PyTorch para un mismo problema no lineal.  
- Evaluar comparativamente la calidad de las soluciones obtenidas.


## Modelo matem√°tico para describir un p√©ndulo oscilante

Queremos resolver el problema matem√°tico relacionado con el **p√©ndulo oscilante** [(wiki)](https://en.wikipedia.org/wiki/Pendulum_(mechanics)):

| ![GIF](../figures/Oscillating_pendulum.gif?raw=1) | <img src="../figures/Pendulum_gravity.svg?raw=1" alt="Diagrama del proyecto" width="300"/> |
|-------------------------------------------|-------------------------------------------|
| Vectores de velocidad y aceleraci√≥n del p√©ndulo  | Diagrama de fuerzas |


**Supuestos:**

- La varilla es r√≠gida y sin masa [(Tarea - el caso de una cuerda el√°stica)](https://en.wikipedia.org/wiki/Elastic_pendulum#:~:text=In%20physics%20and%20mathematics%2C%20in,%2Ddimensional%20spring%2Dmass%20system.).
- El peso es una masa puntual.  
- Dos dimensiones [(Tarea - una dimensi√≥n adicional de movimiento)](https://www.instagram.com/reel/CffUr64PjCx/?igsh=MWlmM2FscG9oYnp6bw%3D%3D).
- No hay resistencia del aire [(Tarea - inmersi√≥n en un fluido)](https://www.youtube.com/watch?v=erveOJD_qv4&ab_channel=Lettherebemath).
- El campo gravitacional es uniforme y el soporte no se mueve.

Nos interesa encontrar el √°ngulo vertical $\theta(t) \in [0, 2\pi)$ tal que:

$$
\frac{d^2\theta}{dt^2}+\frac{g}{l}\sin\theta=0,\quad\theta(0)=\theta_0,\quad\theta'(0)=0,\quad t\in\mathbb{R},
$$

donde $g\approx 9.81[m/s^2]$, $l$ es el largo de la varilla y $t$ la variable temporal.  

**Repaso de conceptos de ecuaciones diferenciales:**

- ¬øPor qu√© esta es una ecuaci√≥n diferencial no lineal? ¬øQu√© supuestos deber√≠an hacerse para linealizar el modelo?
- ¬øEs una ecuaci√≥n diferencial ordinaria (EDO) o una ecuaci√≥n diferencial parcial (EDP)?  
- ¬øCu√°l es el orden? ¬øcu√°l es el grado?  

Un m√©todo √∫til es convertir el modelo en un sistema acoplado de EDOs:  

$$
\begin{align*}
\frac{d\theta}{dt} &= \omega, \quad \text{(velocidad angular)}\\
\frac{d\omega}{dt} & = -\frac{g}{l}\sin\theta, \quad \text{(aceleraci√≥n angular)}
\end{align*}
$$

### Flujo de Trabajo  
1. Calcular la soluci√≥n num√©rica del modelo no lineal del p√©ndulo oscilante y preparaci√≥n de los datos de entrenamiento a√±adiendo ruido, remuestreando y limitando el tiempo para simular un escenario real.  
2. Definir el modelo ANN utilizando la arquitectura de PyTorch y entrenar con los datos preparados. Graficar la soluci√≥n.  
3. Definir el modelo PINN utilizando la arquitectura de PyTorch y entrenar con los datos preparados. Graficar la soluci√≥n.  
4. Comparar las soluciones obtenidas con ambas arquitecturas. 

## Configuraci√≥n Inicial  

Comenzamos importando algunos paquetes √∫tiles y definiendo algunas funciones.

In [None]:
%matplotlib inline

In [None]:
# Import NumPy for numerical operations
import numpy as np
# Import PyTorch for building and training neural networks
import torch
import torch.nn as nn
import torch.optim as optim
# Import Matplotlib for plotting
import matplotlib.pyplot as plt
import matplotlib as mpl
import time

# Ignore Warning Messages
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Setup (device + plots)
def get_device() -> str:
    return "cuda" if torch.cuda.is_available() else \
           "mps"  if torch.backends.mps.is_available() else "cpu"

def set_mpl_style(gray: str = "#5c5c5c") -> None:
    mpl.rcParams.update({
        "image.cmap": "viridis",
        "text.color": gray, "xtick.color": gray, "ytick.color": gray,
        "axes.labelcolor": gray, "axes.edgecolor": gray,
        "axes.spines.right": False, "axes.spines.top": False,
        "axes.formatter.use_mathtext": True, "axes.unicode_minus": False,
        "font.size": 15, "interactive": False, "font.family": "sans-serif",
        "legend.loc": "best", "text.usetex": False, "mathtext.fontset": "stix",
    })

device = get_device()
print(f"Using {device} device")
set_mpl_style()

# Metrics
def add_noise(signal, snr_db):
    noise_power = np.mean(signal**2) / (10**(snr_db / 10))
    noise = np.sqrt(noise_power) * np.random.randn(*signal.shape)
    return signal + noise, noise

def calculate_snr(signal, noise):
    signal, noise = np.asarray(signal), np.asarray(noise)
    return 10 * np.log10(np.mean(signal**2) / np.mean(noise**2))

def relative_l2_error(u_num: torch.Tensor, u_ref: torch.Tensor) -> torch.Tensor:
    return torch.norm(u_num - u_ref) / torch.norm(u_ref)

# Autodiff helper
def grad(outputs: torch.Tensor, inputs: torch.Tensor) -> torch.Tensor:
    """d(outputs)/d(inputs) with create_graph=True."""
    return torch.autograd.grad(
        outputs, inputs,
        grad_outputs=torch.ones_like(outputs),
        create_graph=True
    )[0]

# Plotting
def plot_comparison(t: torch.Tensor, theta_true, theta_pred: torch.Tensor, loss) -> None:
    t_np = t.detach().cpu().numpy().ravel()
    pred_np = theta_pred.detach().cpu().numpy().ravel()
    true_np = np.asarray(theta_true).ravel()
    diff = np.abs(true_np - pred_np)

    fig, axs = plt.subplots(1, 2, figsize=(12, 5))
    axs[0].plot(t_np, true_np, label=r'$\theta(t)$ (numerical)')
    axs[0].plot(t_np, pred_np, label=r'$\theta_{\mathrm{pred}}(t)$')
    axs[0].set(title='Numerical vs Predicted', xlabel=r'Time $(s)$', 
               ylabel='Amplitude', ylim=(-1, 1.3))
    axs[0].legend(frameon=False)

    axs[1].plot(t_np, diff)
    axs[1].set(title='Absolute Difference', xlabel=r'Time $(s)$', 
               ylabel=r'$|\theta - \theta_{\mathrm{pred}}|$')
    fig.tight_layout()
    plt.show()

    fig, ax = plt.subplots(1, 1, figsize=(6, 3))
    ax.plot(loss)
    ax.set(title='Training Progress', xlabel='Iteration', 
           ylabel='Loss', xscale='log', yscale='log')
    ax.grid(True)
    fig.tight_layout()
    plt.show()

## 1. Soluci√≥n num√©rica del p√©ndulo oscilante y preparaci√≥n de los datos

El objetivo de esta etapa es generar datos sint√©ticos del p√©ndulo oscilante que se utilizar√°n como referencia durante el entrenamiento, bajo los supuestos establecidos previamente.

### 1.1 Soluci√≥n num√©rica

La soluci√≥n num√©rica del modelo se obtiene mediante el m√©todo de [Runge-Kutta de cuarto orden](https://en.wikipedia.org/wiki/Runge%E2%80%93Kutta_methods), implementado en `scipy`. Para ello se definen los par√°metros del sistema, el modelo matem√°tico del p√©ndulo y el dominio temporal de simulaci√≥n.


In [None]:
from scipy.integrate import solve_ivp

# Par√°metros del sistema
g, L = 9.81, 1.0 # Gravedad (m/s^2) y longitud de la varilla (m) 
theta0, omega0 = np.pi / 4, 0.0 # condiciones iniciales, √°ngulo (rad) y velocidad angular (rad/s) 
fs, T = 100, 10 # Frecuencia de muestreo (Hz) y tiempo total (s) 

t_eval = np.linspace(0, T, fs * T)
y0 = [theta0, omega0]

# definimos el sistema de ecuaciones diferenciales
def pendulum(t, y):
    theta, omega = y
    dtheta_dt = omega
    domega_dt = -(g / L) * np.sin(theta)
    return [dtheta_dt, domega_dt]

# Soluci√≥n num√©rica
num_sol = solve_ivp(pendulum, (0, T), y0, t_eval=t_eval, method="RK45")
theta_num, omega_num = num_sol.y

# Gr√°fica
plt.figure(figsize=(12, 5))
plt.plot(t_eval, theta_num, label=r'$\theta(t)$ [rad]')
plt.plot(t_eval, omega_num, label=r'$\omega(t)$ [rad/s]')
plt.xlabel('Time [s]')
plt.ylim(-2.5, 3.3)
plt.title('Nonlinear Pendulum Solution')
plt.legend(frameon=False)
plt.tight_layout()
plt.show()

### 1.2 Preparaci√≥n de los datos de entrenamiento <a id="data_prep"></a>

La soluci√≥n num√©rica se utiliza como **datos de entrenamiento**, interpretados como mediciones provenientes de un sensor. Para simular un escenario experimental realista, se a√±ade ruido gaussiano, se remuestrean los datos y se recorta la se√±al a un intervalo de $2.5\,\text{s}$.

Como medida cuantitativa del nivel de distorsi√≥n introducido, se calcula la relaci√≥n se√±al‚Äìruido

$$
\mathrm{SNR} = 10 \log_{10}\!\left(\frac{P_{\text{signal}}}{P_{\text{noise}}}\right),
$$

donde $P_{\text{signal}}$ y $P_{\text{noise}}$ corresponden a la potencia de la se√±al y del ruido, respectivamente. Notar que si $P_{\text{signal}}=P_{\text{noise}}$, $SNR = 0dB$, y si $P_{\text{signal}}>>P_{\text{noise}}$, $SNR<0dB$. 

Para este ejercicio consideramos $SNR = 10dB$ y la funci√≥n `add_noise` para agregar el ruido Gaussiano.

En lo que sigue, los datos de entrenamiento ruidosos se denotan por $\theta_{\text{data}}(t)$.


In [None]:
# Add gaussian noise
theta_noisy, noise = add_noise(theta_num, 10)  
print(f'SNR: {calculate_snr(theta_noisy, noise):.4f} dB')

t_max = 2.5           # seconds
step = 5              # downsampling factor
idx = slice(0, int(t_max * fs), step)

theta_data = theta_noisy[idx]
t_data = t_eval[idx]

# We graph the observed data
plt.figure(figsize=(12, 6))
plt.plot(t_eval, theta_num, label=r'Angular Displacement (model) $\theta(t)$ ')
plt.plot(t_data, theta_data, label=r'Training data (measures) $\theta_{data}(t)$ ')
plt.xlabel(r'Time $[s]$')
plt.ylabel(r'Angular displacement $[rad]$')
plt.ylim(-1,1.3)
plt.legend(loc='best', frameon=False)
plt.title('Training data')
plt.grid(False)
plt.show()

## 2. Entrenando la Red Neuronal Artificial

Entrenaremos la red neuronal artificial para aproximar directamente la soluci√≥n de la ecuaci√≥n diferencial, es decir,

$$
\theta_{NN}(t; \Theta) \approx \theta(t)
$$

donde $\Theta$ son los par√°metros entrenables de la ANN. Utilizaremos `PyTorch` para definir la red y la entrenaremos con el optimizador ADAM. Adem√°s, convertiremos el dominio temporal y las observaciones a `torch.tensors`. 

### Funci√≥n de p√©rdida 

Para entrenar la ANN necesitamos datos y una funci√≥n de p√©rdida. Nuestros datos ser√°n observaciones ruidosas de la soluci√≥n $\theta_{data}(t)$, obtenidas en puntos de colocaci√≥n $\{t_i\}_N$ elegidos del dominio. Utilizamos como funci√≥n de p√©rdida el error cuadr√°tico medio ($MSE$) entre estas observaciones y la evaluaci√≥n de la ANN en los mismos puntos de colocaci√≥n, es decir,

$$
\mathcal{L}(\Theta) := \lambda_1 MSE(\theta_{NN}(t; \Theta), \theta_{data}(t)) = \frac{\lambda_1}{N}\sum_i (\theta_{NN}(t_i; \Theta) - \theta_{data}(t_i))^2
$$

donde $\lambda_1 \in \mathbb{R}^+$ es un peso positivo y $N$ es el n√∫mero de muestras. El entrenamiento se realiza minimizando la funci√≥n de p√©rdida $\mathcal{L}(\Theta)$, es decir,

$$
\min_{\Theta \in \mathbb{R}} \mathcal{L}(\Theta) \rightarrow 0
$$

A continuaci√≥n se define la clase de la red neuronal que se utilizar√° tanto en la ANN como en la PINN.

> **üí° Nota**  
> Para efectos comparativos de esta lecci√≥n, los hiperpar√°metros de la red neuronal se mantendr√°n fijos: n√∫mero de capas ocultas, n√∫mero de neuronas por capa, funci√≥n de activaci√≥n `tanh`, tasa de aprendizaje y n√∫mero de √©pocas.


In [None]:
# Define a neural network class with user defined layers and neurons
class NeuralNetwork(nn.Module):

    def __init__(self, hlayers):
        super(NeuralNetwork, self).__init__()

        layers = []
        for i in range(len(hlayers[:-2])):
            layers.append(nn.Linear(hlayers[i], hlayers[i+1]))
            layers.append(nn.Tanh())
        layers.append(nn.Linear(hlayers[-2], hlayers[-1]))

        self.layers = nn.Sequential(*layers)
        self.init_params()

    def init_params(self):
        """Xavier Glorot parameter initialization of the Neural Network
        """
        def init_normal(m):
            if isinstance(m, nn.Linear):
                nn.init.xavier_normal_(m.weight) # Xavier
        self.apply(init_normal)

    def forward(self, x):
        return self.layers(x)
    

#%% Hyperpar√°metros para el entrenamiento
torch.manual_seed(123)
hidden_layers = [1, 50, 50, 50, 1]  # Hiperpar√°metros de la red ()
learning_rate = 0.001               # 
training_iter = 50000


Y el c√≥digo completo para el entrenamiento de la ANN

In [None]:
#===============================================================================
# ETAPA 1: INFORMACI√ìN DEL MODELO F√çSICO
#===============================================================================
# Numerical theta to test Numpy array to pytorch tensor
theta_test = torch.tensor(theta_num, device=device, requires_grad=True).view(-1,1).float()
# Numerical theta to train Numpy array to pytorch tensor
theta_data = torch.tensor(theta_data, device=device, requires_grad=True).view(-1,1).float()

#===============================================================================
# ETAPA 2: DEFINICI√ìN DEL DOMINIO 
#===============================================================================
# Convert the NumPy arrays to PyTorch tensors and add an extra dimension
# test time Numpy array to Pytorch tensor
t_test = torch.tensor(t_eval, device=device, requires_grad=True).view(-1,1).float()
# train time Numpy array to Pytorch tensor
t_data = torch.tensor(t_data, device=device, requires_grad=True).view(-1,1).float()

#===============================================================================
# ETAPA 3: CREACI√ìN DE LA RED NEURONAL SURROGANTE 
#===============================================================================
# Create an instance of the neural network
theta_ann = NeuralNetwork(hidden_layers).to(device)
nparams = sum(p.numel() for p in theta_ann.parameters() if p.requires_grad)
print(f'Number of trainable parameters: {nparams}')

#==========================================================================
# ETAPA 5: DEFINICI√ìN DE LA FUNCI√ìN DE COSTO BASADA √öNICAMENTE EN LOS DATOS
#==========================================================================
# Define a loss function (Mean Squared Error) for training the network
MSE_func = nn.MSELoss()

def NeuralNetworkLoss(forward_pass, t, theta_data, lambda1 = 1):

    theta_nn = forward_pass(t)
    data_loss = lambda1 * MSE_func(theta_nn, theta_data)

    return  data_loss

#==========================================================================
# ETAPA 6: DEFINICI√ìN DEl OPTIMIZADOR
#==========================================================================
optimizer = optim.Adam(theta_ann.parameters(), lr=learning_rate,
                         betas= (0.99,0.999), eps = 1e-8)

#==========================================================================
# CICLO DE ENTRENAMIENTO
#==========================================================================
# Initialize a list to store the loss values
loss_values_ann = []

# Start the timer
start_time = time.time()

# Training the neural network
for i in range(training_iter):

    optimizer.zero_grad()   # clear gradients for next train

    # input x and predict based on x
    loss = NeuralNetworkLoss(theta_ann,
                             t_data,
                             theta_data)    # must be (1. nn output, 2. target)

    # Append the current loss value to the list
    loss_values_ann.append(loss.item())

    if i % 1000 == 0:  # print every 100 iterations
        print(f"Iteration {i}: Loss {loss.item()}")

    loss.backward() # compute gradients (backpropagation)
    optimizer.step() # update the ANN weigths

# Stop the timer and calculate the elapsed time
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Training time: {elapsed_time} seconds")

graficamos los resultados

In [None]:
theta_pred_ann = theta_ann(t_test).to(device)

print(f'Relative error: {relative_l2_error(theta_pred_ann, theta_test)}')

plot_comparison(t_test, theta_num, theta_pred_ann, loss_values_ann)

## 3. Entrenamiento de la Red Neuronal Informada por la F√≠sica (PINN)

En esta etapa se entrena una PINN para aproximar la soluci√≥n de la ecuaci√≥n diferencial ordinaria del p√©ndulo,

$$
\theta_{\text{PINN}}(t;\Theta) \approx \theta(t).
$$

La arquitectura de la red es la misma utilizada previamente para la ANN. La diferencia radica en el proceso de entrenamiento: adem√°s de las observaciones ruidosas, se incorporan expl√≠citamente las ecuaciones f√≠sicas que gobiernan la din√°mica del sistema.

### Funci√≥n de p√©rdida informada por la f√≠sica

Recordemos el modelo del p√©ndulo y definamos el residuo de la ecuaci√≥n diferencial, junto con la condici√≥n inicial sobre el desplazamiento y la velocidad angular. La soluci√≥n anal√≠tica $\theta(t)$ se reemplaza por la salida de la red $\theta_{\text{PINN}}(t;\Theta)$:

$$
\begin{aligned}
f_{\text{ode}}(t;\theta_{\text{PINN}}) &=
\frac{d^2 \theta_{\text{PINN}}(t;\Theta)}{dt^2}
+ \frac{g}{l}\sin\!\big(\theta_{\text{PINN}}(t;\Theta)\big), \\
g_{\text{ic}}(0;\theta_{\text{PINN}}) &=
\theta_{\text{PINN}}(0;\Theta) - \theta_0, \\
h_{\text{bc}}(0;\theta_{\text{PINN}}) &=
\frac{d\theta_{\text{PINN}}(0;\Theta)}{dt}.
\end{aligned}
$$

La funci√≥n de p√©rdida informada por la f√≠sica se construye utilizando el error cuadr√°tico medio (MSE) como una combinaci√≥n ponderada de t√©rminos f√≠sicos y de datos:

$$
\begin{aligned}
\mathcal{L}(\Theta) =\;&
\frac{\lambda_1}{N}\sum_i f_{\text{ode}}(t_i;\theta_{\text{PINN}})^2 \\
+ & \lambda_2\, g_{\text{ic}}(0;\theta_{\text{PINN}})^2 \\
+ & \lambda_3\, h_{\text{bc}}(0;\theta_{\text{PINN}})^2 \\
+ &\frac{\lambda_4}{N}\sum_i
\big(\theta_{\text{PINN}}(t_i;\Theta) - \theta_{\text{data}}(t_i)\big)^2,
\end{aligned}
$$

donde $\lambda_{1,2,3,4} \in \mathbb{R}^+$ son coeficientes de ponderaci√≥n y $N$ es el n√∫mero de muestras.

> **üí° Nota**  
> Si la funci√≥n de p√©rdida incluye √∫nicamente t√©rminos f√≠sicos, el esquema es *data-free*.  
> Al incorporar t√©rminos asociados a datos observados, el enfoque pasa a ser *data-driven*.

El entrenamiento de la PINN se realiza resolviendo el problema de optimizaci√≥n

$$
\min_{\Theta} \; \mathcal{L}(\Theta) \rightarrow 0.
$$

> **üí° Nota**  
> La diferenciaci√≥n autom√°tica (`torch.autograd`) permite calcular las derivadas de la salida de la red respecto a la entrada temporal, lo que resulta esencial para evaluar los t√©rminos f√≠sicos de la funci√≥n de p√©rdida.


In [None]:
#===============================================================================
# ETAPA 1: DEFINICI√ìN DE LOS PAR√ÅMETROS (MODELO F√çSICO)
#===============================================================================
# Par√°metros del sistema
g, L = 9.81, 1.0 # Gravedad (m/s^2) y longitud de la varilla (m) 
theta0, omega0 = np.pi / 4, 0.0 # condiciones iniciales, √°ngulo (rad) y velocidad angular (rad/s) 

# Numerical theta to test Numpy array to pytorch tensor
theta_test = torch.tensor(theta_num, device=device, requires_grad=True).view(-1,1).float()
# Numerical theta to train Numpy array to pytorch tensor
theta_data = torch.tensor(theta_data, device=device, requires_grad=True).view(-1,1).float()

#===============================================================================
# ETAPA 2: DEFINICI√ìN DEL DOMINIO 
#===============================================================================
# Convert the NumPy arrays to PyTorch tensors and add an extra dimension
# test time Numpy array to Pytorch tensor
t_test = torch.tensor(t_eval, device=device, requires_grad=True).view(-1,1).float()
# train time Numpy array to Pytorch tensor
t_data = torch.tensor(t_data, device=device, requires_grad=True).view(-1,1).float()

#===============================================================================
# ETAPA 3: CREACI√ìN DE LA RED NEURONAL SURROGANTE 
#===============================================================================
# Create an instance of the neural network
theta_pinn = NeuralNetwork(hidden_layers).to(device)
nparams = sum(p.numel() for p in theta_pinn.parameters() if p.requires_grad)
print(f'Number of trainable parameters: {nparams}')

#===============================================================================
# ETAPA 4 Y 5: DEFINICI√ìN DE LA FUNCI√ìN DE COSTO BASADA EN LA F√çSICA
#===============================================================================
# Define a loss function (Mean Squared Error) for training the network
MSE_func = nn.MSELoss()

# derivatives of the ANN
def PINNLoss(forward_pass, t_phys, t_data, theta_data, 
             lambda1 = 1, lambda2 = 1, lambda3 = 1, lambda4 = 1):

    # ANN output, first and second derivatives
    theta_pinn1 = forward_pass(t_phys)
    theta_pinn_dt = grad(theta_pinn1, t_phys)
    theta_pinn_ddt = grad(theta_pinn_dt, t_phys)
    
    f_ode = theta_pinn_ddt + (g/L) * torch.sin(theta_pinn1)
    ODE_loss = lambda1 * MSE_func(f_ode, torch.zeros_like(f_ode)) 
    
    # Define t = 0 for boundary an initial conditions
    t0 = torch.tensor(0., device=device, requires_grad=True).view(-1,1)
    
    g_ic = forward_pass(t0)
    IC_loss = lambda2 * MSE_func(g_ic, torch.ones_like(g_ic)*theta0)
    
    h_bc = grad(forward_pass(t0),t0)
    BC_loss = lambda3 * MSE_func(h_bc, torch.zeros_like(h_bc))
    
    theta_nn2 = forward_pass(t_data)
    data_loss = lambda4 * MSE_func(theta_nn2, theta_data)
    
    return ODE_loss + IC_loss + BC_loss + data_loss

#===============================================================================
# ETAPA 6: DEFINICI√ìN DEl OPTIMIZADOR
#===============================================================================
# Define an optimizer (Adam) for training the network
optimizer = optim.Adam(theta_pinn.parameters(), lr=learning_rate,
                       betas= (0.99,0.999), eps = 1e-8)

#===============================================================================
# CICLO DE ENTRENAMIENTO
#===============================================================================
# Initialize a list to store the loss values
loss_values_pinn = []

# Start the timer
start_time = time.time()

# Training the neural network
for i in range(training_iter):

    optimizer.zero_grad()   # clear gradients for next train

    # input x and predict based on x
    loss = PINNLoss(theta_pinn, t_test, t_data, theta_data)

    # Append the current loss value to the list
    loss_values_pinn.append(loss.item())

    if i % 1000 == 0:  # print every 100 iterations
        print(f"Iteration {i}: Loss {loss.item()}")

    loss.backward() # compute gradients (backpropagation)
    optimizer.step() # update the ANN weigths

# Stop the timer and calculate the elapsed time
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Training time: {elapsed_time} seconds")

Nuevamente, graficamos los resultados

In [None]:
theta_pred_pinn = theta_pinn(t_test)

print(f'Relative error: {relative_l2_error(theta_pred_pinn, theta_test)}')

plot_comparison(t_test, theta_num, theta_pred_pinn, loss_values_pinn)

## 4. Comparaci√≥n

In [None]:
plot_comparison(t_test, theta_num, theta_pred_ann, loss_values_ann)
plot_comparison(t_test, theta_num, theta_pred_pinn, loss_values_pinn)

## **Ejercicios**:

1. Elimina la p√©rdida de los datos del entrenamiento de la PINN. ¬øA√∫n se puede obtener la soluci√≥n?
2. Incrementa y reduce el par√°metro `std_deviation` en la secci√≥n [Preparaci√≥n de los datos de entrenamiento](#data_prep) para cambiar el `SNR`. Tambi√©n cambia las variables `resample` y `ctime`, y compara los resultados tras entrenar la ANN y la PINN.
3. Ajusta los valores de los par√°metros `lambdas` en la funci√≥n de p√©rdida para ambas redes y analiza su impacto.
4. Modifica la tasa de aprendizaje (`learning_rate`) del optimizador y el n√∫mero de iteraciones de entrenamiento, y eval√∫a el efecto en el desempe√±o.
5. Cambia el n√∫mero de capas ocultas (`hidden_layers`), neuronas y funciones de activaci√≥n de la red neuronal, y observa el impacto en los resultados.



1. **¬øEn qu√© formas son ventajosas las PINNs comparadas con los m√©todos num√©ricos tradicionales, considerando el mayor tiempo requerido para el entrenamiento?**  
   <details>
   <summary>Respuesta</summary>
   Las PINNs ofrecen varias ventajas frente a los m√©todos num√©ricos tradicionales, a pesar de su tiempo de entrenamiento generalmente m√°s largo. Una ventaja clave es su flexibilidad para manejar dominios complejos, de alta dimensionalidad y geometr√≠as irregulares sin requerir mallas estructuradas. Las PINNs tambi√©n pueden incorporar f√°cilmente restricciones o datos adicionales, como mediciones experimentales o condiciones de frontera. A diferencia de muchos m√©todos num√©ricos, una vez entrenadas, las PINNs generalizan bien a diferentes condiciones iniciales y de frontera, lo que puede hacerlas m√°s vers√°tiles en escenarios que requieren simulaciones repetidas o ajustes de par√°metros. Esta flexibilidad y adaptabilidad las convierten en una herramienta poderosa para ciertas tareas de modelado informadas por f√≠sica donde los m√©todos tradicionales pueden estar limitados.
   </details>