# PINNs para el sistema masa‚Äìresorte‚Äìamortiguador

**Autor:** David Ortiz ‚Äî 2025

Accede al trabajo fundacional de las PINNs [aqu√≠](https://www.sciencedirect.com/science/article/pii/S0021999118307125).

Este tutorial est√° inspirado en [este workshop](https://github.com/benmoseley/harmonic-oscillator-pinn-workshop), desarrollado por Ben Moseley.

### Introducci√≥n
Las Redes Neuronales Informadas por la F√≠sica (PINNs) integran ecuaciones gobernantes directamente en la funci√≥n de p√©rdida mediante diferenciaci√≥n autom√°tica. Este enfoque reduce la dependencia de grandes vol√∫menes de datos y aporta coherencia f√≠sica a la soluci√≥n aprendida.  
En esta actividad se aplican PINNs al modelo lineal cl√°sico **masa‚Äìresorte‚Äìamortiguador**, para el cual existe una soluci√≥n anal√≠tica conocida, lo que permite evaluar cuantitativamente el desempe√±o del m√©todo.

### Objetivos de aprendizaje
- Implementar una PINN desde cero en PyTorch para resolver el sistema masa‚Äìresorte‚Äìamortiguador siguiendo un esquema estructurado de seis etapas.  
- Identificar y comprender los distintos t√©rminos de la funci√≥n de p√©rdida de una PINN, incluyendo el residuo de la EDO y las condiciones iniciales.  
- Analizar el proceso de entrenamiento de una PINN y el uso de diferenciaci√≥n autom√°tica para calcular derivadas de la red neuronal.

### Resumen de la actividad
Se construye una PINN para el sistema masa‚Äìresorte‚Äìamortiguador siguiendo los seis pasos introducidos en el taller te√≥rico:

<img src="../figures/pinns_new_scheme.png" width="800" height="400">

- (1) formular el modelo matem√°tico;  
- (2) definir el dominio del problema;  
- (3) implementar una ANN como aproximador de la soluci√≥n $x(t)$;  
- (4) emplear diferenciaci√≥n autom√°tica para obtener derivadas;  
- (5) dise√±ar la funci√≥n de p√©rdida con t√©rminos f√≠sicos (residuo de la EDO y condici√≥n inicial);  
- (6) seleccionar y configurar un optimizador (Adam).

Finalmente, se ejecuta el ciclo de entrenamiento y se comparan los resultados obtenidos con la soluci√≥n exacta.


## 0. Importamos funciones 

In [None]:
%matplotlib inline

In [None]:
# Import NumPy for numerical operations
import numpy as np
# Import PyTorch for building and training neural networks
import torch
import torch.nn as nn
import torch.optim as optim
# Import Matplotlib for plotting
import matplotlib.pyplot as plt
import matplotlib as mpl
# Import the time module to time our training process
import time
# Ignore Warning Messages
import warnings
warnings.filterwarnings("ignore")


In [None]:
# Setup (device + plots)
def get_device() -> str:
    return "cuda" if torch.cuda.is_available() else \
           "mps"  if torch.backends.mps.is_available() else "cpu"

def set_mpl_style(gray: str = "#5c5c5c") -> None:
    mpl.rcParams.update({
        "image.cmap": "viridis",
        "text.color": gray, "xtick.color": gray, "ytick.color": gray,
        "axes.labelcolor": gray, "axes.edgecolor": gray,
        "axes.spines.right": False, "axes.spines.top": False,
        "axes.formatter.use_mathtext": True, "axes.unicode_minus": False,
        "font.size": 15, "interactive": False, "font.family": "sans-serif",
        "legend.loc": "best", "text.usetex": False, "mathtext.fontset": "stix",
    })

device = get_device()
print(f"Using {device} device")
set_mpl_style()

# Metrics
def relative_l2_error(u_num: torch.Tensor, u_ref: torch.Tensor) -> torch.Tensor:
    return torch.norm(u_num - u_ref) / torch.norm(u_ref)

# Util function to plot the solutions
def plot_comparison(t, theta_true, theta_pred, loss):
    t, u, u_hat = (
        x.detach().cpu().numpy().ravel()
        for x in (t, theta_true, theta_pred)
    )

    fig, ax = plt.subplots(1, 2, figsize=(12, 5))
    ax[0].plot(t, u, label=r'$\theta(t)$ (numerical)')
    ax[0].plot(t, u_hat, label=r'$\theta_{\mathrm{pred}}(t)$')
    ax[0].set(title='Numerical vs Predicted',
              xlabel=r'Time $(s)$', ylabel='Amplitude', ylim=(-1, 1.3))
    ax[0].legend(frameon=False)

    ax[1].plot(t, np.abs(u - u_hat))
    ax[1].set(title='Absolute Difference',
              xlabel=r'Time $(s)$',
              ylabel=r'$|\theta - \theta_{\mathrm{pred}}|$')

    fig.tight_layout()
    plt.show()

    fig, ax = plt.subplots(figsize=(6, 3))
    ax.plot(loss)
    ax.set(title='Training Progress',
           xlabel='Iteration', ylabel='Loss',
           xscale='log', yscale='log')
    ax.grid(True)
    fig.tight_layout()
    plt.show()

### 1. Modelo matem√°tico del sistema masa‚Äìresorte‚Äìamortiguador

El sistema masa‚Äìresorte‚Äìamortiguador describe el movimiento de una masa $m$ unida a un resorte de constante el√°stica $k$ y a un elemento disipativo con coeficiente de amortiguamiento $c$. En ausencia de fuerzas externas, su ecuaci√≥n de movimiento est√° dada por:

\begin{equation*}
m\,\ddot{x}(t) + c\,\dot{x}(t) + k\,x(t) = 0
\end{equation*}

donde $x(t)$ representa el desplazamiento de la masa respecto a su posici√≥n de equilibrio, $\dot{x}(t)$ su velocidad y $\ddot{x}(t)$ su aceleraci√≥n.

Dividiendo la ecuaci√≥n por la masa $m$, se obtiene una forma normalizada que resulta m√°s conveniente para el an√°lisis:

\begin{equation*}
\ddot{x}(t) + 2\zeta\omega_n\,\dot{x}(t) + \omega_n^2\,x(t) = 0
\end{equation*}

donde se han introducido los par√°metros est√°ndar del sistema:

\begin{equation*}
\omega_n = \sqrt{\frac{k}{m}} \qquad \text{frecuencia natural no amortiguada}
\end{equation*}

\begin{equation*}
\zeta = \frac{c}{2\sqrt{km}} \qquad \text{raz√≥n de amortiguamiento adimensional}
\end{equation*}

En lo que sigue, trabajaremos con esta formulaci√≥n normalizada y fijaremos valores espec√≠ficos para los par√°metros del sistema.


In [None]:
# Dominio temporal
T = 5.0        # tiempo total de simulaci√≥n
x0 = 1.0       # Posici√≥n inicial 
v0 = 0.0       # velocidad incial
wn = 5.0       # Frecuencia natural
zeta = 0.2     # raz√≥n de amortiguamiento

### 2. Definici√≥n del dominio temporal

En esta etapa se define el dominio sobre el cual la PINN ser√° **entrenada** y **evaluada**. El tiempo $t$ se considera en el intervalo $[0, T]$ y se muestrea en un conjunto de puntos que actuar√°n como entradas de la red neuronal durante el entrenamiento.

> **üí° Nota**  
> Cada punto $t_i \in [0, T]$, con $i = 1, \dots, N_{\text{sample}}$, se denomina **punto de colocaci√≥n**.  
> Este t√©rmino proviene de la estrecha relaci√≥n entre las PINNs y los m√©todos num√©ricos de colocaci√≥n cl√°sicos.

> **üí° Nota**  
> Para evaluar correctamente el desempe√±o del modelo, es conveniente utilizar conjuntos de puntos distintos para entrenamiento y evaluaci√≥n.


In [None]:
def crear_dominio_temporal(T, N_train=101, N_eval=1000):
    """Crea el dominio temporal para la PINN."""
    t_train = torch.linspace(0, T, N_train, 
                             device=device, 
                             requires_grad=True).view(-1, 1)  # entrenamiento
    t_eval = torch.linspace(0, T, N_eval, 
                             device=device, 
                             requires_grad=True).view(-1, 1)  # evaluaci√≥n
    return t_train, t_eval # dominio de evaluaci√≥n

### 3. Red neuronal como aproximador de la soluci√≥n

En esta etapa se define una red neuronal que act√∫a como un aproximador param√©trico de la soluci√≥n de la ecuaci√≥n diferencial. La funci√≥n desconocida $x(t)$ se reemplaza por una red neuronal dependiente de un conjunto de par√°metros $\Theta$:

$$
x_{\text{PINN}}(t; \Theta) \approx x_{\text{real}}(t).
$$

Los par√°metros del modelo corresponden a los pesos y sesgos de cada capa de la red, que se agrupan como:

$$
\Theta = \{ W_i, b_i \}_{i=1}^{L},
$$

donde $W_i$ y $b_i$ representan los pesos y sesgos de la capa $i$, respectivamente, y $L$ es el n√∫mero total de capas. Estos par√°metros se ajustan durante el entrenamiento con el objetivo de minimizar el error asociado al cumplimiento de la ecuaci√≥n f√≠sica.

> **üí° Nota**  
> En este ejercicio se utiliza un perceptr√≥n multicapa (MLP) con funciones de activaci√≥n *tanh* y una inicializaci√≥n de pesos basada en el esquema de Glorot. El n√∫mero de capas ocultas, el n√∫mero de neuronas por capa y la funci√≥n de activaci√≥n se denominan **hiperpar√°metros** de la red.

In [None]:
# Define a neural network class with user defined layers and neurons
class NeuralNetwork(nn.Module):

    def __init__(self, hlayers = [1, 10, 10, 1]):
        super(NeuralNetwork, self).__init__()

        layers = []
        for i in range(len(hlayers[:-2])):
            layers.append(nn.Linear(hlayers[i], hlayers[i+1]))
            layers.append(nn.Tanh())
        layers.append(nn.Linear(hlayers[-2], hlayers[-1]))

        self.layers = nn.Sequential(*layers)
        self.init_params()

    def init_params(self):
        """Xavier Glorot parameter initialization of the Neural Network
        """
        def init_normal(m):
            if isinstance(m, nn.Linear):
                nn.init.xavier_normal_(m.weight) # Xavier
        self.apply(init_normal)

    def forward(self, x):
        return self.layers(x)

### 4. Diferenciaci√≥n autom√°tica en PyTorch

Antes de continuar, es necesario establecer c√≥mo calcular derivadas de la salida de una red neuronal respecto a sus entradas. Para ello se utiliza la **diferenciaci√≥n autom√°tica** (*automatic differentiation* o *autodiff*), una t√©cnica que permite evaluar gradientes de forma eficiente y exacta aplicando sistem√°ticamente la regla de la cadena.

En PyTorch, las operaciones realizadas sobre tensores se registran en un **grafo computacional din√°mico**. Este gr√°fico permite calcular derivadas de manera autom√°tica mediante un proceso de propagaci√≥n hacia atr√°s (*backpropagation*), lo que resulta fundamental para imponer ecuaciones diferenciales directamente sobre la salida de la red.


In [None]:
# Util function to calculate tensor gradients with autodiff
def grad(outputs, inputs):
    """Computes the partial derivative of an output with respect
    to an input.
    Args:
        outputs: (N, 1) tensor
        inputs: (N, D) tensor
    """
    return torch.autograd.grad(outputs, inputs,
                        grad_outputs=torch.ones_like(outputs),
                        create_graph=True,
                        )[0]


# Definir tensor de entrada. Si queremos derivar c/r a x necesitamos inicializar con requires_grad=True
x = torch.tensor([1.0, 2.0, 3.0], device=device, requires_grad=True).view(-1,1).float() # (N,1)

# Calcular operaci√≥n que dependen de x
y = x**2 # (N,1)  

# Calcular derivadas c/r a x 
# grad es un wrapper de torch.autograd
dy_dx = grad(y, x) 

# Calcular derivadas de orden superior
d2y_dx2 = grad(dy_dx, x)  

print("x:", x)
print("y = x^2:", y)
print("dy/dx:", dy_dx)
print("d^2y/dx^2:", d2y_dx2)  

# Esto tambi√©n funciona para redes neuronales
# test_ANN = NeuralNetwork()

# NNx = test_ANN(x)
# dNNx_dx = grad(NNx, x)
# print("NNx: ", dNNx_dx)
# print("dNNx/dx:", dNNx_dx)

### 5. Funci√≥n de p√©rdida informada por la f√≠sica

El entrenamiento de la PINN se basa en el modelo normalizado del sistema masa‚Äìresorte‚Äìamortiguador, caracterizado por la frecuencia natural $\omega_n$ y la raz√≥n de amortiguamiento $\zeta$:

$$
\ddot{x}(t) + 2\zeta\omega_n\,\dot{x}(t) + \omega_n^2 x(t) = 0.
$$

La soluci√≥n desconocida $x(t)$ se aproxima mediante la salida de la red neuronal $x_{\text{PINN}}(t;\Theta)$. A partir de esta aproximaci√≥n se define el **residuo f√≠sico** de la ecuaci√≥n diferencial y las **condiciones iniciales**:

$$
\begin{aligned}
f_{\text{ode}}(t;\,x_{\text{PINN}}) &=
\frac{d^2 x_{\text{PINN}}}{dt^2}
+ 2\zeta\omega_n \frac{d x_{\text{PINN}}}{dt}
+ \omega_n^2 x_{\text{PINN}}, \\
g_{\text{ic}}(0;\,x_{\text{PINN}}) &=
x_{\text{PINN}}(0;\Theta) - x_0, \\
h_{\text{ic}}(0;\,x_{\text{PINN}}) &=
\frac{d x_{\text{PINN}}(0;\Theta)}{dt} - v_0.
\end{aligned}
$$

La funci√≥n de p√©rdida total se construye como una combinaci√≥n ponderada de estos t√©rminos:

$$
\mathcal{L}(\Theta) =
\frac{\lambda_1}{N}\sum_i f_{\text{ode}}(t_i;\,x_{\text{PINN}})^2
+ \lambda_2\, g_{\text{ic}}(0;\,x_{\text{PINN}})^2
+ \lambda_3\, h_{\text{ic}}(0;\,x_{\text{PINN}})^2.
$$

El entrenamiento de la PINN consiste en resolver el problema de optimizaci√≥n

$$
\min_{\Theta} \; \mathcal{L}(\Theta),
$$

utilizando diferenciaci√≥n autom√°tica (`torch.autograd`) para evaluar las derivadas temporales de la red necesarias para el c√°lculo del residuo f√≠sico.

> **üí° Nota**  
> Si la funci√≥n de p√©rdida incluye √∫nicamente t√©rminos f√≠sicos, el esquema es *data-free*.  
> Al incorporar t√©rminos asociados a datos observados, el enfoque pasa a ser *data-driven*.

> **üí° Nota**  
> En este marco, las condiciones iniciales (y de frontera, cuando existen) se imponen de manera d√©bil a trav√©s de la funci√≥n de p√©rdida.


In [None]:
# Define a loss function (Mean Squared Error) for training the network
MSE_func = nn.MSELoss()

# derivatives of the ANN
def PINNLoss(PINN, t_phys, wn, zeta, x0 = 1, v0 = 0,
             lambda1 = 1, lambda2 = 1, lambda3 = 1):

    t0 = torch.tensor(0., device=device, requires_grad=True).view(-1,1)

    # ANN output, first and second derivatives
    x_pinn_t = PINN(t_phys)
    x_pinn_dt = grad(x_pinn_t, t_phys)
    x_pinn_ddt = grad(x_pinn_dt, t_phys)
    
    f_ode = x_pinn_ddt + 2 * zeta * wn * x_pinn_dt + wn**2 * x_pinn_t
    ODE_loss = lambda1 * MSE_func(f_ode, torch.zeros_like(f_ode)) 
    
    g_ic = PINN(t0)
    IC_loss = lambda2 * MSE_func(g_ic, torch.ones_like(g_ic)*x0)
    
    h_bc = grad(PINN(t0),t0)
    BC_loss = lambda3 * MSE_func(h_bc, torch.ones_like(h_bc)*v0)
    
    return ODE_loss + IC_loss + BC_loss 

### 6. Definici√≥n del optimizador

Una vez definida la funci√≥n de p√©rdida, se selecciona un optimizador para ajustar los par√°metros de la red neuronal $\Theta = \{W_i, b_i\}$. El objetivo es minimizar la p√©rdida informada por la f√≠sica mediante un esquema de optimizaci√≥n iterativo:

$$
\min_{\Theta} \mathcal{L}(\Theta),
\qquad
\Theta^{k+1} = \Theta^{k} - \alpha \nabla_{\Theta} \mathcal{L}(\Theta^{k}).
$$

En esta etapa se utiliza el optimizador **Adam**, un m√©todo de descenso de gradiente adaptativo que ajusta din√°micamente la tasa de aprendizaje de cada par√°metro. Su combinaci√≥n de momento y escalado adaptativo de gradientes lo hace especialmente adecuado para el entrenamiento estable de PINNs.

> **üí° Nota**  
> 

In [None]:
def pinn_optimizer(pinn, lr = 0.01):

    # Define an optimizer (Adam) for training the network
    return optim.Adam(pinn.parameters(), lr=lr,
                        betas= (0.99,0.999), eps = 1e-8)

### Ciclo de entrenamiento

En esta etapa se ejecuta el proceso iterativo mediante el cual la PINN ajusta sus par√°metros $\Theta = \{W_i, b_i\}$ para minimizar la funci√≥n de p√©rdida definida previamente. En cada √©poca (*epoch*), el modelo eval√∫a el residuo de la ecuaci√≥n diferencial y las condiciones iniciales en los puntos de colocaci√≥n $t_i \in [0, T]$, y actualiza los par√°metros seg√∫n el gradiente de la p√©rdida:

$$
\Theta \leftarrow \Theta - \eta \, \nabla_\Theta \mathcal{L}(\Theta).
$$

El entrenamiento contin√∫a hasta que la p√©rdida converge o deja de disminuir de forma apreciable. Una vez finalizado, la soluci√≥n aproximada $x_{\text{PINN}}(t;\Theta)$ se compara con la soluci√≥n exacta para evaluar la calidad del ajuste y la capacidad del modelo de capturar la din√°mica del sistema masa‚Äìresorte‚Äìamortiguador.


A continuaci√≥n se presenta el c√≥digo completo:

In [None]:
#===============================================================================
# ETAPA 1: INFORMACI√ìN DEL MODELO F√çSICO
#===============================================================================
# Dominio temporal
T = 5.0        # tiempo total de simulaci√≥n
x0 = 1.0       # Posici√≥n inicial 
v0 = 0.0       # velocidad incial
wn = 5.0  # Frecuencia natural
zeta = 0.2     # raz√≥n de amortiguamiento

#===============================================================================
# ETAPA 2: DEFINICI√ìN DEL DOMINIO 
#===============================================================================
# Creamos los tensores de tiempo para el entrenamiento y la evaluaci√≥n
t_train, t_eval = crear_dominio_temporal(T)

#===============================================================================
# ETAPA 3: CREACI√ìN DE LA RED NEURONAL SURROGANTE 
#===============================================================================
# Creamos la ANN
torch.manual_seed(123)
hidden_layers = [1, 30, 30, 30, 1]# Par√°metros de la 

# Create an instance of the neural network
x_pinn = NeuralNetwork(hidden_layers).to(device)
nparams = sum(p.numel() for p in x_pinn.parameters() if p.requires_grad)
print(f'Number of trainable parameters: {nparams}')

#==========================================================================
# ETAPA 4 Y 5: DEFINICI√ìN DE LA FUNCI√ìN DE COSTO BASADA EN LA F√çSICA
#==========================================================================
# Define a loss function (Mean Squared Error) for training the network
MSE_func = nn.MSELoss()

# derivatives of the ANN
def PINNLoss(PINN, t_phys, wn, zeta, x0 = 1, v0 = 0, 
             w1 = 1, w2 = 1, w3 = 1):

    t0 = torch.tensor(0., device=device, requires_grad=True).view(-1,1)

    # ANN output, first and second derivatives
    x_pinn_t = PINN(t_phys)
    x_pinn_dt = grad(x_pinn_t, t_phys)
    x_pinn_ddt = grad(x_pinn_dt, t_phys)
    
    f_ode = x_pinn_ddt + 2 * zeta * wn * x_pinn_dt + wn**2 * x_pinn_t
    ODE_loss = w1 * MSE_func(f_ode, torch.zeros_like(f_ode)) 
    
    g_ic = PINN(t0)
    IC_loss = w2 * MSE_func(g_ic, torch.ones_like(g_ic)*x0)
    
    h_bc = grad(PINN(t0),t0)
    BC_loss = w3 * MSE_func(h_bc, torch.zeros_like(h_bc)*v0)
    
    return ODE_loss + IC_loss + BC_loss 

#==========================================================================
# ETAPA 6: DEFINICI√ìN DEl OPTIMIZADOR
#==========================================================================
learning_rate = 0.01
optimizer = pinn_optimizer(x_pinn, learning_rate)

#==========================================================================
# CICLO DE ENTRENAMIENTO
#==========================================================================
training_iter = 20000

# Initialize a list to store the loss values
loss_values_pinn = []

# Start the timer
start_time = time.time()

# Training the neural network
for i in range(training_iter):

    optimizer.zero_grad()   # clear gradients for next train

    # input x and predict based on x
    loss = PINNLoss(x_pinn, t_train, wn, zeta)

    # Append the current loss value to the list
    loss_values_pinn.append(loss.item())

    if i % 500 == 0:  # print every 100 iterations
        print(f"Iteration {i}: Loss {loss.item()}")

    loss.backward() # compute gradients (backpropagation)
    optimizer.step() # update the ANN weigths

# Stop the timer and calculate the elapsed time
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Training time: {elapsed_time} seconds")

## Validaci√≥n

El comportamiento del sistema depende de $\zeta$:

- **Subamortiguado** ($0 < \zeta < 1$): el sistema oscila con frecuencia amortiguada  
  \begin{equation*}
  \omega_d = \omega_n \sqrt{1 - \zeta^2}
  \end{equation*}

  la soluci√≥n puede escribirse en t√©rminos de las condiciones iniciales $x(0)=x_0$ y $\dot{x}(0)=v_0$:
  \begin{equation*}
  x(t) = e^{-\zeta \omega_n t}
  \left[
  x_0 \cos(\omega_d t) +
  \frac{v_0 + \zeta \omega_n x_0}{\omega_d}
  \sin(\omega_d t)
  \right]
  \end{equation*}

Esta expresi√≥n servir√° como referencia para validar la soluci√≥n obtenida mediante la red neuronal informada por la f√≠sica.


In [None]:
def masa_resorte_general(t, x0, v0, omega_n, zeta):
    """
    Soluci√≥n exacta x(t) del sistema masa-resorte-amortiguador:
        x'' + 2*zeta*omega_n*x' + omega_n^2*x = 0
    Incluye los tres reg√≠menes (sub, cr√≠tico y sobreamortiguado).
    """
    t = np.array(t, dtype=float)

    if 0 < zeta < 1:  # Subamortiguado
        omega_d = omega_n * np.sqrt(1 - zeta**2)
        x = np.exp(-zeta * omega_n * t) * (
            x0 * np.cos(omega_d * t) +
            (v0 + zeta * omega_n * x0) / omega_d * np.sin(omega_d * t)
        )

    else:
        raise ValueError("zeta debe ser mayor que 0.")

    return torch.tensor(x, dtype=torch.float32, device=device).view(-1, 1)

# -------------------------------------------
# solucion exacta
t_eval_np = t_eval.detach().cpu().numpy().ravel()
x = masa_resorte_general(t_eval_np, x0, v0, wn, zeta)

# predicci√≥n de la PINN
x_pred_pinn = x_pinn(t_eval)

print(f'Relative error: {relative_l2_error(x_pred_pinn, x)}')

plot_comparison(t_eval, x, x_pred_pinn, loss_values_pinn)


## **Ejercicios**:
1. Ajusta los valores de los par√°metros del sistema din√°mico y analiza su impacto en la convergencia de la PINN.
2. Ajusta los valores de los par√°metros `lambdas` en la funci√≥n de p√©rdida para ambas redes y analiza su impacto.
2. Modifica la tasa de aprendizaje (`learning_rate`) del optimizador y el n√∫mero de iteraciones de entrenamiento, y eval√∫a el efecto en el desempe√±o.
3. Cambia el n√∫mero de capas ocultas (`hidden_layers`), neuronas y funciones de activaci√≥n de la red neuronal, y observa el impacto en los resultados.

## **Preguntas**:

1. **¬øC√≥mo se puede abordar el sobreajuste en las PINNs si el objetivo es aprender los operadores subyacentes del sistema f√≠sico?**  
   <details>
   <summary>Respuesta</summary>
   El sobreajuste en las PINNs (Physics-Informed Neural Networks) es un tema ampliamente discutido. En el aprendizaje autom√°tico tradicional, el sobreajuste se asocia con la incapacidad de un modelo para generalizar a datos no vistos previamente, lo que afecta su capacidad para realizar predicciones precisas en nuevas entradas. Sin embargo, en el contexto de las PINNs, buscamos un comportamiento diferente: que la red neuronal funcione como un modelo surrogate de la soluci√≥n de las ecuaciones diferenciales que describen el sistema f√≠sico. En este caso, el sobreajuste no necesariamente es perjudicial, ya que queremos que la red reproduzca fielmente la soluci√≥n dentro del dominio especificado.

   El desaf√≠o relacionado con la generalizaci√≥n en las PINNs surge cuando estas redes se eval√∫an en geometr√≠as m√°s complejas o diferentes de las que fueron utilizadas durante el entrenamiento. En tales casos, una PINN que est√© sobreajustada a una √∫nica geometr√≠a podr√≠a fallar al adaptarse a las nuevas configuraciones, comprometiendo su capacidad para generalizar y capturar las din√°micas f√≠sicas subyacentes en contextos m√°s diversos. Por ello, abordar el sobreajuste implica equilibrar la fidelidad al dominio original y la adaptabilidad a nuevas geometr√≠as o condiciones.
   </details>


2. **Qu√© ventajas ofrece el uso del MSE en la funci√≥n de p√©rdida, dado que este enfoque puede subestimar la soluci√≥n al no incorporar formulaciones integrales o variacionales**  
   <details>
   <summary>Respuesta</summary>
   El uso del MSE como funci√≥n de p√©rdida proporciona una forma sencilla y computacionalmente eficiente de medir las diferencias puntuales entre las predicciones del modelo y los valores objetivo. Sin embargo, el MSE se centra √∫nicamente en puntos individuales, lo que puede limitar su capacidad para capturar el comportamiento global de la soluci√≥n, especialmente en dominios complejos. Al incorporar formulaciones integrales o variacionales, la funci√≥n de p√©rdida puede reflejar el comportamiento de la soluci√≥n en todo el dominio, mejorando potencialmente la precisi√≥n y estabilidad. A pesar de estas limitaciones, el MSE sigue siendo popular porque simplifica la implementaci√≥n y reduce los costos computacionales, lo que lo hace adecuado para muchas aplicaciones pr√°cticas.
   </details>



