<p style="color: blue; text-align: center; font-size: 32px; font-weight: bold;">
  🚀🚀 ¡Backpropagation, Hopfield Neural Network, Physics Informed Neural Network!🚀🚀
</p>

<p align="center">
  <img src="back.png" width="4000">
</p>

## Table of Contents


1. [Introducción](#introduction)
2. [Algoritmo de premio nobel](#introduction)
   - 2.1 [Teoría matemática del backpropagation](#basic-concepts)
   
4. [Red Neuronal del premio nobel](#applications-of-cnns)
   - 4.1 [Hopfield Neural Network](#convolution)
   - 4.2 [Boltzman Machine](#activation-functions)
   
5. [Pysics Informed Neural Network](#convolution)
   

# 1. [Introducción](#introduction)

# Redes Neuronales: Backpropagation, Hopfield Networks y Physics-Informed Neural Networks (PINNs)

## Introducción

En este notebook se exploran tres enfoques relevantes dentro del estudio de las redes neuronales, tanto desde la perspectiva histórica como desde sus aplicaciones modernas en matemáticas aplicadas y física computacional.

### 1️⃣ Backpropagation (Retropropagación del Error)
El algoritmo de **backpropagation** es el pilar fundamental en el entrenamiento de redes neuronales profundas. Permite optimizar los pesos de la red mediante el cálculo eficiente del gradiente a través de la **regla de la cadena** del cálculo diferencial. Gracias a este algoritmo, hoy es posible entrenar redes complejas como CNNs y Transformers.  
En esta sección revisaremos:
- Su formulación matemática.
- Su implementación práctica.
- Ejemplos de redes neuronales simples entrenadas por este método.

---

### 2️⃣ Redes de Hopfield (Hopfield Networks)
Las **redes de Hopfield** representan un modelo clásico de redes neuronales recurrentes, donde el principio de minimización de energía es central. Estas redes permiten almacenar patrones y recuperarlos a partir de entradas incompletas o ruidosas, actuando como modelos de **memoria asociativa**. Aunque son redes más antiguas, tienen conexiones profundas con la física estadística (función energía, redes de Ising) y la optimización.
En esta sección veremos:
- El funcionamiento de las redes de Hopfield.
- Su formulación como sistemas dinámicos.
- Ejemplos de recuperación de patrones.

---

### 3️⃣ Physics-Informed Neural Networks (PINNs)
Las **Physics-Informed Neural Networks (PINNs)** son un desarrollo reciente que permite integrar **ecuaciones diferenciales** (PDEs, ODEs) directamente en el entrenamiento de una red neuronal. A diferencia de los enfoques puramente basados en datos, las PINNs utilizan el conocimiento físico como una parte explícita de la función de pérdida, lo que las hace muy útiles para problemas inversos y mal planteados en física, ingeniería y finanzas.
En esta sección abordaremos:
- El principio de funcionamiento de las PINNs.
- Cómo se integran las condiciones de frontera y las ecuaciones diferenciales.
- Ejemplos prácticos de uso.

---

## Objetivo del Notebook
Al finalizar este notebook, el lector será capaz de:
- Entender y aplicar el algoritmo de backpropagation.
- Comprender el funcionamiento y las aplicaciones de las redes de Hopfield.
- Reconocer el potencial y las aplicaciones de las PINNs en la resolución de problemas físicos.

Cada sección incluirá teoría, ejemplos y código para reforzar el aprendizaje.

---


# 2. ["Algoritmo de premio nobel"](#introduction)


El algoritmo de **backpropagation** (retropropagación del error) es el método fundamental que permitió el desarrollo práctico del aprendizaje profundo. Aunque las bases del algoritmo datan de las décadas de 1960 y 1970 (Bryson & Ho, 1969; Werbos, 1974), no fue hasta 1986 cuando el trabajo de **Rumelhart, Hinton y Williams** lo popularizó como un método eficiente para entrenar redes neuronales multicapa (MLP) utilizando la regla de la cadena para propagar los gradientes desde la salida hacia las capas internas (Rumelhart et al., 1986).

### ¿Qué es Backpropagation?
Es un algoritmo basado en **gradiente descendente** que ajusta los pesos de una red neuronal para minimizar una función de pérdida. Consiste en dos fases:
1. **Propagación hacia adelante** (Forward Pass): Se calcula la salida de la red.
2. **Propagación hacia atrás** (Backward Pass): Se calcula el gradiente de la pérdida respecto a cada peso usando la regla de la cadena.

Gracias a esta técnica, fue posible entrenar redes profundas, marcando el inicio de la era moderna del aprendizaje profundo.

### Referencias Bibliográficas
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). *Learning representations by back-propagating errors*. Nature, 323(6088), 533–536. [https://doi.org/10.1038/323533a0](https://doi.org/10.1038/323533a0)
- Werbos, P. J. (1974). *Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences* (Doctoral dissertation, Harvard University).
- Bryson, A. E., & Ho, Y.-C. (1969). *Applied Optimal Control: Optimization, Estimation, and Control*. Blaisdell Publishing Company.

---

# - 2.1 [Teoría matemática del backpropagation](#basic-concepts)

<p align="center">
  <img src="eje.png" width="4000">
</p>

# Conceptos Clave de las Redes Neuronales

1. **Neurona**:  
   Es la unidad fundamental de cómputo en una red neuronal. Recibe señales de entrada, las procesa y produce una señal de salida.

2. **Capa de Entrada**:  
   Es la capa de neuronas que recibe los datos de entrada del mundo exterior o de otra capa de la red. Cada neurona en la capa de entrada corresponde a una característica (feature) del conjunto de datos.

3. **Capa Oculta**:  
   Son una o más capas de neuronas situadas entre la capa de entrada y la de salida. Estas capas son responsables de aprender representaciones del conjunto de datos. Transforman las entradas mediante conexiones ponderadas y funciones de activación.

4. **Capa de Salida**:  
   Es la capa de neuronas que genera la salida final de la red neuronal. El número de neuronas en la capa de salida depende de la naturaleza de la tarea para la cual fue diseñada la red. Por ejemplo, en una tarea de clasificación con tres clases, normalmente habrá tres neuronas en la capa de salida.

5. **Pesos de Conexión**:  
   Son los valores que determinan la fuerza de las conexiones entre neuronas de capas adyacentes. Estos pesos controlan cuánto influye una neurona sobre otra. Durante el entrenamiento, la red ajusta estos pesos para aprender a partir de los datos de entrada y la salida deseada.

6. **Función de Activación**:  
   Es una función que se aplica a la suma ponderada de las entradas para introducir no linealidad en la salida de una neurona. Las funciones de activación más comunes incluyen sigmoide, tangente hiperbólica (tanh), ReLU (Unidad Lineal Rectificada) y softmax. Estas funciones permiten que la red aprenda patrones y relaciones complejas en los datos.

7. **Sesgo (Bias)**:  
   Es un parámetro adicional asociado a cada neurona de una capa que permite a la red ajustarse mejor a los datos. El sesgo desplaza la función de activación, influyendo en el punto donde una neurona comienza a activarse. Esto ayuda a la red a aprender patrones que no necesariamente pasan por el origen.


# Terminología

$a^k_j$ indica la neurona en la capa $k$ con índice $j$, empezando en $1$ desde arriba.

$w^k_{ij}$ indica el peso de la capa $k$ que conecta la neurona $a^{k-1}_i$ con la neurona $a^{k}_j$.

$b^k_j$ indica el sesgo (bias) en la capa $k$ con índice $j$, empezando en $1$ desde arriba.

$z^k_j = a^{k-1}_{1} w^{k}_{1j} + a^{k-1}_{2} w^{k}_{2j} + a^{k-1}_{3} w^{k}_{3j} + \cdots + a^{k-1}_{n} w^{k}_{nj} + b^k_j$


La red neuronal toma el valor de entrada en la primera capa y, a través de los pesos y sesgos, se forman las neuronas siguientes en la capa siguiente:

$a^1_1$ es la primera neurona en la primera capa, que corresponde al resultado de los datos de entrada dados.

$a^2_1 = \sigma(a^1_1 w^2_{11} + a^1_2 w^2_{21} + a^1_3 w^2_{31} + \cdots + a^1_n w^2_{n1} + b^2_1)$

$a^2_2 = \sigma(a^1_1 w^2_{12} + a^1_2 w^2_{22} + a^1_3 w^2_{32} + \cdots + a^1_n w^2_{n2} + b^2_2)$

$...$

$a^2_m = \sigma(a^1_1 w^2_{1m} + a^1_2 w^2_{2m} + a^1_3 w^2_{3m} + \cdots + a^1_n w^2_{nm} + b^2_m)$

A partir de esto, se forma la siguiente capa de neuronas.


## Importancia de las Funciones de Activación en Redes Neuronales

La función de activación cumple un papel crucial en una red neuronal al introducir no linealidad en la salida de cada neurona. Sin esta no linealidad, una red neuronal se reduciría esencialmente a un modelo lineal, limitando severamente su capacidad expresiva y de aprendizaje. A continuación, las razones por las que las funciones de activación son importantes, junto con algunos ejemplos:

### 1. **Introducción de No Linealidad:**
Las funciones de activación permiten a las redes neuronales modelar relaciones complejas y no lineales en los datos. Muchos problemas del mundo real involucran patrones no lineales, y las funciones de activación habilitan a la red para capturar estos patrones de forma efectiva.

### 2. **Habilitar Representaciones Complejas:**
Al introducir no linealidad, las funciones de activación permiten que las redes neuronales aprendan representaciones complejas de los datos de entrada. Esto es esencial para tareas como el reconocimiento de imágenes, procesamiento de lenguaje natural y predicción de series temporales, donde las relaciones entre entrada y salida son altamente no lineales.

### 3. **Normalización y Estabilización:**
Las funciones de activación ayudan a normalizar la salida de las neuronas, evitando que crezcan demasiado o se reduzcan excesivamente durante el proceso de entrenamiento. Esto contribuye a estabilizar el aprendizaje y a prevenir problemas como el desvanecimiento o explosión del gradiente.

---

### Ejemplos de Funciones de Activación Comunes:

- **Función Sigmoide:**  
  La función sigmoide comprime los valores de entrada al rango [0, 1]. Se usa frecuentemente en problemas de clasificación binaria donde la salida debe interpretarse como una probabilidad. Sin embargo, sufre del problema de gradientes que se desvanecen, lo que puede ralentizar el entrenamiento, especialmente en redes profundas.

- **Función Tangente Hiperbólica (tanh):**  
  Similar a la sigmoide, la función tanh comprime los valores al rango [-1, 1]. Es común en redes neuronales, especialmente cuando los datos de entrada están centrados en cero. Al igual que la sigmoide, puede sufrir el problema de gradientes que se desvanecen.

- **Unidad Lineal Rectificada (ReLU):**  
  La función ReLU devuelve 0 para entradas negativas y el valor de entrada para entradas positivas. Se ha convertido en la elección predeterminada para muchas arquitecturas de redes neuronales debido a su simplicidad y eficacia práctica. ReLU ayuda a mitigar el problema del gradiente que se desvanece y acelera el proceso de entrenamiento, especialmente en redes profundas.

- **Leaky ReLU:**  
  Leaky ReLU es una variante de ReLU que permite un pequeño gradiente no nulo para entradas negativas. Esto ayuda a resolver el problema de "ReLU muerta", donde neuronas pueden volverse inactivas durante el entrenamiento y dejar de aprender.

- **Función Softmax:**  
  La función softmax se usa comúnmente en la capa de salida de redes neuronales para tareas de clasificación multiclase. Convierte los valores de salida en una distribución de probabilidad sobre múltiples clases, haciendo que sea adecuada para predecir probabilidades de clase.


# Algoritmo de Retropropagación (Backpropagation)

Desglosemos el algoritmo de retropropagación en pasos manejables:

1. **Paso hacia adelante (Forward Pass):**  
   Comenzamos realizando un pase hacia adelante a través de la red neuronal. Esto implica alimentar los datos de entrada en la red y calcular la salida predicha. Mientras propagamos los datos capa por capa, almacenamos los resultados intermedios, como las activaciones de cada neurona.

2. **Cálculo de la función de pérdida:**  
   Una vez obtenida la salida predicha, la comparamos con la salida real (verdad terreno) para calcular la pérdida. La función de pérdida representa qué tan lejos están nuestras predicciones de los valores reales. Las funciones de pérdida comunes incluyen el error cuadrático medio (MSE) para tareas de regresión y la entropía cruzada para tareas de clasificación.

3. **Paso hacia atrás (Backward Pass):**  
   Aquí está el núcleo del algoritmo de retropropagación: el pase hacia atrás. En este paso, calculamos el gradiente de la función de pérdida respecto a cada parámetro de la red. Partimos desde la capa de salida y avanzamos hacia atrás por la red, aplicando la regla de la cadena del cálculo diferencial para obtener los gradientes capa por capa.

4. **Actualización de pesos:**  
   Finalmente, usamos los gradientes calculados en el paso hacia atrás para actualizar los pesos de la red. Lo hacemos restando una fracción del gradiente a cada peso, escalada por un parámetro llamado tasa de aprendizaje (learning rate). Este proceso ajusta los parámetros en la dirección que minimiza la pérdida, mejorando gradualmente el desempeño de la red.

5. **Repetición:**  
   Repetimos este proceso por un número fijo de iteraciones (épocas) o hasta que la red converja a un nivel satisfactorio de desempeño. Después de cada iteración, la red mejora un poco en sus predicciones, gracias a la retroalimentación proporcionada por el algoritmo de retropropagación.

Y esa es la esencia del algoritmo de retropropagación. Es una técnica poderosa que sustenta el entrenamiento de redes neuronales, permitiéndoles aprender patrones y relaciones complejas en los datos. Comprender cómo funciona la retropropagación nos da una visión profunda de cómo las redes neuronales aprenden y mejoran su desempeño con el tiempo.


### Función de Costo

La función de costo, también conocida como función de pérdida u función objetivo, es un componente crucial en el entrenamiento de una red neuronal. Su rol principal es cuantificar qué tan bien las predicciones del modelo coinciden con los valores reales. El objetivo durante el entrenamiento es minimizar esta función de costo, reduciendo efectivamente la disparidad entre las predicciones y la verdad terreno.

La elección de la función de costo depende de la naturaleza del problema a resolver. Aquí algunos ejemplos comunes:

- **Error Cuadrático Medio (MSE):**  
  Es una función de costo ampliamente usada para problemas de regresión. Calcula el promedio de las diferencias al cuadrado entre los valores predichos y los valores reales. MSE penaliza los errores grandes de forma más severa que los pequeños, por lo que es adecuada para tareas donde se requieren predicciones numéricas precisas.

  $$MSE = (1/n) ∑ᵢ= (yᵢ − ŷᵢ)²$$

- **Entropía Cruzada (Cross-Entropy Loss):**  
  Comúnmente usada para tareas de clasificación, la entropía cruzada mide la diferencia entre la distribución de probabilidad predicha y la distribución real de las etiquetas de clase. Tiende a penalizar los errores de clasificación más fuertemente que las clasificaciones correctas, siendo adecuada para problemas de clasificación multiclase.

  $$Cross-Entropy Loss = −(1/n) ∑ᵢ= yᵢ log(ŷᵢ)$$

- **Entropía Cruzada Binaria (Binary Cross-Entropy Loss):**  
  Caso específico de la entropía cruzada usada en clasificación binaria, donde solo hay dos posibles resultados.

  $$Binary Cross-Entropy Loss = −(1/n) ∑ᵢ= [yᵢ log(ŷᵢ) + (1 − yᵢ) log(1 − ŷᵢ)]$$

- **Pérdida Hinge (Hinge Loss):**  
  Usada comúnmente para máquinas de vectores de soporte (SVM) y tareas de clasificación binaria. Penaliza las malas clasificaciones, pero a diferencia de la entropía cruzada, no produce probabilidades directamente.

  $$Hinge Loss = max(0, 1 − y * ŷᵢ)$$

- **Pérdida Huber (Huber Loss):**  
  Función de pérdida robusta usada en tareas de regresión, menos sensible a valores atípicos que el MSE. Combina el error cuadrático para valores pequeños y el error absoluto para valores grandes.

---

Al minimizar la función de costo elegida usando algoritmos de optimización como el gradiente descendente o sus variantes, actualizamos iterativamente los parámetros de la red neuronal para mejorar su desempeño en la tarea. La selección de una función de costo adecuada es crucial, ya que influye directamente en el comportamiento y eficacia del proceso de aprendizaje.




# Variantes del Descenso de Gradiente

Existen varias variantes del descenso de gradiente para mejorar su desempeño, especialmente en conjuntos de datos grandes y redes neuronales complejas:

## Descenso de Gradiente por Lote (Batch Gradient Descent):

- Utiliza todo el conjunto de datos para calcular el gradiente de la función de pérdida.
- **Ventajas:** Proporciona una estimación estable y precisa del gradiente.
- **Desventajas:** Puede ser muy lento y costoso computacionalmente para conjuntos de datos grandes.

## Descenso de Gradiente Estocástico (Stochastic Gradient Descent, SGD):

- Actualiza los parámetros para cada ejemplo de entrenamiento individualmente.
- **Ventajas:** Más rápido y puede escapar más fácilmente de mínimos locales.
- **Desventajas:** Las estimaciones del gradiente pueden tener alta varianza, lo que causa fluctuaciones en la función de pérdida.

## Descenso de Gradiente por Mini-Lotes (Mini-Batch Gradient Descent):

- Utiliza un pequeño subconjunto aleatorio del conjunto de datos (mini-lote) para calcular el gradiente.
- **Ventajas:** Equilibra los beneficios del descenso por lote y estocástico. Es computacionalmente eficiente y proporciona actualizaciones más estables que el SGD.
- **Desventajas:** Requiere ajustar el tamaño del mini-lote.


# Explicacion matematica de como funciona el backpropagation

# 1-Fourth Layer
$$CostFunction=C=(a^4_1-C_1)^2+(a^4_2-C_2)^2+(a^4_3-C_3)^2$$
# Example
$$\frac{\partial C}{\partial w^4_{11}}=\frac{\partial C}{\partial a^4_{1}}*\frac{\partial a^4_1}{\partial z^4_{1}}*\frac{\partial z^4_1}{\partial w^4_{11}}$$
$$\frac{\partial C}{\partial w^4_{23}}=\frac{\partial C}{\partial a^4_{3}}*\frac{\partial a^4_3}{\partial z^4_{3}}*\frac{\partial z^4_3}{\partial w^4_{23}}$$
$$\frac{\partial C}{\partial b^4_{1}}=\frac{\partial C}{\partial a^4_{1}}*\frac{\partial a^4_1}{\partial z^4_{1}}*\frac{\partial z^4_1}{\partial b^4_{1}}$$
$$\frac{\partial C}{\partial b^4_{3}}=\frac{\partial C}{\partial a^4_{3}}*\frac{\partial a^4_3}{\partial z^4_{3}}*\frac{\partial z^4_3}{\partial b^4_{3}}$$

# Generalization

$$\frac{\partial C}{\partial w^k_{ij}}=\frac{\partial C}{\partial a^k_{j}}*\frac{\partial a^k_j}{\partial z^k_{j}}*\frac{\partial z^k_j}{\partial w^k_{ij}}$$

$$\frac{\partial C}{\partial b^k_{j}}=\frac{\partial C}{\partial a^k_{j}}*\frac{\partial a^k_j}{\partial z^k_{j}}*\frac{\partial z^k_j}{\partial b^k_{j}}$$

# Derivatives solved

$$\frac{\partial C}{\partial w^k_{ij}}=2(a^k_j-C_j)*\sigma '(z^k_j)a^{k-1}_i$$
$$\frac{\partial C}{\partial b^k_{j}}=2(a^k_j-C_j)*\sigma '(z^k_j)*1$$

# Third layer

# Example

$$\frac{\partial C}{\partial w^3_{12}}=\frac{\partial C}{\partial a^4_{1}}*\frac{\partial  a^4_{1}}{\partial z^4_{1}}*\frac{\partial  z^4_{1}}{\partial a^3_{2}}*\frac{\partial  a^3_{2}}{\partial z^3_{2}}*\frac{\partial  z^3_{2}}{\partial w^3_{12}}+\frac{\partial C}{\partial a^4_{2}}*\frac{\partial  a^4_{2}}{\partial z^4_{2}}*\frac{\partial  z^4_{2}}{\partial a^3_{2}}*\frac{\partial  a^3_{2}}{\partial z^3_{2}}*\frac{\partial  z^3_{2}}{\partial w^3_{12}} +\frac{\partial C}{\partial a^4_{3}}*\frac{\partial  a^4_{3}}{\partial z^4_{3}}*\frac{\partial  z^4_{3}}{\partial a^3_{2}}*\frac{\partial  a^3_{2}}{\partial z^3_{2}}*\frac{\partial  z^3_{2}}{\partial w^3_{12}}$$


$$\frac{\partial C}{\partial b^3_{2}}=\frac{\partial C}{\partial a^4_{1}}*\frac{\partial  a^4_{1}}{\partial z^4_{1}}*\frac{\partial  z^4_{1}}{\partial a^3_{2}}*\frac{\partial  a^3_{2}}{\partial z^3_{2}}*\frac{\partial  z^3_{2}}{\partial b^3_{2}}+\frac{\partial C}{\partial a^4_{2}}*\frac{\partial  a^4_{2}}{\partial z^4_{2}}*\frac{\partial  z^4_{2}}{\partial a^3_{2}}*\frac{\partial  a^3_{2}}{\partial z^3_{2}}*\frac{\partial  z^3_{2}}{\partial b^3_{2}} +\frac{\partial C}{\partial a^4_{3}}*\frac{\partial  a^4_{3}}{\partial z^4_{3}}*\frac{\partial  z^4_{3}}{\partial a^3_{2}}*\frac{\partial  a^3_{2}}{\partial z^3_{2}}*\frac{\partial  z^3_{2}}{\partial b^3_{2}}$$

# Generalization


$$\frac{\partial C}{\partial w^{k-1}_{ij}}=\frac{\partial C}{\partial a^k_{1}}*\frac{\partial  a^k_{1}}{\partial z^k_{1}}*\frac{\partial  z^k_{1}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial w^{k-1}_{ij}}+\frac{\partial C}{\partial a^k_{2}}*\frac{\partial  a^k_{2}}{\partial z^k_{2}}*\frac{\partial  z^k_{2}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial w^{k-1}_{ij}} +\frac{\partial C}{\partial a^k_{3}}*\frac{\partial  a^k_{3}}{\partial z^k_{3}}*\frac{\partial  z^k_{3}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial w^{k-1}_{ij}}$$

$$\frac{\partial C}{\partial b^{k-1}_{j}}=\frac{\partial C}{\partial a^k_{1}}*\frac{\partial  a^k_{1}}{\partial z^k_{1}}*\frac{\partial  z^k_{1}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial b^{k-1}_{j}}+\frac{\partial C}{\partial a^k_{2}}*\frac{\partial  a^k_{2}}{\partial z^k_{2}}*\frac{\partial  z^k_{2}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial b^{k-1}_{j}} +\frac{\partial C}{\partial a^k_{3}}*\frac{\partial  a^k_{3}}{\partial z^k_{3}}*\frac{\partial  z^k_{3}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial b^{k-1}_{j}}$$

# Formula 

$$\frac{\partial C}{\partial w^{k-1}_{ij}}=\sum^3_{m=1}\frac{\partial C}{\partial a^k_{m}}*\frac{\partial  a^k_{m}}{\partial z^k_{m}}*\frac{\partial  z^k_{m}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial w^{k-1}_{ij}}$$

$$\frac{\partial C}{\partial b^{k-1}_{j}}=\sum^3_{m=1}\frac{\partial C}{\partial a^k_{m}}*\frac{\partial  a^k_{m}}{\partial z^k_{m}}*\frac{\partial  z^k_{m}}{\partial a^{k-1}_{j}}*\frac{\partial  a^{k-1}_{j}}{\partial z^{k-1}_{j}}*\frac{\partial  z^{k-1}_{j}}{\partial b^{k-1}_{j}}$$

# Derivatives solved

$$\frac{\partial C}{\partial w^{k-1}_{ij}}=\sum^3_{m=1}2(a^k_m-C_m)*\sigma '(z^k_m)*w^k_{jm}*\sigma ' (z^{k-1}_j)*a^{k-2}_i$$

$$\frac{\partial C}{\partial b^{k-1}_{j}}=\sum^3_{m=1}2(a^k_m-C_m)*\sigma '(z^k_m)*w^k_{jm}*\sigma ' (z^{k-1}_j)*1$$

# Second Layer

# Example

$$\frac{\partial C}{\partial w^{2}_{31}}=\frac{\partial C}{\partial a^4_1}*\frac{\partial a^4_1}{\partial z^4_1}*(\frac{\partial z^4_1}{\partial a^3_1}*\frac{\partial a^3_1}{\partial z^3_1}*\frac{\partial z^3_1}{\partial a^2_1}*\frac{\partial a^2_1}{\partial z^2_1}*\frac{\partial z^2_1}{\partial w^2_{31}}+\frac{\partial z^4_1}{\partial a^3_2}*\frac{\partial a^3_2}{\partial z^3_2}*\frac{\partial z^3_2}{\partial a^2_1}*\frac{\partial a^2_1}{\partial z^2_1}*\frac{\partial z^2_1}{\partial w^2_{31}}) +\frac{\partial C}{\partial a^4_2}*\frac{\partial a^4_2}{\partial z^4_2}*(\frac{\partial z^4_2}{\partial a^3_1}*\frac{\partial a^3_1}{\partial z^3_1}*\frac{\partial z^3_1}{\partial a^2_1}*\frac{\partial a^2_1}{\partial z^2_1}*\frac{\partial z^2_1}{\partial w^2_{31}}+\frac{\partial z^4_2}{\partial a^3_2}*\frac{\partial a^3_2}{\partial z^3_2}*\frac{\partial z^3_2}{\partial a^2_1}*\frac{\partial a^2_1}{\partial z^2_1}*\frac{\partial z^2_1}{\partial w^2_{31}})+\frac{\partial C}{\partial a^4_3}*\frac{\partial a^4_3}{\partial z^4_3}*(\frac{\partial z^4_3}{\partial a^3_1}*\frac{\partial a^3_1}{\partial z^3_1}*\frac{\partial z^3_1}{\partial a^2_1}*\frac{\partial a^2_1}{\partial z^2_1}*\frac{\partial z^2_1}{\partial w^2_{31}}+\frac{\partial z^4_3}{\partial a^3_2}*\frac{\partial a^3_2}{\partial z^3_2}*\frac{\partial z^3_2}{\partial a^2_1}*\frac{\partial a^2_1}{\partial z^2_1}*\frac{\partial z^2_1}{\partial w^2_{31}})$$


# Formula 

$$\frac{\partial C}{\partial w^{k-2}_{ij}}=\sum^3_{m=1}\frac{\partial C}{\partial a^k_m}*\frac{\partial a^k_m}{\partial z^k_m}\sum^2_{p=1}\frac{\partial z^k_m}{\partial a^{k-1}_p}*\frac{\partial a^{k-1}_p}{\partial z^{k-1}_p}*\frac{\partial z^{k-1}_p }{\partial a^{k-2}_j}*\frac{\partial a^{k-2}_j }{\partial z^{k-2}_j}*\frac{\partial z^{k-2}_j }{\partial w^{k-2}_{ij}}$$

$$\frac{\partial C}{\partial b^{k-2}_{j}}=\sum^3_{m=1}\frac{\partial C}{\partial a^k_m}*\frac{\partial a^k_m}{\partial z^k_m}\sum^2_{p=1}\frac{\partial z^k_m}{\partial a^{k-1}_p}*\frac{\partial a^{k-1}_p}{\partial z^{k-1}_p}*\frac{\partial z^{k-1}_p }{\partial a^{k-2}_j}*\frac{\partial a^{k-2}_j }{\partial z^{k-2}_j}*\frac{\partial z^{k-2}_j }{\partial b^{k-2}_{j}}$$

# Derivatives solved

$$\frac{\partial C}{\partial w^{k-2}_{ij}}=\sum^3_{m=1}2(a^k_m-C_m)*\sigma '(z^k_m)\sum^2_{p=1}w^k_{pm}*\sigma '(z^{k-1}_p)*w^{k-1}_{jp}*\sigma '(z^{k-2}_j)*a^{k-3}_i$$

$$\frac{\partial C}{\partial b^{k-2}_{j}}=\sum^3_{m=1}2(a^k_m-C_m)*\sigma '(z^k_m)\sum^2_{p=1}w^k_{pm}*\sigma '(z^{k-1}_p)*w^{k-1}_{jp}*\sigma '(z^{k-2}_j)*1$$

# The general formula for any amount of hidden layer and x amount of neuron for layer

First a change in terminology $m=i_k$, $p=i_{k-1}$...

$$
\frac{\partial C}{\partial w^{k-n}_{ij}} = \frac{1}{N_k} \sum_{i_k=1}^{N_k} 2(a^k_{i_k} - C_{i_k}) \sigma'(z^k_{i_k}) 
\sum_{i_{k-1}=1}^{N_{k-1}} w^k_{i_{k-1}i_k} \sigma'(z^{k-1}_{i_{k-1}}) 
\sum_{i_{k-2}=1}^{N_{k-2}} w^{k-1}_{i_{k-2}i_{k-1}} \sigma'(z^{k-2}_{i_{k-2}}) 
$$

$$
\sum_{i_{k-3}=1}^{N_{k-3}} w^{k-2}_{i_{k-3}i_{k-2}} \sigma'(z^{k-3}_{i_{k-3}}) \cdots 
\sum_{i_{k-n+1}=1}^{N_{k-n+1}} w^{k-n+2}_{i_{k-n+1}i_{k-n+2}} \sigma'(z^{k-n+1}_{i_{k-n+1}}) 
w^{k-n+1}_{ji_{k-n+1}} \sigma'(z^{k-n}_j) a^{k-n-1}_i
$$

$$
\frac{\partial C}{\partial b^{k-n}_{j}} = \frac{1}{N_k} \sum_{i_k=1}^{N_k} 2(a^k_{i_k} - C_{i_k}) \sigma'(z^k_{i_k}) \sum_{i_{k-1}=1}^{N_{k-1}} w^k_{i_{k-1}i_k} \sigma'(z^{k-1}_{i_{k-1}}) \sum_{i_{k-2}=1}^{N_{k-2}} w^{k-1}_{i_{k-2}i_{k-1}} \sigma'(z^{k-2}_{i_{k-2}}) \sum_{i_{k-3}=1}^{N_{k-3}} w^{k-2}_{i_{k-3}i_{k-2}} \sigma'(z^{k-3}_{i_{k-3}}) \cdots \sum_{i_{k-n+1}=1}^{N_{k-n+1}} w^{k-n+2}_{i_{k-n+1}i_{k-n+2}} \sigma'(z^{k-n+1}_{i_{k-n+1}}) w^{k-n+1}_{ji_{k-n+1}} \sigma'(z^{k-n}_j) \cdot 1
$$


# Convirtiendo la suma a multiplicacion de matrices

### 1- First order

### Derivatives solved

$$\frac{\partial C}{\partial w^k_{i_{k-1}i_{k}}}=2(a^k_{i_{k}}-C_{i_{k}})*\sigma '(z^k_{i_{k}})a^{k-1}_{i_{k-1}}$$


Assuming vectors as rows and using the variable $A^1_{i_k}$:

$$A^1_{i_k}=2(a^k_{i_{k}}-C_{i_{k}})*\sigma '(z^k_{i_{k}})$$

$$
\left( \frac{\partial C}{\partial w^k_{i_{k-1},i_{k}}} \right)_{k-1,k} = 
\left( 
\left( 
\left( a^{k-1}_{i_{k-1}} \right)_{k-1,1}^T 
\cdot 
\left( A^1_{i_k} \right)_{1,k} 
\right) 
\right)_{k-1,k}
$$

### 2- Second order

### Derivatives solved

$$\frac{\partial C}{\partial w^{k-1}_{i_{k-2}i_{k-1}}}=\sum^{N_k}_{i_{k}=1}2(a^k_{i_{k}}-C_{i_{k}})*\sigma '(z^k_{i_{k}})*w^k_{i_{k-1}i_{k}}*\sigma ' (z^{k-1}_{i_{k-1}})*a^{k-2}_{i_{k-2}}$$

Using the variable $A^1_{i_k}$ y $A^2_{i_{k-1}i_{k}}$


$$A^1_{i_k}=2(a^k_{i_{k}}-C_{i_{k}})*\sigma '(z^k_{i_{k-1}})$$



$$A^2_{i_{k-1}i_{k}}= w^k_{i_{k-1}i_{k}}*\sigma ' (z^{k-1}_{i_{k-1}}) $$

We have the following formula:


$$
\left( \frac{\partial C}{\partial w^{k-1}_{i_{k-2},i_{k-1}}}\right)_{k-2,k-1} = 
\left( 
\left( 
\left( 
A^2_{i_{k-1},i_{k}} 
\cdot (A^1_{i_{k}})^T_{i_{k},1} 
\right)_{i_{k-1},1} 
\cdot (a^{k-2}_{i_{k-2}})_{1,i_{k-2}} 
\right) 
\right)^T_{k-2,k-1}
$$

### 3- Third order

$$
\frac{\partial C}{\partial w^{k-2}_{i_{k-3},i_{k-2}}} = 
\sum_{i_{k}=1}^{N_k} 2(a^k_{i_k} - C_{i_k}) \cdot \sigma'(z^k_{i_k}) 
\sum_{i_{k-1}=1}^{N_{k-1}} w^k_{i_{k-1},i_k} \cdot \sigma'(z^{k-1}_{i_{k-1}}) 
\cdot w^{k-1}_{i_{k-2},i_{k-1}} \cdot \sigma'(z^{k-2}_{i_{k-2}}) 
\cdot a^{k-3}_{i_{k-3}}
$$

Using the variables $A^1_{i_k}$ , $A^2_{i_{k-1}i_{k}}$ y $A^3_{i_{k-2}i_{k-1}}$:

$$A^1_{i_k}=2(a^k_{i_{k}}-C_{i_{k}})*\sigma '(z^k_{i_{k-1}})$$

$$A^2_{i_{k-1}i_{k}}= w^k_{i_{k-1}i_{k}}*\sigma ' (z^{k-1}_{i_{k-1}}) $$

$$A^3_{i_{k-2}i_{k-1}}=w^{k-1}_{i_{k-2},i_{k-1}} \cdot \sigma'(z^{k-2}_{i_{k-2}}) $$

We have the following formula:

$$\left( \left[ \left( A^3_{i_{k-2}i_{k-1}}\right)_{k-2,k-1}\cdot\left[ \left( A^2_{i_{k-1}i_{k}}\right)_{k-1,k}\cdot \left(A^1_{i_k}\right)^T_{k,1}\right]\right]\cdot\left(a^{k-3}_{i_{k-3}} \right)_{1,k-3} \right)^T$$

### 4- Fourt order

$$\left(\frac{\partial C}{\partial w^{k-3}_{i_{k-4},i_{k-3}}}\right)_{k-4,k-3}=\left[ \left( \left(A^4_{i_{k-3}i_{k-2}} \right)_{k-3,k-2} \cdot \left[ \left( A^3_{i_{k-2}i_{k-1}}\right)_{k-2,k-1} \cdot \left(\left(A^2_{i_{k-1}i_{k}}\right)_{k-1,k} \cdot \left(A^1_{i_k}\right)^T_{k,1}  \right)_{k-1,1}\right]\right)\cdot \left(a^{k-4}_{i_{k-4}} \right)_{1,k-4}\right]^T$$

.
.
.

### N- N order

$$\left(\frac{\partial C}{\partial w^{k-N}_{i_{k-N-1},i_{k-N}}}\right)_{k-N-1,k-N}=\left( \left[\left(A^{N+1}_{i_{k-N}i_{k-N-1}}\right) \cdots \left( \left(A^4_{i_{k-3}i_{k-2}} \right)_{k-3,k-2} \cdot \left[ \left( A^3_{i_{k-2}i_{k-1}}\right)_{k-2,k-1} \cdot \left(\left(A^2_{i_{k-1}i_{k}}\right)_{k-1,k} \cdot \left(A^1_{i_k}\right)^T_{k,1}  \right)_{k-1,1}\right]\right)\right]\cdot \left(a^{k-4}_{i_{k-4}} \right)_{1,k-4}\right)^T$$

# 4. [Red Neuronal del premio nobel](#applications-of-cnns)


<p align="center">
  <img src="hop.png" width="4000">
</p>

Las **Hofield Neural Networks** son un tipo especializado de redes neuronales diseñadas para capturar relaciones complejas en datos con estructuras espaciales o temporales, aprovechando técnicas avanzadas de aprendizaje profundo. Estas redes combinan conceptos de modelado probabilístico y redes neuronales para abordar problemas donde la correlación entre variables juega un papel fundamental.

Este enfoque es especialmente útil en áreas como procesamiento de señales, análisis de imágenes y modelado de series temporales, donde las dependencias no lineales y las interacciones entre componentes deben ser aprendidas eficazmente. Las Hofield Neural Networks integran mecanismos que permiten representar dinámicas complejas y pueden mejorar significativamente el desempeño en tareas de predicción y clasificación.

El estudio y aplicación de estas redes representa una frontera en la investigación en inteligencia artificial, combinando teoría matemática avanzada con implementaciones prácticas en diversas disciplinas.

# - 4.1 [Hopfield Neural Network](#convolution)
  

# Teoría de las Redes de Hopfield

Las **Redes de Hopfield** son un tipo de red neuronal recurrente desarrollada por John Hopfield en 1982. Están inspiradas en los sistemas físicos que buscan estados de energía mínima, como los sistemas magnéticos de Ising, y se utilizan principalmente como modelos de memoria asociativa. Estas redes son capaces de almacenar patrones y recuperarlos incluso cuando las entradas contienen ruido o están incompletas.

## Características Principales:

- Las neuronas están completamente conectadas entre sí, excepto consigo mismas ($w_{ii} = 0$).
- Las conexiones son **simétricas**: $w_{ij} = w_{ji}$.
- El estado de cada neurona es binario: $s_i \in \{-1, 1\}$.
- Evolucionan buscando un mínimo de una **función de energía**.

---

## Función de Energía de Hopfield

La red evoluciona hacia un estado que minimiza la **energía del sistema**. La función de energía asociada es:

$$
E = -\frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n w_{ij} s_i s_j 
$$

Donde:
- $s_i$ es el estado de la neurona $i$.
- $w_{ij}$ es el peso de conexión entre las neuronas $i$ y $j$.
-

La red evoluciona modificando los estados $s_i$ para minimizar esta función de energía.

---

## Dinámica de Actualización

La dinámica típica de actualización de las neuronas es asincrónica, es decir, se actualiza una neurona a la vez de forma secuencial o aleatoria. La regla de actualización para la neurona $i$ es:

$$
s_i \leftarrow \text{sign}\left( \sum_{j=1}^n w_{ij} s_j \right)
$$

Donde:
- $\text{sign}(\cdot)$ es la función signo que devuelve $1$ si la entrada es positiva y $-1$ si es negativa.

---

## Almacenamiento de Patrones (Hebb's Rule)

Los pesos de la red pueden determinarse utilizando la regla de Hebb para almacenar un conjunto de $p$ patrones $\{\mathbf{s}^{(1)}, \mathbf{s}^{(2)}, \dots, \mathbf{s}^{(p)}\}$:

$$
w_{ij} = \frac{1}{n} \sum_{\mu=1}^p s_i^{(\mu)} s_j^{(\mu)}, \quad \text{con} \quad w_{ii} = 0
$$

Donde:
- $s_i^{(\mu)}$ es el valor de la neurona $i$ en el patrón $\mu$.
- $n$ es el número de neuronas.

---

## Propiedades Fundamentales

- La función de energía disminuye (o permanece constante) con cada actualización, garantizando convergencia a un mínimo local.
- Los mínimos locales de la energía corresponden a los **patrones almacenados** (o a distorsiones cercanas).
- Puede funcionar como **memoria asociativa**: dada una entrada incompleta o ruidosa, la red converge al patrón más parecido almacenado.

---

## Limitaciones

- Capacidad máxima limitada a aproximadamente $0.138n$ patrones para una red de $n$ neuronas (por el análisis estadístico de Amit, Gutfreund y Sompolinsky, 1985).
- Puede tener mínimos locales espurios (falsos recuerdos).
- Solo funciona bien con patrones poco correlacionados entre sí.

---

## Aplicaciones Típicas

- Memoria asociativa y corrección de errores.
- Reconocimiento de patrones incompletos o ruidosos.
- Optimización combinatoria (relacionada con el problema del viajero).


<p align="center">
  <img src="conection.png" width="4000">
</p>

<p align="center">
  <img src="hapi.png" width="4000">
</p>

<p align="center">
  <img src="network hapi.png" width="4000">
</p>

<p align="center">
  <img src="energy.png" width="4000">
</p>

<p align="center">
  <img src="mini.png" width="4000">
</p>

<p align="center">
  <img src="hebian.png" width="4000">
</p>

# Ejemplo Completo: Almacenamiento y Recuperación de un Patrón en una Red de Hopfield

Supongamos que queremos almacenar un único patrón \([+1, -1, +1]\) en una red de Hopfield con 3 neuronas.

### 1. Etapa de Aprendizaje: Almacenamiento del Patrón

El objetivo es calcular los pesos $w_{ij}$ para que este patrón se almacene como un estado estable en la red.

#### Regla de aprendizaje de Hebb:
$$
w_{ij} = \frac{1}{N} \sum_{\mu=1}^{P} \xi_{i\mu} \xi_{j\mu}, \quad w_{ii} = 0,
$$
donde:

- $N$ es el número de neuronas.
- $\xi_{i\mu}$ es el estado de la neurona $i$ en el patrón $\mu$.
- $P$ es el número de patrones almacenados (en este caso, 1).

Patrón dado:

$$
\xi = [+1, -1, +1].
$$

#### Cálculo de los pesos $w_{ij}$: Para cada par de neuronas $i,j$, usamos:

$$
w_{ij} = \xi_i \cdot \xi_j.
$$

Construimos la matriz de pesos $W$:

$$
W = \begin{bmatrix}
w_{11} & w_{12} & w_{13} \\
w_{21} & w_{22} & w_{23} \\
w_{31} & w_{32} & w_{33}
\end{bmatrix}.
$$

Como $w_{ii} = 0$ (una neurona no se conecta consigo misma):

$$
w_{11} = w_{22} = w_{33} = 0.
$$

Para $w_{12}$:

$$
w_{12} = \xi_1 \cdot \xi_2 = (+1)(-1) = -1.
$$

Para $w_{13}$:

$$
w_{13} = \xi_1 \cdot \xi_3 = (+1)(+1) = +1.
$$

Para $w_{23}$:

$$
w_{23} = \xi_2 \cdot \xi_3 = (-1)(+1) = -1.
$$

Dado que la red es simétrica ($w_{ij} = w_{ji}$):

$$
w_{21} = w_{12}, \quad w_{31} = w_{13}, \quad w_{32} = w_{23}.
$$

Finalmente:

$$
W = \begin{bmatrix}
0 & -1 & +1 \\
-1 & 0 & -1 \\
+1 & -1 & 0
\end{bmatrix}.
$$

Ahora hemos almacenado el patrón \([+1, -1, +1]\) en la red.

### 2. Etapa de Recuperación: Convergencia hacia el Patrón

Supongamos que introducimos una entrada inicial incompleta o ruidosa, como \([+1, +1, -1]\), y queremos que la red recupere el patrón original \([+1, -1, +1]\).

#### Dinámica de actualización:
La regla para actualizar una neurona $i$ es:

$$
s_i(t+1) = 
\begin{cases}
+1 & \text{si } \sum_{j} w_{ij} s_j(t) > 0, \\
-1 & \text{si } \sum_{j} w_{ij} s_j(t) < 0.
\end{cases}
$$

**Paso 1: Calcular el estado de cada neurona**

Estado inicial:

$$
s = [+1, +1, -1].
$$

Actualizar $s_1$: La entrada a la neurona 1 es:

$$
\sum_{j} w_{1j} s_j = w_{11} s_1 + w_{12} s_2 + w_{13} s_3 = 0 \cdot (+1) + (-1) \cdot (+1) + 1 \cdot (-1) = -2.
$$

Como la entrada es negativa, actualizamos $s_1 = -1$.

Actualizar $s_2$: La entrada a la neurona 2 es:

$$
\sum_{j} w_{2j} s_j = w_{21} s_1 + w_{22} s_2 + w_{23} s_3 = (-1) \cdot (+1) + 0 \cdot (+1) + (-1) \cdot (-1) = 0.
$$

Como la entrada es cero, $s_2$ permanece igual.

Actualizar $s_3$: La entrada a la neurona 3 es:

$$
\sum_{j} w_{3j} s_j = w_{31} s_1 + w_{32} s_2 + w_{33} s_3 = 1 \cdot (+1) + (-1) \cdot (+1) + 0 \cdot (-1) = 0.
$$

Como la entrada es cero, $s_3$ permanece igual.

El nuevo estado es:

$$
s = [-1, +1, -1].
$$

**Paso 2: Continuar con la actualización hasta que la red converja.**

El proceso continúa hasta que todas las neuronas converjan al patrón almacenado. En este caso, después de algunas iteraciones, la red recuperará el patrón \([+1, -1, +1]\).

# IMplementacion de una Hopfield Neural Network

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Definición de la clase de la Red de Hopfield
class HopfieldNetwork:
    def __init__(self, n_units):
        # Número de neuronas (dimensión del patrón a memorizar)
        self.n_units = n_units
        # Inicializamos la matriz de pesos como una matriz de ceros
        self.weights = np.zeros((n_units, n_units))

    def train(self, patterns):
        # Entrena la red mediante la regla de Hebb
        for p in patterns:
            # Aseguramos que el patrón tenga forma columna (n, 1)
            p = p.reshape(-1, 1)
            # Actualizamos la matriz de pesos: W += p * p^T
            self.weights += p @ p.T
        # Quitamos las autoconexiones (peso de la neurona i a sí misma = 0)
        np.fill_diagonal(self.weights, 0)
        # Normalizamos por la cantidad de patrones
        self.weights /= len(patterns)

    def energy(self, state):
        # Calcula la energía del sistema para un estado dado
        # La energía baja cuando el patrón es uno almacenado
        return -0.5 * state @ self.weights @ state.T

    def recall(self, pattern, steps=10):
        # Recupera un patrón a partir de una entrada ruidosa o incompleta
        state = pattern.copy()
        for _ in range(steps):
            # Se actualiza cada neurona una por una (sincrónicamente)
            for i in range(self.n_units):
                # Producto punto de la fila i de pesos por el estado actual
                raw = np.dot(self.weights[i], state)
                # Regla de activación: signo del potencial (Hopfield binario -1 o 1)
                state[i] = 1 if raw >= 0 else -1
        # Retorna el patrón actualizado tras las iteraciones
        return state


# Creamos patrones simples de ejemplo (5x5 píxeles -> 25 neuronas)
def plot_pattern(pattern, title=""):
    # Dibuja el patrón como una imagen
    plt.imshow(pattern.reshape(5, 5), cmap="binary")
    plt.title(title)
    plt.axis('off')
    plt.show()


# Definimos dos patrones binarios de 5x5 (convertidos en vectores de -1 y 1)
p1 = np.array([1, 1, 1, 1, 1,
               1, -1, -1, -1, 1,
               1, -1, 1, -1, 1,
               1, -1, -1, -1, 1,
               1, 1, 1, 1, 1])

p2 = np.array([-1, -1, 1, -1, -1,
               -1, 1, 1, 1, -1,
               1, -1, 1, -1, 1,
               -1, 1, 1, 1, -1,
               -1, -1, 1, -1, -1])

# Instanciamos la red con 25 neuronas
net = HopfieldNetwork(n_units=25)

# Entrenamos la red con los dos patrones
net.train([p1, p2])

# Visualizamos los patrones entrenados
plot_pattern(p1, "Pattern 1")
plot_pattern(p2, "Pattern 2")

# Creamos un patrón ruidoso (perturbamos p1)
noisy_p1 = p1.copy()
noisy_p1[0] = -1
noisy_p1[24] = -1

# Creamos un patrón ruidoso (perturbamos p2)
noisy_p2 = p2.copy()
noisy_p2[0] = 1
noisy_p2[24] =1

plot_pattern(noisy_p1, "Noisy Pattern 1")

plot_pattern(noisy_p2, "Noisy Pattern 1")
# Recuperamos el patrón original a partir del ruidoso
recalled = net.recall(noisy_p1, steps=5)
recalled2 = net.recall(noisy_p2, steps=5)
plot_pattern(recalled, "Recalled Pattern from Noisy Input")
plot_pattern(recalled2, "Recalled Pattern from Noisy Input")


# - 4.2 [Boltzman Machine](#activation-functions)

<p align="center">
  <img src="boltz1.png" width="4000">
</p>

<p align="center">
  <img src="boltzman2.png" width="4000">
</p>

<p align="center">
  <img src="boltz3.png" width="4000">
</p>

<p align="center">
  <img src="boltz4.png" width="4000">
</p>

<p align="center">
  <img src="boltz5.png" width="4000">
</p>

<p align="center">
  <img src="boltz6.png" width="4000">
</p>

<p align="center">
  <img src="boltz8.png" width="4000">
</p>

<p align="center">
  <img src="boltz9.png" width="4000">
</p>

<p align="center">
  <img src="boltz10.png" width="4000">
</p>

<p align="center">
  <img src="boltz12.png" width="4000">
</p>

<p align="center">
  <img src="boltz13.png" width="4000">
</p>

<p align="center">
  <img src="boltz14.png" width="4000">
</p>

<p align="center">
  <img src="boltz15.png" width="4000">
</p>

<p align="center">
  <img src="boltz16.png" width="4000">
</p>

<p align="center">
  <img src="boltz17.png" width="4000">
</p>

<p align="center">
  <img src="boltz18.png" width="4000">
</p>

<p align="center">
  <img src="boltz19.png" width="4000">
</p>

<p align="center">
  <img src="boltz20.png" width="4000">
</p>

# Máquinas de Boltzmann (Boltzmann Machines)

Las **Máquinas de Boltzmann** son un tipo de red neuronal estocástica recurrente que extiende las ideas de las **Redes de Hopfield** al introducir **variables aleatorias** y un modelo basado en la estadística de sistemas físicos. Fueron introducidas por **Geoffrey Hinton y Terry Sejnowski en 1985**.

Estas redes están inspiradas en principios de la **física estadística**, específicamente en los modelos de **Ising** y la **distribución de Boltzmann**. Son utilizadas para aprender distribuciones de probabilidad complejas sobre datos y para resolver problemas de optimización difíciles.

---

## Estructura de una Boltzmann Machine

### Componentes:
- **Unidades visibles ($v$):** Corresponden a los datos observables de entrada.
- **Unidades ocultas ($h$):** Modelan dependencias latentes o no observables.
- Todas las neuronas están conectadas entre sí de forma simétrica.
- Los estados posibles son usualmente **binarios**: $s_i \in \{0, 1\}$.

---

## Función de Energía

La máquina de Boltzmann define una **función de energía** para cualquier configuración de unidades visibles e invisibles $(v, h)$:

$$
E(v, h) = -\sum_{i<j} w_{ij} s_i s_j - \sum_{i} b_i s_i
$$
Donde:
- $w_{ij}$ son los pesos sinápticos (simétricos: $w_{ij} = w_{ji}$).
- $b_i$ es el sesgo (bias) de la neurona $i$.
- $s_i$ es el estado binario de la neurona $i$.

---

## Distribución de Boltzmann

La probabilidad de una configuración $(v, h)$ viene dada por la **distribución de Boltzmann**:

$$
P(v, h) = \frac{1}{Z} e^{-E(v, h)}
$$

Donde $Z$ es la constante de normalización conocida como la **partición**:

$$
Z = \sum_{v, h} e^{-E(v, h)}
$$

Esta distribución favorece configuraciones de baja energía.

---

## Objetivo del Aprendizaje

El objetivo del entrenamiento es ajustar los pesos $w_{ij}$ y sesgos $b_i$ para que la distribución marginal sobre las unidades visibles $P(v)$ aproxime la distribución de los datos.

$$
P(v) = \sum_h P(v, h)
$$

La función de costo se define como la **divergencia Kullback-Leibler (KL)** entre la distribución de los datos y la distribución del modelo.

---

## Algoritmo de Aprendizaje

El gradiente del logaritmo de la probabilidad está dado por:

$$
\frac{\partial \log P(v)}{\partial w_{ij}} = \langle s_i s_j \rangle_{\text{datos}} - \langle s_i s_j \rangle_{\text{modelo}}
$$

- $\langle \cdot \rangle_{\text{datos}}$: esperanza sobre las muestras reales.
- $\langle \cdot \rangle_{\text{modelo}}$: esperanza sobre las muestras generadas por la máquina.

**Dificultad:** Calcular $\langle \cdot \rangle_{\text{modelo}}$ requiere simular toda la red hasta alcanzar el equilibrio, lo que es computacionalmente costoso.

---

## Máquinas de Boltzmann Restringidas (RBM)

Para simplificar el aprendizaje, se introducen las **Restricted Boltzmann Machines (RBM)**, donde:
- No hay conexiones entre unidades visibles.
- No hay conexiones entre unidades ocultas.

Esto permite que las unidades ocultas sean **condicionalmente independientes** dadas las visibles, y viceversa.

---

## Aplicaciones Típicas

- Reducción de dimensionalidad.
- Detección de características latentes.
- Pre-entrenamiento no supervisado en redes profundas (Deep Belief Networks).
- Modelado generativo de datos.

---

## Referencias Clave

- Hinton, G. E., & Sejnowski, T. J. (1985). A Learning Algorithm for Boltzmann Machines. *Cognitive Science*, 9(1), 147–169.
- Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. *Neural Computation, 14*(8), 1771–1800.

---



# 5. [Pysics Informed Neural Network](#convolution)

<p align="center">
  <img src="a.png" width="4000">
</p>

# Physics-Informed Neural Networks (PINNs)

## ¿Qué son las PINNs?

Las **Physics-Informed Neural Networks (PINNs)** son una clase de redes neuronales diseñadas para resolver problemas gobernados por ecuaciones diferenciales (ordinarias o parciales), incorporando directamente el conocimiento físico (las ecuaciones) dentro del proceso de entrenamiento.

La idea central es que, además de ajustar los datos, la red respete las leyes físicas representadas por las ecuaciones diferenciales. Esta técnica fue popularizada por **M. Raissi, P. Perdikaris y G. E. Karniadakis** en 2019.

---

## ¿Cómo funcionan las PINNs?

### 1️⃣ Aproximación con Redes Neuronales
Sea $u(x, t)$ la solución buscada de una EDP o EDO. Se aproxima mediante una red neuronal:
$$
u_{\theta}(x, t) \approx u(x, t)
$$
donde $\theta$ son los parámetros (pesos y sesgos) de la red.

### 2️⃣ Incorporación de la Física (Ecuaciones Diferenciales)
Supongamos que la ecuación que gobierna el sistema es:
$$
\mathcal{N}[u](x, t) = 0
$$
donde $\mathcal{N}$ es un operador diferencial (puede incluir derivadas espaciales, temporales, no linealidades, etc.).

La red se entrena para que **$u_{\theta}(x, t)$ no solo ajuste los datos conocidos, sino que también satisfaga esta ecuación diferencial.**

---

## Función de Pérdida (Loss Function)

La función de pérdida típica combina dos términos:

### 🔹 **Pérdida de datos (Data Loss):**
Ajusta los datos disponibles (condiciones iniciales, de frontera, observaciones).

$$
\mathcal{L}_{\text{data}} = \frac{1}{N_d} \sum_{i=1}^{N_d} |u_{\theta}(x_i, t_i) - u_i^{\text{data}}|^2
$$

### 🔹 **Pérdida física (Physics Loss):**
Asegura que la red cumpla la ecuación diferencial en puntos seleccionados dentro del dominio.

$$
\mathcal{L}_{\text{physics}} = \frac{1}{N_f} \sum_{i=1}^{N_f} |\mathcal{N}[u_{\theta}](x_i, t_i)|^2
$$

### 🔹 **Pérdida total:**
$$
\mathcal{L} = \mathcal{L}_{\text{data}} + \lambda \mathcal{L}_{\text{physics}}
$$
donde $\lambda$ pondera la importancia relativa de las condiciones físicas respecto a los datos.

---

## ¿Cómo se calcula $\mathcal{N}[u_{\theta}]$?
Las PINNs usan **diferenciación automática** (autodiff) para calcular derivadas de la red respecto a sus entradas, lo que permite construir $\mathcal{N}[u_{\theta}]$ sin necesidad de discretizar.

Por ejemplo:
```python
with tf.GradientTape() as tape:
    tape.watch(x)
    u = model(x)
    u_x = tape.gradient(u, x)

<p align="center">
  <img src="pinns1.png" width="4000">
</p>

<p align="center">
  <img src="pinns2.png" width="4000">
</p>

<p align="center">
  <img src="pinns3.png" width="4000">
</p>

<p align="center">
  <img src="pinns4.png" width="4000">
</p>

<p align="center">
  <img src="pinns5.png" width="4000">
</p>

<p align="center">
  <img src="pinns6.png" width="4000">
</p>

<p align="center">
  <img src="pinns7.png" width="4000">
</p>

<p align="center">
  <img src="pinns8.png" width="4000">
</p>

# Codigo ejemplo para el problema de la ecuacion de DKP

# Ecuación de Duffin-Kemmer-Petiau (DKP)

## Introducción

La **Ecuación de Duffin-Kemmer-Petiau (DKP)** es una ecuación relativista que describe partículas **bosónicas** (espín 0 y espín 1), análoga a la ecuación de Dirac, que está formulada para fermiones (espín 1/2). Fue propuesta independientemente por **R.J. Duffin (1938), N. Kemmer (1939) y G. Petiau (1936)**.

La formulación DKP unifica, dentro de una misma estructura algebraica matricial, las ecuaciones de **Klein-Gordon** (espín 0) y **Proca** (espín 1), mediante matrices que satisfacen una algebra específica.

---

## Forma General de la Ecuación DKP

La ecuación DKP se escribe como:

$$
(i \beta^{\mu} \partial_{\mu} - m) \psi = 0
$$

Donde:
- $\psi$ es el campo DKP, un vector de dimensión 5 (para espín 0) o 10 (para espín 1).
- $\beta^{\mu}$ son matrices que obedecen la **álgebra DKP**.
- $m$ es la masa de la partícula.
- $\partial_{\mu}$ es la derivada parcial covariante.

---

## Álgebra DKP

Las matrices $\beta^{\mu}$ satisfacen las siguientes relaciones:

$$
\beta^{\mu} \beta^{\nu} \beta^{\lambda} + \beta^{\lambda} \beta^{\nu} \beta^{\mu} = \beta^{\mu} \eta^{\nu \lambda} + \beta^{\lambda} \eta^{\nu \mu}
$$

Donde $\eta^{\mu\nu}$ es la métrica de Minkowski, típicamente $\text{diag}(1, -1, -1, -1)$.

Esta álgebra es diferente a la del álgebra de Clifford que satisface la ecuación de Dirac.

---

## Representaciones
- **Representación de 5x5 matrices**: describe partículas de **espín 0** (equivalente a Klein-Gordon).
- **Representación de 10x10 matrices**: describe partículas de **espín 1** (equivalente a Proca).

---

## Lagrangiano

El lagrangiano que genera la ecuación DKP por principio variacional es:

$$
\mathcal{L} = \bar{\psi} (i \beta^{\mu} \partial_{\mu} - m) \psi
$$
donde $\bar{\psi} = \psi^{\dagger} \eta$ y $\eta$ es una matriz definida para que la teoría sea invariante bajo transformaciones de Lorentz y que asegure un lagrangiano hermítico.

---

## Propiedades Generales

- La ecuación DKP es **lineal en derivadas**, igual que la de Dirac.
- Describe **campos bosónicos** (no fermiones).
- Puede acoplarse de forma natural a campos electromagnéticos mediante la derivada covariante:
$$
\partial_{\mu} \rightarrow D_{\mu} = \partial_{\mu} + i e A_{\mu}
$$

---

## Relación con otras ecuaciones

| Tipo de Campo | Ecuación Relacionada | Dimensión DKP | 
|---------------|----------------------|---------------|
| Escalar       | Klein-Gordon          | 5             |
| Vectorial     | Proca                 | 10            |

---

## Corriente Conservada

Se puede definir una corriente conservada en DKP como:
$$
j^{\mu} = \bar{\psi} \beta^{\mu} \psi
$$
satisfaciendo $\partial_{\mu} j^{\mu} = 0$.

---

## Diferencias con Dirac
| Característica     | Dirac            | DKP               |
|--------------------|------------------|-------------------|
| Tipo de partícula  | Fermiones (espín 1/2) | Bosones (espín 0, 1) |
| Álgebra            | Clifford         | DKP               |
| Representación     | 4x4               | 5x5 o 10x10        |
| Combinatoria algebraica | Anticonmutadores | Relación trilineal |

---

## Referencias Fundamentales

- Duffin, R.J. "On the Characteristic Matrices of Covariant Systems." *Phys. Rev.* **54**, 1114 (1938).
- Kemmer, N. "The Particle Aspect of Meson Theory." *Proc. Roy. Soc. A* **173**, 91 (1939).
- Petiau, G. "On Dirac-type Equations for Bosons." *Acad. Roy. de Belg., Cl. Sci. Mem. Collect.*, 16(2), 1936.
- Lunardi, J. T., Manzoni, L. A., Pimentel, B. M., & Teixeira, R. G. (2000). "Remarks on the Duffin-Kemmer-Petiau theory and gauge invariance." *International Journal of Theoretical Physics*, 39(1), 121-131.


# Ecuación tipo Klein-Gordon a resolver (Potencial hiperbólico tangente)

## Forma general de la ecuación

Cuando se trabaja con la representación escalar del formalismo **Duffin-Kemmer-Petiau (DKP) para espín 0**, la ecuación se reduce a una ecuación tipo **Klein-Gordon** con potencial escalar o vectorial, dependiendo del acoplamiento. En el artículo estudiado, la ecuación a resolver es la siguiente:

$$
\frac{d^2 \phi(x)}{dx^2} + \left\{ [E - V(x)]^2 - m^2 \right\} \phi(x) = 0
$$

Donde:
- $ E $ es la energía de la partícula.
- $ V(x) $ es el potencial aplicado.
- $ m $ es la masa de la partícula.
- $ \phi(x) $ es la función de onda escalar.

---

## Potencial utilizado: Potencial hiperbólico tangente

El potencial considerado en este caso es el **potencial hiperbólico tangente**, definido como:

$$
V(x) = a \tanh(bx)
$$

Donde:
- $ a $ controla la altura del potencial.
- $ b $ controla la suavidad de la transición.

Este potencial tiene la siguiente forma cualitativa:
- Para $ x \to -\infty $, $ V(x) \to -a $
- Para $ x \to +\infty$, $ V(x) \to a $

Cuando $b \to \infty$, el potencial se aproxima a un escalón.

---

## Ecuación específica a resolver

Al reemplazar el potencial en la ecuación de Klein-Gordon, la ecuación concreta a resolver es:

$$
\frac{d^2 \phi(x)}{dx^2} + \left\{ [E - a \tanh(bx)]^2 - m^2 \right\} \phi(x) = 0
$$

Esta es una **ecuación diferencial de segundo orden no lineal en la variable dependiente del potencial**.

---

## Cambio de variable sugerido en el artículo

El artículo propone el cambio:
$$
y = - e^{2bx}
$$
Este cambio transforma la ecuación en una forma que permite reducirla a la **ecuación hipergeométrica** clásica.

La forma intermedia obtenida es:
$$
4b^2 y \frac{d}{dy} \left( y \frac{d\phi}{dy} \right) + \left[ \left( \frac{E + a}{1 + y} - \frac{E - a}{1 - y} \right)^2 - m^2 \right] \phi(y) = 0
$$

Finalmente, mediante un ansatz del tipo:
$$
\phi(y) = y^\alpha (1 - y)^\beta f(y)
$$
la ecuación se reduce a una **ecuación hipergeométrica** para \( f(y) \).

---

## Solución general

La solución general se expresa en términos de funciones hipergeométricas:
$$
\phi(x) = c_1 (-e^{2bx})^{i\nu} (1 + e^{2bx})^\lambda \, {}_2F_1( \ldots ) + c_2 (-e^{2bx})^{-i\nu} (1 + e^{2bx})^\lambda \, {}_2F_1( \ldots )
$$

Con los parámetros definidos como:
$$
\nu = \frac{\sqrt{(E + a)^2 - m^2}}{2b}, \quad \mu = \frac{\sqrt{(E - a)^2 - m^2}}{2b}, \quad \lambda = \frac{b + \sqrt{b^2 - 4a^2}}{2b}
$$

---

## Interpretación física

- En el límite $ x \to \pm \infty $, la ecuación describe ondas planas libres, permitiendo definir coeficientes de reflexión \( R \) y transmisión \( T \).
- El fenómeno de **superradiancia** (cuando $ R > 1 $) ocurre para ciertos rangos de energía.

---

## Referencia principal del artículo

**Clara Rojas (2018)**  
Scattering of a scalar relativistic particle by the hyperbolic tangent potential.  
https://arxiv.org/abs/1409.6342v1



## Ecuación específica a resolver

Al reemplazar el potencial en la ecuación de Klein-Gordon, la ecuación concreta a resolver es:

$$
\frac{d^2 \phi(x)}{dx^2} + \left\{ [E - a \tanh(bx)]^2 - m^2 \right\} \phi(x) = 0
$$

Esta es una **ecuación diferencial de segundo orden no lineal en la variable dependiente del potencial**.


In [None]:
import numpy as np
import pandas as pd
import matplotlib
#matplotlib.use('TkAgg') 
import matplotlib.pyplot as plt
import sympy as sp
from PIL import Image
from IPython.display import display, Image
import time
from sklearn.model_selection import train_test_split
import random
import tensorflow as tf
from scipy.optimize import fsolve

In [None]:
# Parámetros de la ecuación de Klein-Gordon
E = 8 # Energía
a = 5.0  # Amplitud de la barrera
b = 2.0  # Pendiente de la tangente hiperbólica
m = 1.0  # Masa

In [None]:
def k(E, a, b, m, x):
    x = tf.cast(x, tf.float32)  # 🔁 Asegura tipo compatible
    R = (E - a * tf.math.tanh(b * x))**2 - m**2
    return tf.sqrt(R)

In [None]:
# Definir la función k usando numpy en lugar de TensorFlow para compatibilidad con fsolve
def k_numpy(E, a, b, m, x):
    R = (E - a * np.tanh(b * x))**2 - m**2
    return np.sqrt(R)

# Función cuyo cero queremos encontrar
def f(x, E, a, b, m):
    return x + (5 * np.pi / k_numpy(E, a, b, m, x))

In [None]:
# Suposición inicial
x_inicial = -1.0
# Resolver
x_sol = fsolve(f, x_inicial, args=(E, a, b, m))[0]

print(f"Solución encontrada: x = {x_sol}")

In [None]:
x0=-10#x_sol-1
x01=-10#x_sol-1

In [None]:
k(E, a, b, m, x0)

# Dominio

In [None]:
# Usamos una única posición de frontera:
x_bc1 = np.linspace(-x01, x01-0.1, 250)[:, None]
x_left = np.linspace(x01, -3, 1000)[:, None]
x_left = tf.convert_to_tensor(x_left, dtype=tf.float32)  # Aseguramos que x_left sea un tensor tf.float32
# 2. Dominio interno (sin incluir frontera izquierda)
x_domain_np = np.linspace(x01, -x01, 1000)[:, None]  # ← Este es el dominio de entrenamiento para la PDE
x_domain = tf.convert_to_tensor(x_domain_np, dtype=tf.float32)

# Dominio derecho (para la frontera derecha)
x_right1 = np.linspace(0,-x01, 1000)[:, None]
x_right = tf.convert_to_tensor(x_right1, dtype=tf.float32)  # Aseguramos que x_left sea un tensor tf.float32


x_left1 = np.linspace(x01, 0, 1000)[:, None]
x_left1 = tf.convert_to_tensor(x_left1, dtype=tf.float32)  # Aseguramos que x_left sea un tensor tf.float32
# Dominio de evaluación
x_test_np = np.linspace(x01, -x01, 1000)[:, None]  # 500 puntos uniformemente distribuidos
x_test = tf.convert_to_tensor(x_test_np, dtype=tf.float32)

In [None]:
k_val = k(E, a, b, m, x0)

# MOdelos usados

In [None]:
def sin_activation(x):
    return tf.math.sin(x)

def cos_activation(x):
    return tf.math.cos(x)

In [None]:
def create_model1():
    model1 = {
        'dense1': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense2': tf.keras.layers.Dense(50, activation=cos_activation),
        'dense3': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense4': tf.keras.layers.Dense(50, activation=cos_activation),
        'output_layer': tf.keras.layers.Dense(1)
    }
    return model1

def call_model1(model1, x):
    x = model1['dense1'](x)
    x = model1['dense2'](x)
    x = model1['dense3'](x)
    x = model1['dense4'](x)
    x = model1['output_layer'](x)
    return x

def create_model2():
    model2 = {
        'dense1': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense2': tf.keras.layers.Dense(50, activation=cos_activation),
        'dense3': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense4': tf.keras.layers.Dense(50, activation=cos_activation),
        'output_layer': tf.keras.layers.Dense(1)
    }
    return model2

def call_model2(model2, x):
    x = model2['dense1'](x)
    x = model2['dense2'](x)
    x = model2['dense3'](x)
    x = model2['dense4'](x)
    x = model2['output_layer'](x)
    return x

def create_model3():
    model3 = {
        'dense1': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense2': tf.keras.layers.Dense(50, activation=cos_activation),
        'dense3': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense4': tf.keras.layers.Dense(50, activation=cos_activation),
        'output_layer': tf.keras.layers.Dense(1)
    }
    return model3

def call_model3(model3, x):
    x = model3['dense1'](x)
    x = model3['dense2'](x)
    x = model3['dense3'](x)
    x = model3['dense4'](x)
    x = model3['output_layer'](x)
    return x

def create_model4():
    model4 = {
        'dense1': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense2': tf.keras.layers.Dense(50, activation=cos_activation),
        'dense3': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense4': tf.keras.layers.Dense(50, activation=cos_activation),
        'output_layer': tf.keras.layers.Dense(1)
    }
    return model4

def call_model4(model4, x):
    x = model4['dense1'](x)
    x = model4['dense2'](x)
    x = model4['dense3'](x)
    x = model4['dense4'](x)
    x = model4['output_layer'](x)
    return x

def create_model5():
    model5 = {
        'dense1': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense2': tf.keras.layers.Dense(50, activation=cos_activation),
        'dense3': tf.keras.layers.Dense(20, activation=sin_activation),
        'dense4': tf.keras.layers.Dense(50, activation=cos_activation),
        'output_layer': tf.keras.layers.Dense(1)
    }
    return model5

def call_model5(model5, x):
    x = model5['dense1'](x)
    x = model5['dense2'](x)
    x = model5['dense3'](x)
    x = model5['dense4'](x)
    x = model5['output_layer'](x)
    return x

# Total Loss

In [None]:
def total_loss(model1,model2,model3,model4,model5, x, x_left,x_right):
    
   
 
    

    with tf.GradientTape(persistent=True) as tape2:
        tape2.watch(x)
        with tf.GradientTape(persistent=True) as tape1:
            tape1.watch(x)
            f1 = call_model1(model1, x)
            f2 = call_model2(model2, x)
            #f3 = call_model3(model3, x)
            #f4 = call_model4(model4, x)
            #f5 = call_model5(model5, x)

        df1_dx = tape1.gradient(f1, x)
        df2_dx = tape1.gradient(f2, x)
        #df3_dx = tape1.gradient(f3, x)
        #df4_dx = tape1.gradient(f4, x)
        #df5_dx = tape1.gradient(f5, x)
        
    d2f1_dx2 = tape2.gradient(df1_dx, x)
    d2f2_dx2 = tape2.gradient(df2_dx, x)
    #d2f3_dx2 = tape2.gradient(df3_dx, x)
    #d2f4_dx2 = tape2.gradient(df4_dx, x)
    #d2f5_dx2 = tape2.gradient(df5_dx, x)
    

    V = (E - a * tf.tanh(b * x))**2 - m**2

    pde1_residual = d2f1_dx2 + V * f1
    pde2_residual = d2f2_dx2 + V * f2
    #pde3_residual = d2f3_dx2 + V * f3
    #pde4_residual = d2f4_dx2 + V * f4
    #pde5_residual = d2f5_dx2 + V * f5
     

    # Restricciones en x_left (solo aquí)
    with tf.GradientTape(persistent=True) as tape_left:
        tape_left.watch(x_left)
        f1_left = call_model1(model1, x_left)
        #f2_left = call_model2(model2, x_left)
       # f3_left = call_model3(model3, x_left)
        #f4_left = call_model4(model4, x_left)
        #f5_left = call_model5(model5, x_left)
        
    df1_dx_left = tape_left.gradient(f1_left, x_left)
    #df2_dx_left = tape_left.gradient(f2_left, x_left)
    #df3_dx_left = tape_left.gradient(f3_left, x_left)
    #df4_dx_left = tape_left.gradient(f4_left, x_left)
    #df5_dx_left = tape_left.gradient(f5_left, x_left)
    
    # Restricciones en x_left (solo aquí)
    with tf.GradientTape(persistent=True) as tape_right:
        tape_right.watch(x_right)
        f1_right = call_model1(model1, x_right)
        #f2_right = call_model2(model2, x_right)
        #f3_right = call_model3(model3, x_right)
        #f4_right = call_model4(model4, x_right)
        #f5_right = call_model5(model5, x_right)
        
    df1_dx_right = tape_right.gradient(f1_right, x_right)
    #df2_dx_right = tape_right.gradient(f2_right, x_right)
    #df3_dx_right = tape_right.gradient(f3_right, x_right)
    #df4_dx_right = tape_right.gradient(f4_right, x_right)
    #df5_dx_right = tape_right.gradient(f5_right, x_right)   

    # Razones
    
    
   
    f1_max_left = tf.reduce_max(tf.abs(f1_left))
    f1_max_right = tf.reduce_max(tf.abs(f1_right))
    #f2_max_left = tf.reduce_max(tf.abs(f2_left))
    #f2_max_right = tf.reduce_max(tf.abs(f2_right))
    #f3_max_left = tf.reduce_max(tf.abs(f3_left))
    #f3_max_right = tf.reduce_max(tf.abs(f3_right))
    #f4_max_left = tf.reduce_max(tf.abs(f4_left))
    #f4_max_right = tf.reduce_max(tf.abs(f4_right))
    #f5_max_left = tf.reduce_max(tf.abs(f5_left))
    #f5_max_right = tf.reduce_max(tf.abs(f5_right))
    razon1= f1_max_right / f1_max_left
    #razon2= f2_max_right / f2_max_left
    #razon3= f3_max_right / f3_max_left
    #razon4= f4_max_right / f4_max_left
    #razon5= f5_max_right / f5_max_left










    # Restricciones en x_right (solo aquí)
    with tf.GradientTape(persistent=True) as tape_right:
        tape_right.watch(x_right)
        f1_right = call_model1(model1, x_right)
        
    df1_dx_right = tape_right.gradient(f1_right, x_right)
    
    # Onda reflejada como diferencia
    Onda_reflejada = f1_right - f1_left

    Onda_Incidente1=1*tf.math.cos(k_val * x_left)+1*tf.math.sin(k_val * x_left)+1*tf.math.cos(k_val * x_left)-1*tf.math.sin(k_val * x_left)
    Derivada_Onda_Incidente1 = -1*k_val * tf.math.sin(k_val * x_left)+1*k_val * tf.math.cos(k_val * x_left)-1*k_val * tf.math.sin(k_val * x_left)-1*k_val * tf.math.cos(k_val * x_left)
    
    #Onda_Incidente2=2*tf.math.cos(k_val * x_left)+2*tf.math.sin(k_val * x_left)
    #Derivada_Onda_Incidente2 = -2*k_val * tf.math.sin(k_val * x_left)+2*k_val * tf.math.cos(k_val * x_left)
    #Onda_Incidente3=3*tf.math.cos(k_val * x_left)-3*tf.math.sin(k_val * x_left)
    #Derivada_Onda_Incidente3 = -3*k_val * tf.math.sin(k_val * x_left)-3*k_val * tf.math.cos(k_val * x_left)
    #Onda_Incidente4=4*tf.math.cos(k_val * x_left)-4*tf.math.sin(k_val * x_left)
    #Derivada_Onda_Incidente4 = -4*k_val * tf.math.sin(k_val * x_left)-4*k_val * tf.math.cos(k_val * x_left)
    #Onda_Incidente5=5*tf.math.cos(k_val * x_left)-5*tf.math.sin(k_val * x_left)
    #Derivada_Onda_Incidente5 = -5*k_val * tf.math.sin(k_val * x_left)-5*k_val * tf.math.cos(k_val * x_left)


    constraint_1= f1_left-Onda_Incidente1
    constraint_2= df1_dx_left - Derivada_Onda_Incidente1

    #constraint_3= f2_left-Onda_Incidente2
    #constraint_4= df2_dx_left - Derivada_Onda_Incidente2
    #constraint_5= f3_left-Onda_Incidente3
    #constraint_6= df3_dx_left - Derivada_Onda_Incidente3
    #constraint_7= f4_left-Onda_Incidente4
    #constraint_8= df4_dx_left - Derivada_Onda_Incidente4
    #constraint_9= f5_left-Onda_Incidente5
    #constraint_10= df5_dx_left - Derivada_Onda_Incidente5
    
    
    # Normas L2 para amplitudes en cada región
    f1_norm_left = tf.sqrt(tf.reduce_mean(tf.square(f1_left)))
    reflejada_norm_left = tf.sqrt(tf.reduce_mean(tf.square(Onda_reflejada)))
    f_total_right = f1_right 
    f_total_norm_right = tf.sqrt(tf.reduce_mean(tf.square(f_total_right)))

    # Números de onda
    k_vals_right = k(E, a, b, m, -x0)
    k_vals_right = tf.where(tf.math.is_nan(k_vals_right), tf.zeros_like(k_vals_right), k_vals_right)
    k_vals_left = k(E, a, b, m, x0)
    k_vals_left = tf.where(tf.math.is_nan(k_vals_left), tf.zeros_like(k_vals_left), k_vals_left)
    k_max_val_right = tf.reduce_max(k_vals_right)
    k_max_val_left = tf.reduce_max(k_vals_left)

    # Coeficientes
    #R = (reflejada_norm_left / f1_norm_left)**2
    #T = (k_max_val_right / k_max_val_left) * (f_total_norm_right / f1_norm_left)**2 

    

   

    

   
    


    loss1 = (
        tf.reduce_mean(tf.square(pde1_residual)) +
        
        
        1e2*tf.reduce_mean(tf.square(constraint_1))  +
        1e2*tf.reduce_mean(tf.square(constraint_2))  
        
    )
    #loss2 = (
        #tf.reduce_mean(tf.square(pde2_residual)) +
        
        
        #1e2*tf.reduce_mean(tf.square(constraint_3))  +
        #1e2*tf.reduce_mean(tf.square(constraint_4))  
        
    #)
    return loss1,razon1
'''
    loss2 = (
        
        tf.reduce_mean(tf.square(pde2_residual)) +
        
        
        
        1e2*tf.reduce_mean(tf.square(constraint_3))  +
        1e2*tf.reduce_mean(tf.square(constraint_4))  
        
    )

    loss3 = (
        
        tf.reduce_mean(tf.square(pde3_residual)) +
        
          +
        1e2*tf.reduce_mean(tf.square(constraint_5))  +
        1e2*tf.reduce_mean(tf.square(constraint_6))  
        
          
    )

    loss4 = (
        
        tf.reduce_mean(tf.square(pde4_residual)) +
        
        
        
        1e2*tf.reduce_mean(tf.square(constraint_7))  +
        1e2*tf.reduce_mean(tf.square(constraint_8))  
        
    )

    loss5 = (
        
        tf.reduce_mean(tf.square(pde5_residual)) +
        
        
        1e2*tf.reduce_mean(tf.square(constraint_9))  +
        1e2*tf.reduce_mean(tf.square(constraint_10)) 
          
    )
    '''
    

# Traing step

In [None]:
@tf.function

def train_step_total_loss(model1,model2,model3,model4,model5, x_domain,x_left, x_right, optimizer1, optimizer2, optimizer3, optimizer4, optimizer5):
    with tf.GradientTape(persistent=True) as tape:
        loss1,razon1 = total_loss(model1,model2,model3,model4,model5, x_domain,x_left, x_right)
    
    # Obtener las variables entrenables de cada modelo (asumiendo que son diccionarios de capas)
    variables1 = [var for layer in model1.values() for var in layer.trainable_variables]
    #variables2 = [var for layer in model2.values() for var in layer.trainable_variables]
    #variables3 = [var for layer in model3.values() for var in layer.trainable_variables]    
    #variables4 = [var for layer in model4.values() for var in layer.trainable_variables]
    #variables5 = [var for layer in model5.values() for var in layer.trainable_variables]

    # Calcular gradientes de loss respecto a variables de cada modelo
    grads1 = tape.gradient(loss1, variables1)
    #grads2 = tape.gradient(loss2, variables2)
    #grads3 = tape.gradient(loss3, variables3)
    #grads4 = tape.gradient(loss4, variables4)
    #grads5 = tape.gradient(loss5, variables5)
   

    # Aplicar gradientes
    optimizer1.apply_gradients(zip(grads1, variables1))
    #optimizer2.apply_gradients(zip(grads2, variables2))
    #optimizer3.apply_gradients(zip(grads3, variables3))
    #optimizer4.apply_gradients(zip(grads4, variables4))
    #optimizer5.apply_gradients(zip(grads5, variables5))
   

    del tape
    return loss1,razon1#,loss3,loss4,loss5,razon1,razon2,razon3,razon4,razon5

# Calling the models

In [None]:
# Crear modelos
model1 = create_model1()
model2 = create_model2()
model3 = create_model3()
model4 = create_model4()
model5 = create_model5()

# Historial de predicciones
history_y_pred_1 = []
history_y_pred_2 = []
#history_y_pred_3 = []
#history_y_pred_4 = []
#history_y_pred_5 = []

history_loss1 = []
history_loss2 = []
#history_loss3 = []
#history_loss4 = []
#history_loss5 = []
f10_history = []
f20_history = []


# Training

In [None]:
lr_schedule1 = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=0.001,
    decay_steps=1000,
    decay_rate=0.9
)
lr_schedule2 = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=0.001,
    decay_steps=1000,
    decay_rate=0.9
)
lr_schedule3 = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=0.001,
    decay_steps=1000,
    decay_rate=0.9
)
lr_schedule4 = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=0.001,
    decay_steps=1000,
    decay_rate=0.9
)
lr_schedule5 = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=0.001,
    decay_steps=1000,
    decay_rate=0.9
)


optimizer1 = tf.keras.optimizers.Adam(learning_rate=lr_schedule1)
optimizer2 = tf.keras.optimizers.Adam(learning_rate=lr_schedule2)
optimizer3 = tf.keras.optimizers.Adam(learning_rate=lr_schedule3)
optimizer4 = tf.keras.optimizers.Adam(learning_rate=lr_schedule4)
optimizer5 = tf.keras.optimizers.Adam(learning_rate=lr_schedule5)




# Hiperparámetros
epochs = 500000


plt.ion()
threshold = 1e-4
max_epochs = 535000  # por seguridad
epoch = 0
loss_val = tf.constant(1.0)

while loss_val.numpy() > threshold and epoch < max_epochs:
#fig, ax = plt.subplots(figsize=(10, 6))  # Una sola figura y eje
# Entrenamiento conjunto con pérdida acoplada
#for epoch in range(epochs):
    loss_val,razon1=train_step_total_loss(model1,model2,model3,model4,model5, x_domain,x_left, x_right, optimizer1,optimizer2, optimizer3, optimizer4, optimizer5)
    x_0 = tf.constant([[0.0]], dtype=tf.float32)
    x_0 = tf.Variable(x_0)  # Variable para gradiente

    def calcular_valor_y_derivada(model, call_model, x):
        with tf.GradientTape() as tape:
            tape.watch(x)
            y = call_model(model, x)
        dy_dx = tape.gradient(y, x)
        return y, dy_dx
     # Calcular para cada modelo
    f10, df1_dx0 = calcular_valor_y_derivada(model1, call_model1, x_0)
    #f20, df2_dx0 = calcular_valor_y_derivada(model2, call_model2, x_0)
    f10_val = f10.numpy().item()
    df1_dx0_val = df1_dx0.numpy().item()
    #f20_val = f20.numpy().item()
    #df2_dx0_val = df2_dx0.numpy().item()
    history_loss1.append(loss_val.numpy())
    #history_loss2.append(loss2.numpy())
    #history_loss3.append(loss3.numpy())
    #history_loss4.append(loss4.numpy())
    #history_loss5.append(loss5.numpy())
    # Calcular coeficientes
    

    
    # Guardar predicciones actuales
    y_pred_1 = call_model1(model1, x_test).numpy()
    #y_pred_2= call_model2(model2, x_test).numpy()
    #y_pred_3 = call_model3(model3, x_test).numpy()
    #y_pred_4 = call_model4(model4, x_test).numpy()
    #y_pred_5 = call_model5(model5, x_test).numpy()

    #y_pred_left = call_model1(model1, x_left1).numpy()
    #y_pred_right = call_model1(model1, x_right).numpy()
    history_y_pred_1.append( y_pred_1)
    #history_y_pred_2.append( y_pred_2)
    #history_y_pred_3.append( y_pred_3)
    #history_y_pred_4.append( y_pred_4)
    #history_y_pred_5.append( y_pred_5) 


    #history_y_pred_2.append( y_pred_left)
    #history_y_pred_3.append( y_pred_right)

    #y_combined =  history_y_pred_1[-1].flatten() +  history_y_pred_2[-1].flatten()


    if epoch % 1500 == 0:
        print(
            f"Epoch {epoch}/{epochs} | "
            f"Total Loss: {loss_val:.4e} | "
            f"razon1: {razon1:.4e} | "
           #f"razon2: {razon2:.4e} | "
            #f"razon3: {razon3:.4e} | "
            #f"razon4: {razon4:.4e} | "
            #f"razon5: {razon5:.4e}  "
           
            
      )

        plt.figure(figsize=(10, 6))
        
        start_idx = max(0, epoch - 2500)
        colors1 = plt.cm.viridis(np.linspace(0, 1, len(history_y_pred_1)))
       

        for count, i in enumerate(range(start_idx, epoch + 1, 500)):
            plt.plot(x_test, history_y_pred_1[i], color='blue', linestyle='--', 
                     label=(f'Onda Incidente - Epoch {i},R1={razon1:.2e},\n'f'N1(0)={f10_val:.2e}, dN1/dx(0)={df1_dx0_val:.2e}'if count == 0 else ""), alpha=0.6)
           # plt.plot(x_test, history_y_pred_2[i], color='red', linestyle='--',
                        #label=(f'Onda Relejada - Epoch {i}R2={razon2:.2e},\n'f'N1(0)={f20_val:.2e}, dN1/dx(0)={df2_dx0_val:.2e}'if count == 0 else ""), alpha=0.6)
            #plt.plot(x_test, y_combined, label=r'Solucion Onda Incidente + Onda Reflejada'if count == 0 else "", alpha=0.6, color='green', linewidth=2)
            #plt.plot(x_test, history_y_pred_3[i], color='green', linestyle='--',
                        #label=f'Amplitud3 - Epoch {i}' if count == 0 else "", alpha=0.6)
            #plt.plot(x_test, history_y_pred_4[i], color='orange', linestyle='--',
                        #label=f'Amplitud4 - Epoch {i}' if count == 0 else "", alpha=0.6)
            #plt.plot(x_test, history_y_pred_5[i], color='purple', linestyle='--',
                        #label=f'Amplitud5 - Epoch {i}' if count == 0 else "", alpha=0.6)
            # Línea original
            #plt.plot(x_left1, history_y_pred_2[i], color='red', linestyle='--', 
                     #label=f'Onda Incidente - Epoch {i}' if count == 0 else "", alpha=0.6)
            #plt.plot(x_right, history_y_pred_3[i], color='green', linestyle='--', 
                     #label=f'Onda Trasmitida - Epoch {i}' if count == 0 else "", alpha=0.6)
            #plt.plot(x_left1, history_y_pred_3[i]-history_y_pred_2[i],color='black', linestyle='--', label=f'ψ Onda reflejada- Epoch {i}' if count == 0 else "", alpha=0.6)
        # Graficar la combinación lineal
            
        plt.xlabel("x")
        plt.ylabel("y_pred")
        plt.title(f"Soluciones comparadas hasta epoch {epoch}")
        plt.grid(True)
        plt.legend()
        plt.tight_layout()
        plt.pause(0.01)
        plt.clf()
        #fig.canvas.draw()
        #fig.canvas.flush_events()
    epoch += 1  # Importante para evitar bucle infinito   
# Finalizar modo interactivo
plt.ioff()

# Gráfico final de evolución
plt.figure(figsize=(10, 6))
for i in range(0, len(history_y_pred_1), 500):
    plt.plot(x_test, history_y_pred_1[i], 'b--', label=f'Onda Incidente - Epoch {i}', alpha=0.6)
    #plt.plot(x_left, Onda_reflejada, label="ψ reflejada", linestyle="--")

plt.xlabel("x")
plt.ylabel("y_pred")
plt.title("Evolución final ")
plt.grid(True)
plt.legend()
plt.tight_layout()
plt.show()