### Maquinas de Boltzmann 

Se han visto modelos unidireccionales como las redes neuronales tradicionales, modelos con filtros y conectadas a una red neuronal traidiconal como las redes neuronales convolucionales, y modelos que reducian la dimensionalidad de los datos como los mapas auto organizados, todas tienen en comun que van en una sola direccion.

La Máquina de Boltzmann es una red neuronal recurrente estocástica que representa la información a partir de una distribución de probabilidad.

Todas las neuronas están conectadas entre sí y la información fluye en todas direcciones

![image.png](attachment:image.png)

Lo primero se puede notar, es que no hay una capa de salida, otra cosa que hay que notar es que todo está conectado a todo.

Las Máquinas de Boltzmann, son diferentes a otros algoritmos, con este algoritmo no se esperan datos de entrada, los genera, genera información en todos sus nodos, basándose en si es una entrada o nodo oculto, en otras palabras estaria generando estados del sistema. 

**Analogía de la planta nuclear**

![image.png](attachment:image.png)

Las Máquinas de Boltzmann es la representación de un sistema en completo, en este caso una planta nuclear, donde los nodos de entradas son cosas que se pueden medir, y la capa oculta son cosas que no se pueden medir, este modelo es capaz de generar todos los valores, por ende no necesita valores de entrada, genera parámetros por si mismo, y en este caso significa que genera distintos estados para el sistema.

La forma de llamarlo es un modelo generativo profundo, porque genera sus datos.

![image.png](attachment:image.png)

Se tiene todo este sistema y lo que se quiere es darle datos de entrenamiento para re-muestrear los pesos ajustandose al sistema y determinando las posibles conexiones entre los parámetros

Una vez este algoritmo aprende las relaciones entre los parámetros, se puede usar para por ejemplo recomendar un producto, aplicación, película o incluso otro tipo de problemas.

![image.png](attachment:image.png)

**¡A tener en cuenta!**

1. A partir de nuestros datos, crea una descripción de nuestro sistema, evalúa los valores mas y menos importantes, y aprende a clasificarlos sin datos de salida esperada.
2. A su vez todos los nodos están interconectados, el sistema va a decidir por su cuenta qué conexión es importante y cual es mas poderosa que otra.
3. Para nosotros hay nodos de entrada, pero para la Máquina de Boltzmann todos los nodos los trata exactamente de la misma manera, no discrimina entre nodos ocultos o entradas

*La distribucion de Boltzmann*

La distribución de Boltzmann es solo una forma probabilística de muestreo, se usa para la distribución de muestreos

![image.png](attachment:image.png)


#### Modelos basados en energia

![image.png](attachment:image.png)

Esta es la distribución de Boltzmann, se emplea principialmente para distribución de los muestreos en la Máquina de Boltzmann donde:

- Pi= es la probabilidad de que cierto estado ocurra, la ecuación está describiendo cierto estado de nuestro sistema, donde i es el estado, Pi es la probabilidad de que nuestro sistema esté en el estado i.
- e^-𝜀/kT: es el factor de Boltzmann,  𝜀 es la energía, k es una constante y T la temperatura de nuestro sistema de partículas o cualquier tipo de sistema y todo dividido por la suma de los valores para todos los estados posibles estados del sistema.

La probabilidad está inversamente relacionada con la energía.

![image.png](attachment:image.png)

Consideremos dos estados, si el oxígeno se distribuye dentro de toda la habitación, por que el oxigeno no esta todo en la misma esquina?

**Función de energia para la maquina de Boltzmann**

![image.png](attachment:image.png)

se define una función de energía que depende tanto de los pesos como de las unidades

donde: w_ij es la fuerza de conexión entre la unidad j y la unidad i, s_i es el estado, s_i ∈ {0,1} de la unidad i, 𝜃_i es el umbral de la unidad i.

El incremento de energía global que resulta de una sola unidad i siendo 0 (off) frente a 1 (on), expresada como ∆Ei, viene dada por la expresión:

![image.png](attachment:image.png)

Esto se puede expresar como la diferencia de energía entre dos estados:

![image.png](attachment:image.png)

sustituyendo la energía para cada Estado con su probabilidad relativa de acuerdo con el factor de Boltzmann, se tiene:

![image.png](attachment:image.png)

Donde k_B es la constante de Boltzmann y se engloba dentro de la noción artificial de temperatura T. Luego se reordenan los términos considerando que la probabilidad de que una unidad esté en on y en off es uno:

![image.png](attachment:image.png)

Finalmente se puede resolver para p_i(on), la probabilidad de que la unidad i esté en on.

![image.png](attachment:image.png)

Donde el escalar T se refiere a cómo está la temperatura en el sistema. Esta relación es la fuente de la función logística que se encuentra en las expresiones de probabilidad de las distintas variantes de la máquina de Boltzmann.

Para entrenar a la red de modo que la posibilidad de que converja en un estado global se ajuste a una distribución externa, habrá que establecer los pesos para que los estados globales con mayor probabilidad tengan la energía más baja. Para esto se usa el siguiente método de entrenamiento.

**Como entrenamos el sistema?**

Las unidades de la máquina de Boltzmann se dividen en unidades "visibles", V, y unidades "ocultas", H. Las primeras son las que recibirán información del "entorno", por ejemplo la serie de entrenamiento podría ser un conjunto de vectores binarios aplicado sobre las unidades V. La distribución en el conjunto de entrenamiento se denota P+(V).

El objetivo es aproximar la distribución "real" P+(v) a la expresión de convergencia P-(V), la cual es producida eventualmente por la máquina. Para medir la similitud entre las dos distribuciones se usa la divergencia de Kullback-Leibler, G:

![image.png](attachment:image.png)

Para llevar a cabo el proceso de aprendizaje se minimiza la distancia de Kullback-Liebler con técnicas de gradiente inverso sobre G para un peso determinado w_{ij}

![image.png](attachment:image.png)

Donde: p+{ij} es la probabilidad de que tanto las unidades i como j estén activadas cuando la máquina esté en equilibrio durante la fase positiva. p-{ij} es la probabilidad de que tanto las unidades i como j estén activadas cuando la máquina esté en equilibrio durante la fase negativa y R es la tasa de aprendizaje.

![image.png](attachment:image.png)

Para el entrenamiento de sesgos es similar, pero usa sólo la actividad de un solo nodo.

### Maquinas de Boltzmann Restringidas (RBM)

En la práctica es muy difícil implementar una máquina de Boltzmann completa, la razón de ello es que si se aumenta el número de neuronas, el numero de conexiones aumenta exponencialmente.

Basado en ello, se propone una maquina de Boltzmann Restringida (RBM).

![image.png](attachment:image.png)

Una máquina de Boltzmann va a aprender a alocar cierta información en los nodos, que se enciendan cuando esa información este siendo requerida.

### Divergencia contrastiva

Este es el algoritmo que permite que la RBM aprenda.

![image.png](attachment:image.png)

Primero se asignan los pesos aleatoriamente y cuando le pasamos la entrada se calculan los nodos ocultos, luego los nodos ocultos va a usar sus pesos para calcular los nodos de entrada, reconstruyendo la entrada.

![image.png](attachment:image.png)

se reconstruye a partir de los valores de todos estos nodos ocultos, cuando se haga la primera propagación estos nodos ocultos se construirán de los nodos originales, pero el valor del nodo de entrada no va a ser el mismo que se tenia originalmente.

![image.png](attachment:image.png)

Hasta que se encuentren los mínimos globales y la red esta finalmente entrenada.

![image.png](attachment:image.png)

![image.png](attachment:image.png)