# Control óptimo de ecuaciones en derivadas parciales usando métodos de RL

$\def\N{\mathbb{N}}$
$\def\Z{\mathbb{Z}}$
$\def\Q{\mathbb{Q}}$
$\def\R{\mathbb{R}}$
$\def\X{\mathcal{X}}$
$\def\A{\mathcal{A}}$

El objetivo de este proyecto es explorar la formulación y solución de una clase de problemas de control que involucran ecuaciones diferenciales parciales (PDE) bajo el enfoque de optimización para un Proceso de Decisión de Markov (MDP) basado en \cite{farahmand_learning_2016}.\\

En más detalle, se va a definir un proceso descontado de decisión de Markov con espacio de acciones finito. Como es usual en esta clase de problemas, formulamos el proceso como una 5-tupla $(\X,\A,P,R,\gamma)$ en donde $\X$ es el espacio de estados, $A$ un conjunto finito de acciones, $P: \X\times \A \mapsto \mathcal{M}(\X)$ es el kernel de transición, $R:X\times \A \mapsto \mathcal{M}(\R)$ es la función de recompensas, y finalmente, $\gamma$ es el factor de descuento. Similarmente al artículo original, usaremos la notación $r(x,a) := E(R(X,A|X=x,A=a))$.\\

Nosotros consideraremos una sección rectangular  $\mathcal{Z}$ con frontera $\partial \mathcal{Z}$, en la cual se definirá el sistema. La ecuación diferencial que describirá la difusión del calor en todo el espacio será

\begin{equation} 
\frac{\partial T(z,t)}{\partial t} = \text{Pe}^{-1}\cdot \nabla^2 T- \nabla \cdot(vT)+ S(z,t),
\end{equation}
donde la constante $\text{Pe} = \frac{L v_c}{D}$ siendo $L$ es la raíz cuadrada del área de la región, $v_c$ es la velocidad característica y $D$ es el parámetro de difusión térmica. En esta ecuación, $\nabla^2, \nabla$ son los operadores del Laplaciano y el gradiente respectivamente. Finalmente $T(z,t)$ representa la función de temperatura en una posición y un tiempo dados mientras que $S(z,t)$ es el termino fuente variable en el tiempo. \\

Definimos una partición de la frontera $\partial Z = \partial Z_1 \cup \partial Z_2$ para imponer las condiciones de Dirichlet y Neumann. Estas condiciones tienen la intención de proponer la existencia de los ventiladores dentro del sistema y de asumir que no existe intercambio del sistema con el exterior.
$$ T(z,t) = T_b(z,t),\hspace{5mm} \forall z \in \partial Z_1$$
$$ \vec{n} \cdot \nabla T(z,t) = 0,\hspace{5mm} \forall z \in \partial Z_2$$

Los ventiladores se encuentran ubicados en $\partial Z_1$. Por lo tanto, el problema de control se traduce en escoger una acción del conjunto finito de $n$ acciones

$$ \A := \{(T_b^a, v^a) : a \in \{1,\cdots,n\}\},$$

en donde $T_b = T_b^a$ y $v = v^a$ controlarán las condiciones de frontera y el flujo dentro del sistema. Luego, el espacio de estados puede ser descrito como el conjunto

$$ \X = \{x = (T,S)\}$$

de todos los posibles pares $(T,S)$ que describan el campo de temperatura en la habitación y la posición de la fuente en cualquier instante. Ahora, debido a que conocemos la dinámica del sistema, la función de transición es de la forma

$$ x_{t+\Delta t} = f_{\Delta t}(x_t, a_t),$$

donde $\Delta t$ es la frecuencia con la que se toman las decisiones. En el caso de una evolución determinista, como toda la medida está concentrada en un sólo punto, la probabilidad de transición debe ser la función $\delta$ de Dirac

$$ P\{x | X(t), a(t)\} = \delta(x-f(X(t),a(t)).$$

Para definir una función de recompensa, se define primero una función de campo temperatura ideal $T^*$ la cual puede ser una constante para cada posición o un perfil que varía por toda la región. Luego, denotamos por $c$ el costo de escoger una acción, la función de recompensa es definida como
$$ r =  -\int_{\mathcal{Z}} |T(z)-T^*(z)|^2 dz - c(a)$$
%\end{multicols}

La función de evaluación de políticas para una política $\pi$ se define como
$$ Q^\pi(x,a) = E_\pi \left[\sum_{t=1}^{\infty}\gamma^{t-1}r(X_t,A_t) \Big | X_1=x, A_1 = a\right]$$
Para el MDP descontado nuestra meta es hallar para cada par $(x,a)\in \mathcal{X}\times \mathcal{A}$
$$ Q^*(x,a) = \sup_{\pi}Q^{\pi}(x,a)$$
$$\pi(x) = \text{argmax}_{a\in A}Q(x,a)$$
Finalmente, el operador de optimalidad de Bellman es definido como una función $T^*: B(\X\times\A)\mapsto B(\X\times\A)$:
$$ (T^*Q)(x,a) = r(x,a) + \gamma \int_\X \max_{a'}Q(y,a')P\{dy | x,a\}$$
Además, hay resultados que aseguran que la función de valor óptima es un punto fijo de este operador, es decir $T^*Q^* = Q^*$.\\

La ausencia de compacidad y finitud del espacio de estados representa un obstáculo para una solución directa al problema con los métodos que hemos visto, por lo que será necesario usar métodos aproximados que permitan abordar este problema.

![Habitacion.png](attachment:Habitacion.png)

## Reproducing Kernel Hilbert Spaces

En esta sección introduciremos algunos resultados teóricos sobre los Reproducing Kernel Hilbert Spaces, que son espacios de funciones que utilizaremos más adelante para resolver el problema planteado inicialmente. A continuación, veamos la definición de estos espacios.
\\\\
Definición (RKHS): Un RKHS (sobre algún conjunto $X$) es un espacio de Hilbert de funciones sobre $X$ tal que: para todo $x \in X$, el funcional $L_x(f) := f(x)$, correspondiente a evaluar en $x$, es lineal y acotado.
\\
Estos espacios son particularmente interesantes para resolver nuestro problema gracias al Teorema de Representación de Reisz; este teorema establece que para todo $f$, funcional acotado en un espacio de Hilbert $\mathcal{F}$, existe un $z \in \mathcal{F}$ tal que:
$$f(x) = \langle x, z \rangle , \forall \, x \in \mathcal{F}$$
Donde $z$ se encuentra unívocamente determinado por $f$ y además satisface que $\|z\| = \|f\|$. En particular, si tenemos que $\mathcal{F}$ es un RKHS sobre $X \subset R^{n}$, por definición sabemos que los funcionales correspondientes a evaluación en un punto son acotados. Así, por el Teorema de Representación de Reisz, para cada $x_i \in X$ existe $\kappa_{x_i}$ tal que:
   $$L_{x_i}(f) = \langle f, \kappa_{x_i}\rangle$$
    
Donde $L_{x_i}(f) := f(x_i)$. Más aun, el teorema nos asegura que los $\kappa_{x_i}$ se encuentran completamente determinados por $x_i$. Por lo tanto, tenemos que las siguientes funciones se encuentran bien definidas:

   \begin{align*}
       \phi: X \rightarrow \mathcal{F}: \phi(x) &   = \kappa_{x}\\
    k: X \times X \rightarrow \mathbb{R}: k(x,y) &= \langle \phi(x), \phi(y) \rangle = \langle \kappa_{x}, \kappa_{y} \rangle
   \end{align*} 
   
Ésta función $k$ es definida como el Reproducing Kernel del espacio $\mathcal{F}$ y la función $\phi$ se conoce como el Feature Map de $k$. Ahora, veamos algunas propiedades que satisface el Reproducing Kernel de un espacio de Hilbert. Nuestro objetivo será construir la base teórica para lograr obtener una expresión para la función minimizadora buscada en el problema planteado en la introducción. 
\\

Teorema:  Siguiendo la notación introducida anteriormente, sea $M = \{\kappa_x \, |\, x \in X\}$, entonces  $\overline{Span(M)} = \mathcal{F}$.

Dem:
\\
Sea $M = \{\kappa_x\}_{x \in X}$ y sea $M^{\perp}$ su complemento ortogonal respecto al producto interno, veamos que $M^{\perp}$ es trivial. Para esto, sea $f \in M^{\perp}$, por construcción sabemos que: $\forall \, x \in X, \langle f, x \rangle = 0$; sin embargo, esto implica que $f(x) = 0$ para todo $x$. Por lo tanto $f$ debe ser la función constante cero y obtenemos que $M = \{0\}$, como queríamos. Ahora, como  $C = \overline{Span(M)}$ es cerrado, tenemos que:
$$\mathcal{F} = C \oplus C^{\perp} = \overline{Span(M)} \oplus \{0\}$$
Así, $\overline{Span(M)}$ debe ser igual a $\mathcal{F}$, como queríamos.
\\

A partir de éste teorema, y teniendo en cuenta que para todo espacio de Hilbert se satisface que para todo $x \in X$ y todo $A \subseteq \mathcal{F}$, $x \in \overline{A}$ si y solo si existe una sucesión en $A$ que converge a $X$. Obtenemos que para todo $f \in \overline{F} = \overline{Span(M)}$, podemos representar a $f$ como:
$$f = \sum_{i} \alpha_i \kappa_{x_i},\; \alpha_i \in \mathbb{R}$$
Luego, para todo $x \in X$ se tiene que:
$$f(x) = \sum_{i} \alpha_i \kappa_{x_i}(x) =  \sum_{i} \alpha_i \langle\kappa_{x_i}, \kappa_{x} \rangle = \sum_{i} \alpha_i k(x_i,x)$$
Donde, $k$ es el Reproducing Kernel de $\mathcal{F}$ definido anteriormente. En otras palabras, para todo $x \in X$ y toda función $f$ en el espacio, podemos expresar el valor de $f(x)$ como una combinación lineal de los valores del Reproducing Kernel. Ahora, note que hemos obtenido resultados sobre los Reproducing Kernels de un espacio, pero hasta ahora no sabemos como construir estas funciones. Por lo tanto, nuestro siguiente objetivo será encontrar una forma de caracterizar éstas funciones; teniendo en cuenta esto, introducimos las siguientes definiciones:
\\

Definición (Función semipositiva definida): Una función $k: X \times X \rightarrow \mathbb{R}$ se dice semipositiva definida si se satisface que
$$\sum_{i,j}c_i c_j \cdot k(x_i, x_j) \geq 0$$
para todo par $c_i, c_j \in \mathbb{R}$.
\\
Es fácil verificar que el Reproducing Kernel $\kappa$ satisface esta definición, pues:
$$\sum_{i,j}c_i c_j \cdot \kappa(x_i, x_j) =  \sum_{i,j}c_i c_j \cdot \langle\kappa_{x_i}, \kappa_{x_j} \rangle$$
Pero  lo anterior es equivalente a $ \left\|\sum_{i,j}c_i c_j \cdot \kappa_{x_i}\right\|^2$ que sabemos que es mayor que cero. Más aun, el teorema de Moore-Aronszajn establece que para todo Kernel semidefinido positivo existe un único Reproducing Kernel Hilbert Space, y que para todo RKHS el Kernel es único. Para no extender demasiado el contenido de ésta sección, no reproduciremos la demostración de éste teorema. 
\\

Definición: (Matriz del Kernel): Dado $\kappa$ un Reproducing Kernel y puntos $x_1, \dots, x_n \in X$ definimos la matriz de $\kappa$ respecto a $x_1, \dots, x_n$ como la matriz $n \times n$ dada por:

$$K = [k(x_i,x_j)]_{ij} $$
\\

Existe una definición análoga a las propidedad de ser definida positiva para el caso de las matrices. Decimos que una matriz (real) de tamaño $n\times n$ es definida positiva si para todo vector $c \in \mathbb{R}^n$ se satisface que:
$$c^{T}Kc = \sum_{i}c_i\cdot c_j K_{ij} \geq 0$$

Como es de esperarse, así como el Reproducing Kernel es semidefinido positivo, su matriz asociada también lo es (sin importar la escogencia de los puntos $x_i$). Más aun, análogo al Teorema de  Moore-Aronszajn tenemos que: 
\\

Teorema:  Una función $\kappa : X \times X \rightarrow \mathbb{R}$ es un Reproducing Kernel de un RKHS si y solo si para cada $n \in \mathbb{N}$ y toda elección de puntos $x_1, \times, x_n \in X$, se tiene que su Matriz asociada respecto a $x_1, \dots ,x_n$ es semidefinida positiva.  

Nuevamente, omitimos la demostración de este teorema para evitar extender demasiado los preliminares. Ahora, veamos como aplicar los RKHS en nuestro problema planteado en la introducción. 

Suponga que se desea minimimzar la función de costo promedio dada por:
$$J(f) = \frac{1}{N}\sum_{i = 1}^{N}V(y_i, f(x_i)) + \lambda \cdot\|f \|^2_k \;\;\textbf{ (*)}$$
Donde $\lambda \cdot\|f \|^2_k$ es el término correspondiente a la regularización y $V$ es la función de perdida que retorna el error entre el valor predicho por $f$ y el real, $y_i$. Ahora bien, si las funciones $f$ que podemos considerar para el problema de minimización pertenecen a un $RKHS$, obtenemos que  la solución al problema de minimización de la expresión $\textbf{(*)}$ puede ser expresada en términos de los datos de entrenamiento. De forma más general:
\\

Teorema (Representer theorem): Sea $N \in \mathbb{R}$ y suponga que se tienen $x_1, \dots, x_N \in X$ datos de entrenamiento. Sea $c : (X \times \mathbb{R}^2)^{N} \rightarrow \mathbb{R}$ una función de perdida arbitraria y, sea $\Omega: [0, \mathbb{\infty}) \rightarrow \mathbb{R}$ una función monotónicamente creciente (que en nuestro caso corresponde a la regularización). Entonces, toda función $f$ en $\mathcal{F}$, un RKHS, que minimice el funcional 
$$c((x_1, y_1, f(x_1), \dots (x_N, y_N, f(x_N)) + \Omega(\|f\|)$$

admite una representación de la forma:
$$f(\cdot) = \sum_{i = 1}^{n}\alpha_i \kappa_{x_i}$$
Donde los $\alpha_i$ son constantes y los $\kappa_{x_i}$ corresponden a los funcionales $\kappa$ definidos al inicio de ésta sección. 

Demostración:
\\
Sea $f \in \mathcal{F}$ minimizador del funcional de riesgo y denotemos $Y:= span(\{\kappa_{x_i}\}_{i \leq N})$. Como $Y$ es de dimensión finita, sabemos que es cerrado y por lo tanto:
$$\mathcal{F} = Y \oplus Y^{\perp}$$
En particular, podemos expresar $f$ respecto a ésta descomposición del espacio como $f = f_y + f_{y^{\perp}}$. Por otra parte, por construcción de los $\kappa_{x_i}$ tenemos que, para todo $i \leq N$ se satisface $f(x_i) = \langle f, \kappa_{x_i}\rangle = \langle f_y, \kappa_{x_i}\rangle$. Luego, usando los resultados enunciados a lo largo de la sección:
$$f_y = \sum_{i = 1}^{N} \alpha_i \kappa_{x_i}$$
Pero, también $f \in \overline{Y}$, consecuentemente $f(x) = \sum_{i = 1}^{N}\alpha_i\cdot k(x_i,x)$, donde $k$ es el Reproducing Kernel de $\mathcal{F}$ y los $\alpha_i$ corresponden a los de la expresión en $f_y$. Esto nos indica que para todo $x \in X$, podemos expresar $f(x)$ en términos de $f_y$, en otras palabras, la parte de $f$ en $Y^{\perp}$ no influye para determinar los valores de  $f$.

Finalmente, note que $\|f\|^2 = \|f_y + f_{y^{\perp}}\|^2=  \|f_y \|^2+ \|f_{y^{\perp}}\|^2 \geq \|f_y\|^2$, porque $f_y \in Y$ y $f_{y^{\perp}} \in Y^{\perp}$. En particular $\|f\|\geq \|f_y\|$ y como $\Omega$ es estrictamente creciente, $\Omega(\|f\|) \geq \Omega(\|f_y\|)$. Por lo tanto, tenemos que $f_y$ coincide con $f$ en los puntos de entrenamiento y además tiene el mínimo valor para $\Omega$. Así $f = f_y = \sum_{i = 1}^{N}\alpha
_i \kappa_{x_i}$, como queríamos.  

## Regularized fitted Q-iteration

Para resolver de manera aproximada este problema visto como un proceso de decisión de markov podemos usar método similares a los trabajados en clase, usando algunas adaptaciones al tamaño del problema. En este caso vamos a usar una adaptación del método de iteración por valor para aproximar la función de valor estado-acción óptima, que es un punto fijo del operador de Bellman.


En una iteración por valor se quiere aproximar la función de valor óptima usando iteraciones de punto fijo. Así, se quisiera plantear el esquema
\begin{equation*}
Q_{k+1}=T^{*}Q_{k}.
\end{equation*}

Sin embargo, realizar esta aproximación es computacionalmente imposible por la dificultad para calcular la integral involucrada en el operador y por el tamaño del espacio de estados. Por lo tanto, se quiere realizar esta iteración de forma aproximada
\begin{equation*}
Q_{k+1}\approx T^{*}Q_{k}.
\end{equation*}
La forma de aproximar la acción del operador se basa en observar que la acción del operador de Bellman se puede escribir como una esperanza condicional de la forma
\begin{equation*}
\mathbb{E}\left[R(x, a)+\gamma \max _{a^{\prime} \in \mathcal{A}} Q\left(X^{\prime}, a^{\prime}\right) \mid X=x, A=a\right]=\left(T^* Q\right)(x, a),
\end{equation*}
lo que se puede interpretar como un problema de regresión, donde se estima esta esperanza a partir de datos y se busca la función $ Q $ en un espacio adecuado $\mathcal{H}$ que minimiza la función de perdida de ajuste a los datos, formulada como el siguiente problema de optimización.
\begin{equation*}
\underset{Q \in \mathcal{H}}{\operatorname{argmin}}  \frac{1}{n} \sum_{i=1}^n\left|Q\left(X_i, A_i\right)-\left[R_i+\gamma \max _{a^{\prime} \in \mathcal{A}} \hat{Q}_k\left(X_i^{\prime}, a^{\prime}\right)\right]\right|^2 
+\lambda_{Q, n}\|Q\|_{\mathcal{H}}^2 ,
\end{equation*}
donde se añade un parámetro de regularización para evitar el sobreajuste de la función hallada a los datos.\\


En general, para un espacio arbitrario de funciones $\mathcal{H}$, la formulación anterior requiere resolver un problema de optimización en un espacio de dimensión posiblemente infinita, por lo que no presenta alguna ventaja con respecto a la formulación inicial. Sin embargo, si se elige  $\mathcal{H}$ como un espacio de Hilbert con la propiedad reproductora de kernel con kernel $\mathrm{K}$, por el teorema del representante, la solución exacta es de la forma
\begin{equation*}
\hat{Q}(x, a)=\sum_{i=1}^n \alpha_i \mathrm{K}\left(\left(X_i, A_i\right),(x, a)\right),
\end{equation*}
lo que simplifica efectivamente la representación computacional de la solución como un vector en $\mathbb{R}^n$. Aún más, introducir esta expresión en el problema de optimización original permite obtener los parámetros $\alpha_i$ de manera analítica, por lo que los parámetros de la función de valor en cada paso de la iteración se pueden obtener como 
\begin{equation*}
\boldsymbol{\alpha}^{(k+1)}= \begin{cases}(\boldsymbol{K}+n \lambda \mathbf{I})^{-1} \boldsymbol{r} & k=0, \\ (\boldsymbol{K}+n \lambda \mathbf{I})^{-1}\left(\boldsymbol{r}+\gamma \boldsymbol{K}_k^{+} \boldsymbol{\alpha}^{(k)}\right) & k \geq 1\end{cases}
\end{equation*}
donde se asumió $Q^{(0)}(x,a)=0$ y se usa la notación
\begin{equation*}
\begin{aligned}
&{[\boldsymbol{K}]_{i j}=\mathrm{K}\left(\left(X_i, A_i\right),\left(X_j, A_j\right)\right)} \\
&{\left[\boldsymbol{K}_k^{+}\right]_{i j}=\mathrm{K}\left(\left(X_i^{\prime}, A_i^{*(k)}\right),\left(X_j, A_j\right)\right) .}
\end{aligned}
\end{equation*}

## Reporte de resultados

Ahora, veamos como se implementa este algortimo.

In [1]:
include("./ResolverEcuacionesEficiente.jl")

Info    : Reading 'geometria.msh'...
Info    : 11 entities
Info    : 2601 nodes
Info    : 5200 elements
Info    : Done reading 'geometria.msh'


Main.PruebasEcuaciones

In [59]:
using PyPlot
using PyCall
using JLD
using LinearAlgebra
using SparseArrays
using BenchmarkTools
import Base.Threads: nthreads, @spawn
using LoopVectorization
using Statistics
using Base64
using StatsBase
using .PruebasEcuaciones
import IJulia: clear_output
using HypothesisTests

function display_mp4(filename)
    display("text/html", string("""<video autoplay controls><source src="data:video/x-m4v;base64,""",
    base64encode(open(read,filename)),"""" type="video/mp4"></video>"""))
end

display_mp4 (generic function with 1 method)

Tenemos calculada la muestra de la soluciones con la fuente de calor iniciada en un punto diferente de la habitación y que siempre se mueve en dirección diagonal izquierda hacia abajo. Es decir, la función de fuente es  
\begin{equation}
S(\vec{x},t)=\begin{cases}
200 \text{ si} |x-Z_0-V_z t|<0.2\\
0 \text{ si no}
\end{cases}
\end{equation}
con $Z_0$ una variable aleatoria que representa la posición inicial de la fuente y está distribuida uniformemente sobre la habitación. Además, en cada instante de decisión se elige una acción diferente entre las 4 posibles.

Cada una de las 10000 muestras fue calculada con la libreria de elementos finitos Gridap. El siguiente video muestra como se ve una solución general

In [3]:
display_mp4("solution.mp4")

Ahora implementemos nuestro algoritmo

In [4]:
soluciones=Matrix{Float64}[]
politicas=String[]
Ndeci=1
for nom in readdir("data/soluciones/",join=true)
    sol=load(nom,"sol")
    pol=load(nom,"pol")
    Ndeci=length(pol[2:end])
    append!(soluciones,sol[2:end])
    append!(politicas,pol[2:end])
end

ind=1:length(soluciones)
indsig=[]
for i in ind
    if mod(i,Ndeci)==0
        append!(indsig,i)
    else
        append!(indsig,i+1)
    end
end
indOO=findall(politicas.=="OO")
indOF=findall(politicas.=="OF")
indFO=findall(politicas.=="FO")
indFF=findall(politicas.=="FF")
iOO=1:length(indOO)
iOF=iOO[end]+1:iOO[end]+length(indOF)
iFO=iOF[end]+1:iOF[end]+length(indFO)
iFF=iFO[end]+1:iFO[end]+length(indFF)

indord=cat(indOO,indOF,indFO,indFF,dims=1)
indnew=[findall(indord.==i)[1] for i in ind]
solucionesnew=soluciones[indord]
#indsignew=[findall(indord.==i)[1] for i in indsig]
indsignew=indnew[indsig[indord]]
polnew=politicas[indord];

Nosotros escogimos los siguientes parámetros y funciones

$$ r(T,a) =  -\int_{\mathcal{Z}} |T(z)-T^*(z)|^2 dz - \begin{cases} 0.09 \text{ si a="OF/FO"}\\
2*0.09\text{ si a="OO"}\end{cases}$$
$$k((T_1,a_1),(T_2,a_2))=exp(-||T_1-T_2||_2/\sigma)\chi_{a_1=a_2}$$

Este algoritmo es costoso en memoria, pues requiere manipular la muestra de gran tamaño en todo momento, por lo que esta debe estar almacenada de forma eficiente, lo cual se logró reordenando la muestra para que los accesos a esta sean sequenciales en memoria.

La parte más dificil de optimizar fue el computo de las matrices $K$ y $K^+$, pues son de gran tamaño. Para reducir los tiempos de espera se paralelizó el cálculo de esta matriz por bloques.

In [18]:
function rec(T_field,a)
    integral=Float64(sum((abs.(T_field)).>0.5))/Float64(length(T_field))
    c=0.0
    if a=="OF" || a=="FO"
        c+=0.09
    elseif a=="OO"
        c+=2*0.09
    end
    return -1.0*(integral+c)
end

function construir_r(solucionesn,politicasn,indsign)
    r=Float64[]
    @inbounds for i in 1:length(solucionesn)
        append!(r,rec(solucionesn[indsign[i]],politicasn[i]))
    end
    return r
end    

function k_diferencias(X,x)
    s = zero(eltype(x))
    @simd for i in eachindex(x,X)
            s += (X[i] - x[i])^2
        end
    return s
end

function k(X,x,sigma)
    s = zero(eltype(x))
    @simd for i in eachindex(x,X)
            s += (X[i] - x[i])^2
        end
    return exp(-s/sigma)
end

function construir_bloque(soluciones,sigma)
    A=zeros(length(soluciones),length(soluciones))
    @inbounds for i in 1:length(soluciones)
        @inbounds for j in 1:i
            A[j,i]=k_diferencias(soluciones[i],soluciones[j])
        end
    end
    return sparse(Symmetric(A))
end

function construir_bloque_U(sol,sigma)
    A=zeros(length(sol),length(sol))
    @inbounds for i in 1:length(sol)
        @inbounds for j in 1:i
            @inbounds A[j,i]=k_diferencias(sol[i],sol[j])
        end
    end
    return Symmetric(A)
end

function construir_K0(solucionesn,iOO,iOF,iFO,iFF)
    MOO=@views construir_bloque(solucionesn[iOO],sigma)
    MOF=@views construir_bloque(solucionesn[iOF],sigma)
    MFO=@views construir_bloque(solucionesn[iFO],sigma)
    MFF=@views construir_bloque(solucionesn[iFF],sigma)
    return blockdiag(MOO,MOF,MFO,MFF)
end

function construir_KDiag(K,iOO,iOF,iFO,iFF)
    return blockdiag(sparse(K[iOO,iOO]),sparse(K[iOF,iOF]),sparse(K[iFO,iFO]),sparse(K[iFF,iFF]))
end

function construir_K_completa(solucionesn,sigma)
    Kcom=zeros(length(solucionesn),length(solucionesn))
    @inbounds for i in 1:length(solucionesn)
        @inbounds for j in 1:i
             @inbounds Kcom[j,i]= k_diferencias(solucionesn[i],solucionesn[j])
        end
    end
    return Symmetric(Kcom)
end

function construir_K_completa_par(sol1,sol2,sigma)
    Kcom=zeros(length(sol1),length(sol2))
    @inbounds for i in 1:length(sol2)
         @inbounds for j in 1:length(sol1)
            @inbounds Kcom[j,i]=k_diferencias(sol1[j],sol2[i])
        end
    end
    return Kcom
end

function construir_K_completa_parallel(solucionesn,sigma,iOO,iOF,iFO,iFF)
    D1=@spawn construir_bloque_U(solucionesn[iOO],sigma)
    D2=@spawn construir_bloque_U(solucionesn[iOF],sigma)
    D3=@spawn construir_bloque_U(solucionesn[iFO],sigma)
    D4=@spawn construir_bloque_U(solucionesn[iFF],sigma)
    D5=@spawn construir_K_completa_par(solucionesn[iOO],solucionesn[iOF],sigma)
    D6=@spawn construir_K_completa_par(solucionesn[iOF],solucionesn[iFO],sigma)
    D7=@spawn construir_K_completa_par(solucionesn[iFO],solucionesn[iFF],sigma)
    D8=@spawn construir_K_completa_par(solucionesn[iOO],solucionesn[iFO],sigma)
    D9=@spawn construir_K_completa_par(solucionesn[iOF],solucionesn[iFF],sigma)
    D10=@spawn construir_K_completa_par(solucionesn[iOO],solucionesn[iFF],sigma)
    rD1=fetch(D1)
    rD2=fetch(D2)
    rD3=fetch(D3)
    rD4=fetch(D4)
    rD5=fetch(D5)
    rD6=fetch(D6)
    rD7=fetch(D7)
    rD8=fetch(D8)
    rD9=fetch(D9)
    rD10=fetch(D10)
    
    t(A)=transpose(A)
    return Symmetric([rD1 rD5 rD8 rD10;
                    t(rD5) rD2 rD6 rD9;
                    t(rD8) t(rD6) rD3 rD7;
                    t(rD10) t(rD9) t(rD7) rD4
                    ]),blockdiag(sparse(rD1),sparse(rD2),sparse(rD3),sparse(rD4))
end

function U_block_in_place(partA,partSol,sigma)
     @inbounds for i in 1:length(partSol)
         @inbounds for j in 1:i
             @inbounds partA[j,i]=k_diferencias(partSol[i],partSol[j])
            end
        end
end

function full_block_in_place(partA,partSol1,partSol2,sigma)
    @inbounds for i in 1:length(partSol2)
         @inbounds for j in 1:length(partSol1)
             @inbounds partA[j,i]=k_diferencias(partSol1[j],partSol2[i])
        end
    end
end

function K_com_inplace(solucionesn,sigma,iOO,iOF,iFO,iFF)
    A=zeros(length(solucionesn),length(solucionesn))
    D1=@spawn U_block_in_place(@view(A[iOO,iOO]),deepcopy(solucionesn[iOO]),sigma)
    D2=@spawn U_block_in_place(@view(A[iOF,iOF]),deepcopy(solucionesn[iOF]),sigma)
    D3=@spawn U_block_in_place(@view(A[iFO,iFO]),deepcopy(solucionesn[iFO]),sigma)
    D4=@spawn U_block_in_place(@view(A[iFF,iFF]),deepcopy(solucionesn[iFF]),sigma)
    D5=@spawn full_block_in_place(@view(A[iOO,iOF]),deepcopy(solucionesn[iOO]),deepcopy(solucionesn[iOF]),sigma)
    D6=@spawn full_block_in_place(@view(A[iOF,iFO]),deepcopy(solucionesn[iOF]),deepcopy(solucionesn[iFO]),sigma)
    D7=@spawn full_block_in_place(@view(A[iFO,iFF]),deepcopy(solucionesn[iFO]),deepcopy(solucionesn[iFF]),sigma)
    D8=@spawn full_block_in_place(@view(A[iOO,iFO]),deepcopy(solucionesn[iOO]),deepcopy(solucionesn[iFO]),sigma)
    D9=@spawn full_block_in_place(@view(A[iOF,iFF]),deepcopy(solucionesn[iOF]),deepcopy(solucionesn[iFF]),sigma)
    D10=@spawn full_block_in_place(@view(A[iOO,iFF]),deepcopy(solucionesn[iOO]),deepcopy(solucionesn[iFF]),sigma)
    
    rD1=fetch(D1)
    rD2=fetch(D2)
    rD3=fetch(D3)
    rD4=fetch(D4)
    rD5=fetch(D5)
    rD6=fetch(D6)
    rD7=fetch(D7)
    rD8=fetch(D8)
    rD9=fetch(D9)
    rD10=fetch(D10)
    return Symmetric(A),Symmetric(construir_KDiag(A,iOO,iOF,iFO,iFF))
end

function calcular_producto(X,α,soluciones,sigma)
    v=0.0
    @inbounds for i in 1:length(soluciones)
        v+=α[i]*k(X,soluciones[i],sigma)
    end
    return v
end

function dar_greedy_action(X,α,solucionesn,iOO,iOF,iFO,iFF,sigma)
    vOO=@views calcular_producto(X, α[iOO], solucionesn[iOO],sigma)
    vOF=@views calcular_producto(X, α[iOF], solucionesn[iOF],sigma)
    vFO=@views calcular_producto(X, α[iFO], solucionesn[iFO],sigma)
    vFF=@views calcular_producto(X, α[iFF], solucionesn[iFF],sigma)
    vs=[vOO,vOF,vFO,vFF]
    pos=["OO","OF","FO","FF"]
    ima=argmax(vs)
    return pos[ima],vs[ima]
end

function dar_greedy_action(i::Int,K,α,iOO,iOF,iFO,iFF)
    vOO=@views sum(K[i,iOO].*α[iOO])
    vOF=@views sum(K[i,iOF].*α[iOF])
    vFO=@views sum(K[i,iFO].*α[iFO])
    vFF=@views sum(K[i,iFF].*α[iFF])
    vs=[vOO,vOF,vFO,vFF]
    pos=["OO","OF","FO","FF"]
    ima=argmax(vs)
    return pos[ima],vs[ima]
end

function contruir_vect(solucionesn,indsignew,α,K,iOO,iOF,iFO,iFF)
    vec=zeros(length(solucionesn))
    @inbounds for i in 1:length(solucionesn)
        a,Qm=@views dar_greedy_action(indsignew[i],K,α,iOO,iOF,iFO,iFF)
        vec[i]=Qm
    end
    return vec
end

function iteracion_RFQI(γ,λ,Niter,Kcom,FactLHS,r,solucionesn,indsign,poln,iOO,iOF,iFO,iFF)
    n=length(solucionesn)
    alpha0= zeros(n)
    alpha1=\(FactLHS,r) 
    for i in 1:Niter
        GC.gc()
        @time r2=contruir_vect(solucionesn,indsign,alpha1,Kcom,iOO,iOF,iFO,iFF)
        alpha0=deepcopy(alpha1)
        alpha1=\(FactLHS,r+γ*r2)
        println("Iteracion: ",i," diferencia : ",sum((alpha0.-alpha1).^2))
    end
    return alpha1
end

iteracion_RFQI (generic function with 1 method)

In [None]:
#@time Kcom=construir_K_completa(solucionesnew,σ)
#@time K0=construir_KDiag(Kcom,iOO,iOF,iFO,iFF)

In [None]:
#@time Kpar,K0par=construir_K_completa_parallel(solucionesnew,σ,iOO,iOF,iFO,iFF);

In [None]:
#@time Kpar_in,K0par_in=K_com_inplace(solucionesnew,σ,iOO,iOF,iFO,iFF);

In [None]:
#save("Kpar.jld","Kpar_in",Kpar_in,"K0par_in",K0par_in)

Despues de jugar bastante tiempo con los parámetros del algoritmo, escogimos los siguientes, que resultaron en resultados consistentes.

El parametro $\sigma$ se eligió como el sugerido por la tecnica de estimación de densidades por kerneles \sigma\approx $1.06\hat{\sigma}/n^{\frac{1}{5}}$, donde $\hat{\sigma}$ es la desviación estandar de las diferencias los campos de temperatura.

In [8]:
σ=3571.34
n=length(solucionesnew)
λ=0.8
γ=0.99
K0par_in=nothing
Kpar_in=nothing
GC.gc()
K0par_in=exp.(-load("Kpar.jld","K0par_in")./σ)
Kpar_in=exp.(-load("Kpar.jld","Kpar_in")./σ)

LHS=K0par_in+n*λ*sparse(I,n,n)
FactLHS=factorize(LHS);
GC.gc()

Una peculiaridad del algoritmo es que su convergencia es más rápida de lo esperado. Al ser un algoritmo de iteración esperaba una convergencia lineal, reflejada en una convergencia lenta de los $\alpha_k$. Sin embargo se encuentra que converge bastante rápido, necesitando tan solo 20 iteraciones para alcanzar la máxima precisión numérica posible establecida como criterio de parada

In [19]:
Niter=20
r=construir_r(solucionesnew,polnew,indsignew);
alphaopt=iteracion_RFQI(γ,λ,Niter,Kpar_in,FactLHS,r,solucionesnew,indsignew,polnew,iOO,iOF,iFO,iFF)

  1.336823 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 1 diferencia : 2.270846065619471e-8
  1.264669 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 2 diferencia : 2.3852735471634393e-11
  1.264860 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 3 diferencia : 4.513638527217411e-14
  1.263185 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 4 diferencia : 2.1409130450915561e-16
  1.299563 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 5 diferencia : 1.5054487801861812e-18
  1.260499 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 6 diferencia : 1.0871041089063999e-20
  1.260048 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 7 diferencia : 7.690950591921063e-23
  1.286098 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 8 diferencia : 5.4005571585679445e-25
  1.260548 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 9 diferencia : 3.7897348928088364e-27
  1.265124 seconds (100.00 k allocations: 767.746 MiB)
Iteracion: 10

10000-element Vector{Float64}:
 -2.1575561709003352e-5
 -5.509697660039965e-5
 -5.572127797203406e-5
  3.919285975522067e-6
 -5.58681785781361e-5
 -5.335024072518679e-5
 -4.745585402481968e-6
 -6.811536320956199e-5
 -6.114102276188765e-5
 -5.2618556077959263e-5
 -5.676645430475527e-5
 -5.713850411385817e-5
 -6.386281241464237e-5
  ⋮
 -8.735489794609545e-5
 -5.53499075372273e-5
 -9.087888147584917e-5
  2.408777318069344e-5
  2.3915347896817522e-5
  2.5331296389833414e-5
  2.573001457436605e-5
 -9.079724437113981e-5
  2.471714854571043e-5
  2.4869475855566026e-5
  2.39157047102438e-5
  2.463789740299943e-5

In [10]:
GC.gc()

Con este conjunto de $\alpha$ óptimo podemos calcular la acción optima para cada estado posible del sistema, mientras este no se aleje mucho de la muestra. 

In [20]:
function hallar_opt_Q(α,solnew,iOO,iOF,iFO,iFF,σ,est)
    vecKer=[]
    for sol in solnew
        append!(vecKer,k(sol,est,σ))
    end
    QOO=sum(vecKer[iOO].*α[iOO])
    QOF=sum(vecKer[iOF].*α[iOF])
    QFO=sum(vecKer[iFO].*α[iFO])
    QFF=sum(vecKer[iFF].*α[iFF])
    lis=["OO","OF","FO","FF"]
    return lis[argmax([QOO,QOF,QFO,QFF])]
end

function f_optima(sol)
    return hallar_opt_Q(alphaopt,solucionesnew,iOO,iOF,iFO,iFF,σ,sol)
end

hallar_opt_Q (generic function with 1 method)

Por ejemplo, simulemos un camino del sistema usando en cada instante de decisión la acción dada por la política óptima hallada

In [21]:
x0=0.5+rand()*0.5
y0=0.6+0.5*rand()
poscS(t::Real)=(x0-0.1*t,y0-0.1*t)
@time ttodos,solTodos,poscStodos,t2,polU=simular_camino_par_completo(1.0,20,10.0,f_optima,poscS,"solOpt");

  9.370847 seconds (149.19 M allocations: 9.682 GiB, 10.52% gc time, 8.73% compilation time: 88% of which was recompilation)


La sucesión de acciónes óptima en los 20 instantes de decisión para este caso fue 

In [55]:
polU

21-element Vector{String}:
 "FF"
 "OO"
 "FO"
 "FO"
 "FO"
 "FO"
 "FO"
 "FO"
 "FO"
 "FO"
 "FO"
 "FO"
 "FF"
 "FF"
 "FF"
 "FF"
 "FF"
 "FF"
 "FF"
 "FF"
 "FF"

In [24]:
@pyinclude("animacion.py")

Evaluemos la trayectoria del sistema en un video

In [25]:
py"animarSolucion(\"solOpt\")";
display_mp4("solOpt.mp4")

Notemos que las acciones óptimas en este caso no encienden el ventilador en el sector en el que está la estufa, debido a que el aire que de este emana tranportaria calor por toda la habitación, incrementando su temperatura. Sin embargo, el otro ventilador si se prende, pues ayuda a disipar el calor que va emitiendo la estufa.

Comparemos la función de valor obtenida con la politica óptima con una política eligiendo los ventiladores al azar. Esto lo podemos hacer estimando la función de valor de cada una de estas políticas mediante muestras.

In [46]:
function calcular_valor_montecarlo(f_pol,N,gamma)
    suma=Float64[]
    for i in 1:N
        
        println(i)
        x0=0.5+rand()*0.5
        y0=0.6+0.5*rand()
        poscS(t::Real)=(x0-0.1*t,y0-0.1*t)
        ttodos,solTodos,poscStodos,t2,polU=simular_camino_par(1.0,20,10.0,f_pol,poscS,"solOpt")
        clear_output(true)
        suma2=0.0
        for (k,sol) in enumerate(solTodos)
            suma2+=(gamma^(k-1))*rec(sol,polU[k])
        end
        append!(suma,suma2)
        
    end
    return suma
end

calcular_valor_montecarlo (generic function with 1 method)

Calculemos las estimaciones con 100 muestras

In [47]:
v1=calcular_valor_montecarlo(f_optima,100,γ);

100-element Vector{Float64}:
  -8.35078216822106
  -7.178182720767866
 -11.051786682058552
 -11.265209547586968
  -9.5743403406103
 -11.249842750772961
  -9.657622872251224
  -9.903509227589895
 -11.552603372927331
  -7.853611965115788
  -7.911498358039459
  -8.20415941632872
  -7.957733891428842
   ⋮
  -8.933208478032812
  -9.962309571375926
  -9.01482144706586
  -9.490658620738792
  -9.786282676554992
  -9.065774937639745
  -7.347814821276579
 -10.97295167113142
  -8.142710147010153
  -8.256556545280985
  -7.33098648765838
  -7.539842547987671

Para la política óptima se obtiene una estimación de la función de valor de -9.11

In [48]:
mean(v1)

-9.115668377344033

In [49]:
std(v1)

1.3371511902684559

In [50]:
function f_random(x)
    return StatsBase.sample(["OO","OF","FO","FF"])
end

f_random (generic function with 1 method)

In [51]:
v2=calcular_valor_montecarlo(f_random,100,γ);

100-element Vector{Float64}:
  -9.098785602084094
  -8.979771712136566
  -7.581608034702181
 -12.565149973482825
  -9.940605332046735
 -11.412296917028964
 -10.367485261432424
 -10.408736195734413
 -10.503509927098955
  -9.026810888338254
 -10.915251955829717
 -10.703359234825662
 -11.882252467606564
   ⋮
  -7.880198350293288
  -8.432558244871021
 -10.23378182796275
  -8.796006529598792
 -10.285050705722968
 -11.171048760861028
 -12.750743397273316
 -11.857050991818358
 -12.442931698362063
 -11.257647224147089
  -8.527220318107894
 -11.46525052351471

Y para la política aleatoria se obtiene una estimación de la función de valor de -10.32

In [52]:
mean(v2)

-10.329799016481964

In [54]:
std(v2)

1.2563229136460483

Si efectuamos tests de diferencia de medias sobre las muestras calculadas rechazamos la hipotesis que la función de valor de la política óptima es igual a la función de valor de la política aleatoria en favor de la hipotesis que la política óptima tiene mayor valor esperado de función de valor. 

In [60]:
SignedRankTest(v1, v2)

Approximate Wilcoxon signed rank test
-------------------------------------
Population details:
    parameter of interest:   Location parameter (pseudomedian)
    value under h_0:         0
    point estimate:          1.21689
    95% confidence interval: (0.935, 1.551)

Test summary:
    outcome with 95% confidence: reject h_0
    two-sided p-value:           <1e-09

Details:
    number of observations:      100
    Wilcoxon rank-sum statistic: 4305.0
    rank sums:                   [4305.0, 745.0]
    adjustment for ties:         0.0
    normal approximation (μ, σ): (1780.0, 290.839)


In [61]:
OneSampleTTest(v1,v2)

One sample t-test
-----------------
Population details:
    parameter of interest:   Mean
    value under h_0:         0
    point estimate:          1.21413
    95% confidence interval: (0.8927, 1.536)

Test summary:
    outcome with 95% confidence: reject h_0
    two-sided p-value:           <1e-10

Details:
    number of observations:   100
    t-statistic:              7.495959525679777
    degrees of freedom:       99
    empirical standard error: 0.16197134402587712


Aunque la función de valor se calcule para un solo estado, tiene sentido "promediar" sobre muchos posibles estados inicales para comparar politicas diferentes

Ahora, evaluemos la capacidad de este modelo para encontrar acciones óptimas para un caso donde la evolución del sistema no está tan relacionada con las muestras de entrenamiento. En este caso, hagámolo con una fuente de calor que se mueve de forma no lineal por la habitación 

In [64]:
poscS2(t::Real)=(0.1*t,2*(0.1*t-0.5)^2+0.2)
@time ttodos2,solTodos2,poscStodos2,t22,polU2=simular_camino_par_completo(1.0,20,10.0,f_optima,poscS2,"solOpt2");

  8.389415 seconds (110.98 M allocations: 9.047 GiB, 11.34% gc time, 9.09% compilation time: 97% of which was recompilation)


In [65]:
py"animarSolucion(\"solOpt2\")";
display_mp4("solOpt2.mp4")

In [75]:
ttodosk,solTodosk,poscStodosk,t2k,polUk=simular_camino_par(1.0,20,10.0,f_optima,poscS2,"solOpt")
suma2=0.0
for (ks,sol) in enumerate(solTodosk)
    suma2+=(γ^(ks-1))*rec(sol,polUk[ks])
end
suma2

-14.51137880619197

En este caso las acciones tomadas por la política óptima calculada sobre la muestra con la estufa moviendose linealmente parece no ser suficientemente buena para situaciones ligeramente diferentes, en donde la estufa se mueve para otro lado. Se obtiene una "función de valor" de -14.51.

Intentamos arreglar esto haciendo una muestra con más tipos de movimiento de la fuente, para incluir la estocasticidad posible del sistema de manera más general. Sin embargo, dado que el algoritmo requiere que las muestras sean guardadas todo el tiempo en memoria, no se consiguió una muestra lo suficientemente grande y representativa que cupiera en memoria para que la funcion de valor óptima hallada fuera lo suficientemente representativa.

A nuestro parecer, esta forma de controlar PDE's con RL solo funciona cuando la predicción que se requiere hacer no está fuy lejos de alguna manera de la información que se conoce a traves de la muestra.