<a href="https://colab.research.google.com/github/juanlu29/juanlu29/blob/gp_aprendizaje/libreriaGP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# Modulos y constantes

import numpy as np
import random
import scipy
import scipy.linalg
from matplotlib import pyplot as plt
import seaborn as sns
from google.colab import drive
import pandas as pd
import numba

  import pandas.util.testing as tm


In [3]:
class gaussProcess():
  def __init__(self,dominio,observacion,*hiper):
    '''
    Los objetos de esta clase modelan procesos gaussianos caracterizados por su promedio y covarianza
    Como argumento inicial incluimos el data set sobre el que se va a trabajar, su dominio y las observaciones como ndarrays
    '''
    #self.Derivadas = prior_Partial_Der
    self.Kernels = self.kernels()
    self.Dominio = dominio
    self.Observacion = observacion
    self.Hiper = hiper
    # Se crean matrices [[x],[x],...] (longitud de la concatenacion nx) y [[y],[y],...].T (longitud de la concatenacion ny)
    # Son necesarios para devolver los resultados necesarios en los calculos matriciales
    self.xM = np.full((len(self.Observacion),len(self.Dominio)),self.Dominio)
    self.yM = (np.full((len(self.Dominio),len(self.Observacion)),self.Observacion))

  def calcCovM(self,xM,yM):
    '''
    Dados x e y como ndarrays, calcula la matriz de covarianzas cuyos elementos son evaluados de la forma
    C(xi,yi) = (k(xi,yi)) con rango (nx x ny) donde nx y ny son la longitud de los vectores x  e y respectivamente.
    hiper son los hiperparámetros usados en el modelo
    '''
    # Llamamos la funcion Ker que nos debe devolver como salida una matriz cuyos elementos calculados representan k(x,y)
    return self.Ker(xM,yM.T,*self.Hiper)

  def calcDerCovM(self,xM,yM):
    '''
    Dados x e y como ndarrays, calcula la matriz correspondiente a la derivada respecto los hiperparámetros de las covarianzas
    cuyos elementos son evaluados de la forma C_j(xi,yi) = (dk(xi,yi)dh_j) con rango (nx x ny) donde nx y ny son la longitud de los 
    vectores x e y respectivamente. Hiper son los hiperparámetros usados en el modelo
    '''
    # Generamos el array de matrices llamando al zip de las funciones de derivadas y sus hiperparámetros para generarlas
    return np.asarray([ self.DerKer[i](xM,yM.T,*self.Hiper) for i in range(len(self.DerKer)) ] )

  def compCov(self,covarianza):
    '''
    Permite definir el kernel a usar por el proceso gaussiano, tanto si es uno de los kernels definidos en la clase como si es una combinacion de los mismos
    El argumento es una funcion anónima en caso de ser una composición, en caso contrario es suficiente con proporcionar el nombre del kernel definido
    hiper son los hiperparámetros que precisan el kernel y vienen dado por un diccionario
    '''
    self.Ker = covarianza # Covarianza definida
    self.Ker = np.vectorize(self.Ker)

  def compDerCov(self,derCovarianza):
    '''
    Permite definir la expresion para la derivada del kernel respecto los distintos hiperparametros como un iterable zip
    de funciones anonimas juntos a sus hiperparámetros. 
    En este caso por propositos de optimizacion se espera que se evalue dinamicamente con distintos hiperparámetros.
    Los datos contenidos en *hiper están encapsulados en una tupla a la que se debe acceder previamente
    '''
    try:
      self.DerKer = derCovarianza
    except:
      raise NameError("No se ha definido kernel previamente")


  class kernels():
    '''
    Se definen kernels de uso común junto a sus hiperparámetros y derivadas asociadas
    '''
    def __init__(self):
      return

    def exponencialCuadrada(self,xb,xa,s,l):
      '''
      Correlacion estacionaria (depende solo de la distancia r = abs(xb-xa)) con decaimiento exponencial cuadratico

      k(xb,xa) = s² exp( - (xb-xa)²/(2 l²) )

      Hiperparámetros:
      s : amplitud de la correlacion, esta relacionado con la amplitud de las trayectorias generadas por el GP
      l : escala de longitud del GP. Esta relacionada con la distancia sobr la cual los procesos generados por el GP pueden presentar oscilaciones o variaciones
      '''
      return np.power(s,2)*np.exp(-np.power(xa-xb,2)/(2.*np.power(l,2)))

    def expCua_der_s(self,xb,xa,s,l):
      '''
      Derivada respecto el hiperparámetro s de las correlaciones estacionarias con decaimiento exponenciales cuadráticas

      k(xb,xa) = 2s exp( - (xb-xa)²/(2 l²) )

      Hiperparámetros:
      s : amplitud de la correlacion, esta relacionado con la amplitud de las trayectorias generadas por el GP
      l : escala de longitud del GP. Esta relacionada con la distancia sobr la cual los procesos generados por el GP pueden presentar oscilaciones o variaciones
      '''
      return 2*s*np.exp(-np.power(xa-xb,2)/(2.*np.power(l,2)))

    def expCua_der_l(self,xb,xa,s,l):
      '''
      Derivada respecto el hiperparámetro l de las correlaciones estacionarias con decaimiento exponenciales cuadráticas

      k(xb,xa) = s²(xb-xa)² / l³ exp( - (xb-xa)²/(2 l²) )

      Hiperparámetros:
      s : amplitud de la correlacion, esta relacionado con la amplitud de las trayectorias generadas por el GP
      l : escala de longitud del GP. Esta relacionada con la distancia sobr la cual los procesos generados por el GP pueden presentar oscilaciones o variaciones
      '''
      return (np.power(s*(xa-xb),2)/np.power(l,3))*np.exp(-np.power(xa-xb,2)/(2.*np.power(l,2)))

    def ruidoBlanco(self,xb,xa,sigma):
      '''
      Correlaciones de ruido blanco o gaussiano puro, solo correlaciona los puntos consigo mismo. 

      k(xb,xa) = sigma² delta(xb,xa)

      Representa incertidumbres intrínsecas en las observaciones y asume una distribución a priori de esos errores gaussiano
      Hiperparáámetros:
      s : amplitud o incertidumbre del ruido generado
      '''
      return np.where(xb==xa, np.power(sigma,2),0.) # Se usa el metodo numpy.where porque las operaciones logicas sobre arrays son consideradas ambiguas en el intérprete de python
                                                    # Esta manera es válidad para python para comprar elemento a elemento entre matrices.

    def rB_der_sigma(self,xb,xa,sigma):
      '''
      Derivada respecto el hiperparámetro sigma del ruido no correlacionado

      k(xb,xa) = sigma² delta(xb,xa)

      Representa incertidumbres intrínsecas en las observaciones y asume una distribución a priori de esos errores gaussiano
      Hiperparáámetros:
      s : amplitud o incertidumbre del ruido generado
      '''
      return np.where(xb==xa, 2*sigma,0.) # Se usa el metodo numpy.where porque las operaciones logicas sobre arrays son consideradas ambiguas en el intérprete de python
                                          # Esta manera es válidad para python para comprar elemento a elemento entre matrices.

 
  def cholDescomp(self,K):
    '''
    Descomposicion cholesky de una matriz dada
    '''
    try:
      L = scipy.linalg.cholesky(K, lower=True)
    except:
     # L = scipy.linalg.cholesky(K + np.diag(0.000001*np.ones(int(np.sqrt(K.size)))), lower=True)
      raise NameError("No es posible efectuar descomposicion cholesky")

    return L

  def calcInvK(self,matriz):
    '''
    Calculo de la inversa de matriz. 
    '''
    # Calculo de matriz inversa de la covarianza. 
    try:
      invK = np.linalg.inv(matriz)
    except:
      raise NameError("No es posible calcular matriz inversa")

    return invK

  def condicionarGP(self,*dominio_test):
    '''
    Dadas unas observaciones junto a sus valores de dominio (uni-dimensionales) en el rango sobre el que se modela el GP, 
    obtiene la covarianza asociada a la distribución de trayectorias condicionadas al conjunto de partida dado un dominio 
    de test en el que queremos comprobar la predicción. Por tanto permite generar las trayectorias compatibles con los datos

    También calcula el logaritmo de la probabilidad de verosimilitud marginal (marginal likelihood) de las observaciones dados los inputs 
    y parámetros del modelo usado.

    Este algoritmo esta especificado en el libro "Gaussian Processes for Machine Learning", como algoritmo 2.1
    '''
    self.xtest = np.reshape(dominio_test,(len(dominio_test),1))

    # Definimos nueva covarianza
    # Primero se realiza la descomposición cholesky de la adición de la covarianza de la distribución a priori,
    # para lo cual calculamos la matriz de covarianza asociada al dominio de las observaciones sobre si mismo
    # y al cruce del dominio de las observaciones y del test de prediccion.
    try:
      self.Cov_obs_obs = self.calcCovM(self.xM,self.xM,*self.Hiper)
      self.Cov_obs_test = self.calcCovM(self.xM,self.xtest,*self.Hiper)
    except:
      raise NameError("Debes especificar primero el kernel que estas usando junto a sus hiperparametros con el metodo self.compCov")

    cholL = np.linalg.cholesky(self.Cov_obs_obs)

    # Calculo del vector alfa como solucion del sistema K_obs_obs*alfa = y_entrenamiento usando la descomposición cholesky anterior
    self.Alfa = scipy.linalg.cho_solve((cholL,True),self.yM)

    # Vector v solución particular del sistema cholL*v = k_test para todos los datos del entrenamiento.
    # Este sistema se resuelve introduciendo k_star no como matriz columna sino como la submatriz calculada como la evaluación de la covarianza a priori de los inputs de los valores a predecir y los inputs del entrenamiento
    v = scipy.linalg.solve_triangular(cholL,self.cov_obs_test, lower=True)

    # Se obtiene el valor promedio del proceso predictivo condicionado a las observaciones
    self.Media_pred = np.matmul(self.Cov_obs_test.T,self.Alfa)

    # Covarianza predictiva o condicionada. El proceso llevado a cabo ha sido obtener la distribución condicionada del GP a las observaciones
    # Intenta calcular directamente la matriz, en caso contrario calcular la matriz de covarianza de la distribucion a priori dado el test
    try:
      self.Cov_pred = self.Cov_priori - np.matmul(v.T,v)
    except:
      # En caso que no esté definida o no coincida con la dimensionalidad del test, se recalcula la covarianza a priori
      self.Cov_priori = self.calcCovM(self.xtest,self.xtest,*self.Hiper)
      self.Cov_pred = self.Cov_priori - np.matmul(v.T,v)

    # La siguiente matriz descompuesta es necesaria para generar procesos del GP.
    self.L_pred = self.cholDescomp(self.Cov_pred)
  

  def log_prob_verosimilitud_datos(self,*hiper):
    '''
    Dadas unas observaciones, kernel e hiperparámetros dados, calcula el logaritmo de la probabilidad de verosimilitud de las observaciones al modelo y sus parámetros
    '''

    # Actualizamos hiperparámetros
    self.Hiper = hiper

    # Primero se realiza la descomposición cholesky de la adición de la covarianza de la distribución a priorir y el término de ruido.
    #cholL = np.linalg.cholesky(self.calcCovM(dominio,dominio,*self.Hiper))
    cholL = np.linalg.cholesky(self.calcCovM(self.xM,self.xM))

    # Calculo del vector alfa como solucion del sistema K*alfa = y_entrenamiento usando la descomposición cholesky anterior
    alfa = scipy.linalg.cho_solve((cholL,True),self.Observacion)

    # Calculo de la probabilidad de verosimilitud marginal a este modelo y sus parámetros
    self.log_marg_y = +1.*( 0.5*np.dot(alfa,self.Observacion) + np.sum(np.log(np.diag(cholL)),axis=0) + (float(len(self.Dominio))/2.)*np.log(2*np.pi))
    if (self.log_marg_y > +90.):
      self.log_marg_y = 90.
    return self.log_marg_y

  def der_log_prob_ver_hiper(self,*hiper):
    '''
    Derivada del logaritmo de la probabilidad de verosimilitud respecto hiperapametros,
    devuelve un ndarray con cada componenete correspondiendo a la matriz del modelo respecto
    los distintos. La expresion es la siguiente

    1/2 traza[  {alfa*alfa.T - K⁻¹} dK/dh] ; alfa = K⁻¹\y

    '''

    # Actualizamos hiperparámetros
    self.Hiper = hiper

    # Definimos nueva covarianza
    try:
      covDom = self.calcCovM(self.xM,self.xM)
    except:
      raise NameError("Debes especificar primero el kernel que estas usando junto a sus hiperparametros con el metodo self.compCov")


    invCovDom = self.calcInvK(covDom)

    cholL = np.linalg.cholesky(covDom)

    # Calculo del vector alfa como solucion del sistema K_obs_obs*alfa = y_entrenamiento usando la descomposición cholesky anterior
    alfa = scipy.linalg.cho_solve((cholL,True),self.Observacion)

    alfa = np.reshape(alfa,(len(alfa),1))

    self.Der_Hiper = hiper
    derCovHiper = self.calcDerCovM(self.xM,self.xM)
    return -0.5*np.trace(np.matmul(np.matmul(alfa,alfa.T)-invCovDom,derCovHiper),axis1=1,axis2=2) # La suma de la traza en un array de mas de 2 dimensiones debe especificarse sobre sus indices. En este caso es dimensióón 3.
    

  def prioriGP(self,*dominio):
    '''
    Computa los términos necesarios para extraer realizaciones del GP siguiendo la distribución a priori
    '''

    self.xtest = np.reshape(dominio_test,(len(dominio_test),1))

    try:
      self.Cov_priori = self.calcCovM(self.xtest,self.xtest,*self.Hiper)
    except:
      raise NameError("Debes especificar primero el kernel que estas usando junto a sus hiperparametros con el metodo self.compCov")

    # La siguiente matriz descompuesta es necesaria para generar procesos del GP.
    self.L_priori = self.cholDescomp(self.Cov_pred)


  def procesosPrioriGP(self):
    '''
    Genera realizaciones del proceso gaussiano dada la descomposicion cholesky de la matriz de covarianzas y la media correspondiente
    '''
    # Si no se ha calculado la descomposicióón de la covarianza se llama al método aqui
    try:
      return self.Mean_priori +  np.matmul(self.L_priori,(np.randn(len(self.xtest))).T)
    except:
      raise NameError("No se ha incluido los valores del dominio sobre los que muestrear el proceso o no se ha calculado la descomposición de la covarianza")

  def procesosCondicionadosGP(self):
    '''
    Genera realizaciones del proceso gaussiano dada la descomposicion cholesky de la matriz de covarianzas y la media correspondiente
    '''
    try:
      return self.Media_pred + np.matmul(self.L_pred,(np.randn(len(self.xtest))).T)
    except:
      raise NameError("El GP no ha sido condicionado a las observaciones")

  def sigmaCalc(self,cov):
    '''
    Desviacion estándar punto a punto del proceso gausiano dado por la matriz de covarianza 
    Es la raiz cuadrado de los elementos de la diagonal de la matriz de covarianzas del proceso generado
    '''
    return np.sqrt(np.diag(cov))


  def correlacionPuntoPunto(self):
    '''
    Obtiene la correlacion punto a punto dado un inputo concreto por el indice i_x
    '''
    try:
      self.corrPP_pred = np.array([ self.K_pred[i,:] for i in range(len(self.K_pred)) ])
    except:
      print(" Proceso gaussiano no entrenado aún, no existe K_pred ")
    self.corrPP_prior = np.array([ self.K_prior[i,:] for i in range(len(self.K_prior)) ])

  
  def derivada_LO_CV(self,*args):
    '''
    Dadas unas observaciones particulares estima la derivada de la suma de los logaritmos de la evaluación de la distribución de probabilidad marginal de verosimilitud a que subconjuntos
    de las observaciones están condicionadas al resto, respecto a los hiperparámetros del modelo. Si se encuentra el máximo de este valor, estamos asegurándonos de que con los hiperparámetros ajustados
    las "predicciones" tras generar trayectorias del proceso gausiano que corresponderían a los subconjuntos excluidos sucesivamente son las más probables que el modelo puede hacer. Al ser la suma, esta optimización 
    es global y abarca la aproximación de observacion/test de todos los subconjuntos.
    '''

    if not isinstance(args[0], np.ndarray):
      raise NameError("Las observaciones dadas para calcular la derivada del logaritmo de la distribución marginal de verosimilitud no es un array con datos")
    else:
      observaciones = args[0]

    # Vector auxiliar alpha y matriz auxiliar Z y la diagonal de la inversa de la distribucion a priori
    try:
      alpha = np.matmul(self.invK,observaciones)
      invK_diag = np.diag(self.invK)
      zeta = [np.matmul(self.invK,self.Derivadas[i]) for i in range(len(self.Derivadas)) ] # Es una lista de matrices
      zeta_K = [np.diag(np.matmul(zeta[i],self.invK)) for i in range(len(self.Derivadas)) ]
      alpha_invK = np.multiply(alpha,1./invK_diag)
    except:
      raise NameError("Necesitas calcular la matriz inversa de covarianzas de la distribución a priori")
    
    termino_1 = [np.matmul(np.matmul(alpha_invK,zeta[i]),alpha) for i in range(len(self.Derivadas)) ] # Debido a Z esto es una lista
    termino_2 = [np.sum(np.multiply(np.multiply(0.5*(1. + np.multiply(np.power(alpha,2),1./invK_diag)),zeta_K[i]),1./invK_diag)) for i in range(len(self.Derivadas)) ] # Debido a zeta_K esto es una lista

    # Calculo. Es el valor de la derivada del logaritmo
    self.derVerLOO = np.asarray([ termino_1[i] + termino_2[i] for i in range(len(self.Derivadas))])
    

In [11]:
import time


start_time = time.time()

#x_train = np.linspace(0.1,9.7,5)
#y_train = 1.1*np.sin(2.*x_train) + np.asarray([random.gauss(0.,1.) for i in range(len(x_train))])
x_train = np.array([-7.27980659640218,-6.3565864147485,-6.33349783214072,-5.85186882395103,-4.74692152231896,-4.08519569483122,-3.73024545572045,-2.78487668464404,-2.15092471829579,-0.902510956795564,0.496360463886639,0.756812013112905,1.00714394820637,2.37248404949064,2.46618962012525,4.24396641874347,4.33629137438754,4.89477951284853,5.81238911017895,6.14524950944106])
y_train = np.array([-1.49888963305016,0.569441996545526,0.623268356304418,0.9063943036413,-0.376423208431739,-0.871911241143502,-0.803958546300539,1.07173322993408,2.29393880644365,2.62802707180373,0.412113574676584,-0.297490218195917,-0.660456836687934,-2.66828227995347,-2.09868165955797,-0.965605061863299,-0.758001691987733,-1.32241178751454,-0.725175367478586,-0.449178680954562])

grp = 4
#sigmas = np.linspace(0.01,3.,grp)
#ls = np.linspace(0.01,10.,grp)

sigmas = np.linspace(np.log(0.01),np.log(3.),grp)
ls = np.linspace(np.log(0.01),np.log(10.),grp)

xx, yy = np.meshgrid(ls,sigmas)

sigmas = np.exp(sigmas)
ls = np.exp(ls)


probabilidades = np.zeros((grp,grp))

s = 1.

gp_prueba = gaussProcess(x_train,y_train,[0.,0.])

gp_prueba.compCov(lambda x,y,lh,sigmah : gp_prueba.Kernels.exponencialCuadrada(x,y,1.,lh)+gp_prueba.Kernels.ruidoBlanco(x,y,sigmah)) # Aqui especificamos los hiperparametros
funciones = np.asarray([lambda x,y,lh,sigmah: gp_prueba.Kernels.expCua_der_l(x,y,1.,lh), lambda x,y,lh,sigmah: gp_prueba.Kernels.rB_der_sigma(x,y,sigmah)])

#gp_prueba.compCov(lambda x,y,sh,lh,sigmah : gp_prueba.Kernels.exponencialCuadrada(x,y,sh,lh)+gp_prueba.Kernels.ruidoBlanco(x,y,sigmah)) # Aqui especificamos los hiperparametros
#funciones = np.asarray([lambda x,y,sh,lh,sigmah: gp_prueba.Kernels.expCua_der_s(x,y,sh,lh) , lambda x,y,sh,lh,sigmah: gp_prueba.Kernels.expCua_der_l(x,y,sh,lh), lambda x,y,sh,lh,sigmah: gp_prueba.Kernels.rB_der_sigma(x,y,sigmah)])
gp_prueba.compDerCov(funciones)


i = 0
for sigma in sigmas:

  j = 0
  for l in ls:
    #gp_prueba.Hiper = [s,l,sigma]
    gp_prueba.Hiper = [l,sigma]
    gp_prueba.log_prob_verosimilitud_datos(*gp_prueba.Hiper)
    probabilidades[i,j] = gp_prueba.log_marg_y
    resultado = gp_prueba.der_log_prob_ver_hiper(*gp_prueba.Hiper)
    #print("logaritmo de la probabilidad de verosimilitud e hiperparametros:",gp_prueba.log_marg_y)
  
    j = j + 1
  
  i = i + 1


#fig_3, ax_3 = plt.subplots()

plotRange_sig = sigmas
plotRange_l = ls

#heatmap = ax_3.pcolormesh(xx,yy,probabilidades,cmap='RdBu_r',vmin = probabilidades.min(), vmax = probabilidades.max())
#ax_3.axis([plotRange_l.min(), plotRange_l.max(), plotRange_sig.min(), plotRange_sig.max()])
#fig_3.colorbar(heatmap, ax=ax_3)

#ax_3.set_xscale('log')
#ax_3.set_yscale('log')

#fig_3.show()

#im = ax_3.imshow(probabilidades)

#fig_3.colorbar(im, ax=ax_3)

#fig_3.show()

print("--- %s seconds ---" % (time.time() - start_time))

print("partida :",[1.,0.3],gp_prueba.log_prob_verosimilitud_datos(*[1.1,0.15]))
ppp = pruebaHMC()
afdaf = [np.random.randn(),np.random.randn(),np.random.randn(),np.random.randn(),np.random.randn()]
#afdaf = [10485.50142632,   9058.50096209 , -8420.49975872, -10909.50244681 ,-311.49708436]
#print("partida :",afdaf)


# Correlcion a T = 20
#correlando = hmc_annealing([1.,0.3],200,.01,1,gp_prueba)
#correlando = hmc_annealing(afdaf,0.5,.4,4,ppp)
#acc_aver = correlando.aceptacionFrenteTemperatura(np.linspace(0.5,20,40),20000)
#correlando.correlacionExploracion(10000)
#dat = correlando.Corr[0:100]
#print(dat)
#plt.plot(dat,'o')

#plt.plot(np.linspace(0.5,20,40),acc_aver,'-o')
#temp_t = [0.104999053136439,0.284716517883025,0.443330795481337,0.609478683975592,0.554837313380923,0.709404234851678,0.814066141318422,0.897934291533495,1.00467557362541,1.09616810113276,1.20290938322467,1.29440191073202,1.40114319282393,1.52218018233887,1.6374988888846,1.70611828451511,1.79761081202246,1.90435209411437,1.99584462162173,2.11688161113666,2.26422270230996,2.39231224082026,2.36943910894342,2.52573884343514,2.6200905124271,2.7674316036004,2.89200219874503,3.00353315375132,3.11880647709888,3.27388086524006,3.40127150249856,3.51976703291607,3.66812470772834,3.71426196518931,3.83331954906106,3.93243645386069,4.10017275429084,4.26960336078594,4.44041059095881,4.60991683611752,4.74729177697305,4.89490196381549,5.0760930477026,5.24586251541069,5.41156564856289,5.58090708105457,5.7425533216042,5.90784329776944,6.00626707736069,6.09775960486804,6.20450088695995,6.29853487356473,6.42751392275912,6.58331205348162,6.75236685524803,6.91958722037268,7.09316441802674,7.25835925935946,7.4193183355298,7.57790538320921,7.71233361970367,7.86661513667686,8.01910268252244,8.09534645544524,8.21638344496017,8.37490695616215,8.53756033839744,8.71183181936383,8.86693343742391,9.00488981713598,9.16275927636435,9.3304955767945,9.51168666068161,9.66692122481633,9.82862155989008,9.86038979860792,10.0090651558074,10.1072290134455,10.2712264365496,10.4226876239135,10.5961422073129,10.5961422073129,10.7577790059092,10.8820563557734,11.0087057341284,11.180677799721,11.3433311819563,11.5093731763215,11.6788037828166,11.8524049888561,12.0012060226044,12.182012684107,12.3497489845371,12.5174852849673,12.6828138873051,12.8529578858276,13.0267936880915,13.1884304866879,13.3476952567933,13.4149834119442,13.5669583946104,13.737385651732,13.9152877885518,14.0834150826893,14.2511513831194,14.4051205893295,14.5783544670704,14.7692180452871,14.7228364167591,14.9099346226815,15.0923464162456,15.2419294374085,15.4096657378386,15.5856952205867,15.7330664079861,15.7540334455399,15.9103331800316,16.0399475940004]
#h_aver_t = [-0.0000293439022640562,-0.000178619663102952,0.00507715690353194,0.0211502880040338,0.00781521894818227,0.0323156050184674,0.0419912187563756,0.0648357858948734,0.0801556012076392,0.0978841447131789,0.118738660133355,0.135305921571973,0.156242322266098,0.178510697759225,0.184893538878787,0.206129096023144,0.218736087848928,0.231848722822962,0.248371319566699,0.268706085977243,0.276696803603057,0.296684044524625,0.279689963212794,0.296450266601451,0.314041920092589,0.321551561733949,0.334326155531913,0.346537056861613,0.35741462131818,0.361982349635211,0.370913429164186,0.385924815041377,0.387048732954098,0.397876900883253,0.397936172688544,0.406860282057804,0.412016546032197,0.4159049797768,0.420497966547163,0.42819484262863,0.437529135055533,0.44382590146168,0.446525441276908,0.448874561292229,0.452676921174917,0.458458708397394,0.462676734802648,0.469519724557002,0.481977581008753,0.468150517580452,0.487017454078397,0.474044510151861,0.481133113024566,0.481503989401825,0.487846080872667,0.486792706155169,0.489744294856544,0.492986379513231,0.494323421442434,0.491468023947409,0.503109816795679,0.500825158587954,0.500492050221405,0.512712504751957,0.500290370039242,0.504082011976769,0.506205090677325,0.505777603816156,0.51334656290474,0.519164436160506,0.518688379434094,0.519664878723664,0.518134409200106,0.515256535373149,0.519731621396073,0.513157985526256,0.514651057950552,0.527089941396645,0.524811637551915,0.530548312588894,0.532799381352761,0.522015675668416,0.527807251757051,0.526201857325675,0.530325615959649,0.524577056660002,0.531537478757706,0.534155944629649,0.531817269151667,0.530838614977929,0.534504522055639,0.536131372561705,0.537059485098486,0.538263029920371,0.539592233126439,0.54075200483809,0.539319365559549,0.541677715434953,0.546772857022618,0.538348304963286,0.543910266923076,0.544426884342911,0.543806994050662,0.547046032173077,0.54499907519374,0.547390338567547,0.55078725203533,0.54813679306709,0.54331895317853,0.548871701409877,0.546779737683234,0.551750561532614,0.551400519384201,0.551723788576413,0.558998583589866,0.549484114011763,0.55359314257521,0.560466773406837]
#plt.plot(temp_t,h_aver_t,'-v')


busqueda = hmc_annealing([1.,0.3],400.,.1,4,gp_prueba)
#busqueda = hmc_annealing(afdaf,400.,0.2,10,ppp)
busqueda.annealing(35,150)
print("Finalmente el valor minimo calculado :",gp_prueba.log_prob_verosimilitud_datos(*busqueda.ObjetoHMC.Xo), " configuracion final :", busqueda.ObjetoHMC.Xo)

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
aceptacion promedio : 0.9623993331000442 aceptado n:  137 no aceptados en este paso : 0
aceptacion promedio : 0.9625242522591803 aceptado n:  138 no aceptados en este paso : 0
aceptacion promedio : 0.9626483441391167 aceptado n:  139 no aceptados en este paso : 0
aceptacion promedio : 0.9627687721932426 aceptado n:  140 no aceptados en este paso : 0
aceptacion promedio : 0.962766264393579 aceptado n:  141 no aceptados en este paso : 0
aceptacion promedio : 0.9628883422152394 aceptado n:  142 no aceptados en este paso : 0
aceptacion promedio : 0.9629295949439417 aceptado n:  143 no aceptados en este paso : 0
aceptacion promedio : 0.9630358831799367 aceptado n:  144 no aceptados en este paso : 0
aceptacion promedio : 0.9631558965462356 aceptado n:  145 no aceptados en este paso : 0
aceptacion promedio : 0.9631148561530051 aceptado n:  146 no aceptados en este paso : 0
aceptacion promedio : 0.9632145161183537 acept

Correlaciones

In [44]:

ppp = pruebaHMC()
afdaf = [np.random.randn(),np.random.randn(),np.random.randn(),np.random.randn(),np.random.randn()]
#afdaf = [10485.50142632,   9058.50096209 , -8420.49975872, -10909.50244681 ,-311.49708436]
#print("partida :",afdaf)


# Correlcion a T = 20
#correlando = hmc_annealing([1.,0.3],200,.01,1,gp_prueba)
correlando = hmc_annealing(afdaf,0.5,.4,4,ppp)
correlando.correlacionExploracion(1000)
dat = correlando.Corr[0:100]
print(dat)
plt.plot(dat,'o')


aceptacion promedio : 0.029735534095067115 aceptado n:  0 no aceptados en este paso : 10
aceptacion promedio : 0.014035086405502599 aceptado n:  1 no aceptados en este paso : 80
aceptacion promedio : 0.017616275824097815 aceptado n:  2 no aceptados en este paso : 30
aceptacion promedio : 0.021437062686779373 aceptado n:  3 no aceptados en este paso : 25
aceptacion promedio : 0.023444273676686934 aceptado n:  4 no aceptados en este paso : 12
aceptacion promedio : 0.022966474072908652 aceptado n:  5 no aceptados en este paso : 46
aceptacion promedio : 0.022114446193445162 aceptado n:  6 no aceptados en este paso : 20
aceptacion promedio : 0.020825683700236117 aceptado n:  7 no aceptados en este paso : 16
aceptacion promedio : 0.01613896364308107 aceptado n:  8 no aceptados en este paso : 129
aceptacion promedio : 0.01564280346568209 aceptado n:  9 no aceptados en este paso : 49
aceptacion promedio : 0.015706714851271085 aceptado n:  10 no aceptados en este paso : 82
aceptacion promedio :

KeyboardInterrupt: ignored

In [10]:
class hmc_annealing():

  def __init__(self,x,temp,dt,n,gp):
    self.Dt = dt
    self.N = n
    self.GP = gp
    # Inicializacion de contadores
    self.inicializarContadores(temp)
    self.ObjetoHMC = self.hybridMontecarlo(x,self.Temp,self.Dt,self.N,self.GP)

  def inicializarContadores(self,temp):
    self.aceptados = 0
    self.no_aceptados = 0
    self.Total = 0
    self.acc_prob_a = 0.
    self.SubTotal = 0.
    self.an_step = 0
    self.To = temp
    self.Temp = temp

  def pasoAnnealing(self):
    
    # Extraemos momentos del baño termico
    self.ObjetoHMC.Po = np.sqrt(self.Temp)*np.random.randn(len(self.ObjetoHMC.Xo)) # Siempre muestreamos la distribucion de momentos antes de cada trayectoria acorde a la temperatura del sistema
    # Valor del hamiltoniano inicial
    self.Ho = self.GP.log_prob_verosimilitud_datos(*self.ObjetoHMC.Xo) + 0.5*np.sum(np.power(self.ObjetoHMC.Po,2),axis=0)
    # Se itera la trayectoria
    self.ObjetoHMC.ejecutarTrayectoria(self.Dt)
    # Valor del hamiltoniano posterior
    self.H = self.GP.log_prob_verosimilitud_datos(*self.ObjetoHMC.Xo) + 0.5*np.sum(np.power(self.ObjetoHMC.Po,2),axis=0)
    # Diferencia entre hamiltonianos
    self.Dif_H = self.H-self.Ho
    # Obtenemos probabilida de aceptacion
    self.acc_prob = np.minimum(1.,np.exp(-(1./self.Temp)*self.Dif_H))

  def aceptacion(self):
    self.Total = self.Total + 1
    self.acc_prob_a = self.acc_prob_a*((self.Total-1)/self.Total) + (self.acc_prob/self.Total)
    unif = np.random.uniform()
    if unif > self.acc_prob:
      # No se acepta la nueva configuracon
      self.no_aceptados += 1
      self.ObjetoHMC.Xo = self.ObjetoHMC.prev_X       
    else:
      # Se acepta
      print("aceptacion promedio :",self.acc_prob_a, "aceptado n: ",self.aceptados, "no aceptados en este paso :",self.no_aceptados)
      self.no_aceptados = 0
      self.aceptados += 1
      self.ObjetoHMC.prev_X = self.ObjetoHMC.X

    #print(unif,self.acc_prob,self.aceptados)

  def forzarAceptacion(self):
    '''
    Si variamos dt es un metodo de ajustar la probabilidad de aceptacion dinámicamente. Lo hacemos sondeando el promedio de la 
    probabilidad de aceptacion dinamicamente
    '''
    self.SubTotal = self.SubTotal + 1
    if (self.SubTotal > 10):
      if (self.acc_prob_a < 0.45):
        # Debemos intentar mejorar la aceptacion
        self.Dt = self.Dt - self.Dt*(0.03)
      elif (self.acc_prob_a > 0.55):
        # Debemos intentar reducir la aceptacióón
        self.Dt = self.Dt + self.Dt*(0.03)
      self.SubTotal = 0

  def reducirT(self,To,astep):
    self.Temp = To*np.exp(-0.4*float(astep))

  def annealing(self,lim_an_step,lim_acept):
    self.inicializarContadores(self.Temp)
    while self.an_step < lim_an_step:
      self.aceptados = 0
      self.no_aceptados = 0  
      while self.aceptados < lim_acept: 
        self.pasoAnnealing()
        self.aceptacion()
        #self.forzarAceptacion()
      self.an_step = self.an_step + 1
      self.reducirT(self.To,self.an_step)
      print("Enfriado a temp :",self.Temp, "iter :",self.an_step, " aceptado promedio :", self.acc_prob_a," dt :", self.Dt, " n :",self.N, " total pasos probados :", self.Total)
    print("Resultado final:",self.ObjetoHMC.Xo)


  def diag_suma(self,k):
    '''
    Suma terminos de la diagonal k de la  matriz normalizando por el numero de elementos que contenga
    '''
    traza_k = np.trace(self.cross_element_matrix,offset=k)
    return traza_k/float(len(self.cross_element_matrix)-k)


  def aceptacionFrenteTemperatura(self,temperaturas, al):
    '''
    Devuelve array de aceptacion promedio frente temperaturas como input y el numero de iteraciones para calcular promedio
    Implicito esta el potencial a minimizar, el paso temporal y el numero de iteraciones de monte - carlo hibridas
    '''

    acc_aver = np.zeros(len(temperaturas))

    for id_temp in range(len(temperaturas)):    
      self.inicializarContadores(temperaturas[id_temp])
      for iteraciones in range(al): # Representa indices que van de 0 hasta longitud - 1
        self.pasoAnnealing()
        self.aceptacion()
      print("temperatura :",temperaturas[id_temp]," prob media :",self.acc_prob_a)
      acc_aver[id_temp] = self.acc_prob_a
    
    return acc_aver
    


  def correlacionExploracion(self,sl):
    '''
    Dada una temperatura se analiza la correlacion unitaria entre entre el valor de la energia muestreada en función de cuantas transiciones sobre el espacio de fase son aceptadas

    La correlacion unitaria es el siguiente calculo, C(a,s) = <(Ea - <E>)*(Ea+s-<E>)> / (<(Ea - <E>)*(Ea-<E>)> )

    Notar que en esencia es suponer una correlacion estacionaria y normalizar al valor del primre elemento en la sucesion de terminos

    sl es la longitud en cantidad de medidas a realizar, el alcance del indice que representa el tiempo
    al es la cantidad de trayectorias a realizar, con lo que calculamos promedios
    '''


    self.inicializarContadores(self.Temp)

    arrayEnergias = np.zeros(sl) 
    arrayEnergias[self.aceptados] = self.GP.log_prob_verosimilitud_datos(*self.ObjetoHMC.Xo)

    while self.aceptados < sl-1: # Representa indices que van de 0 hasta longitud - 1
      self.ObjetoHMC.Xo = self.ObjetoHMC.prev_X
      self.pasoAnnealing()
      self.aceptacion()
      if self.no_aceptados == 0: # Significa que tras llamar el metodo de aceptacion, ha sido aceptado pues no ha sido incrementado este contador
        arrayEnergias[self.aceptados] = self.GP.log_prob_verosimilitud_datos(*self.ObjetoHMC.X)
    
    aver = np.sum(arrayEnergias)*(1./float(sl))
    #print("Energias :",arrayEnergias)
    #print("aver :",aver)


    br_aE = arrayEnergias - aver # Como son arrays de numpy esta operacion amplia la dimension del promedio a todos los elementos de las energias

    # 
    self.sq_sigma_aver = np.sum(np.power(br_aE,2))*(1./float(sl))
    #print("sigma cuadrado :",self.sq_sigma_aver)

    # Matriz de correlación
    br_aE = np.reshape(br_aE,(len(br_aE),1))
    self.cross_element_matrix= np.matmul(br_aE,br_aE.T)

    self.vdiag_suma = np.vectorize(self.diag_suma)
    self.Corr = self.vdiag_suma(np.arange(sl))/self.sq_sigma_aver

  class hybridMontecarlo():

    def __init__(self,x,temp,dt,n,gp):
      self.Xo = np.asarray(x) # En este formalismo de procesos gausianos son una lista de hiperparámetros
      self.Po = None
      self.Temp = temp
      self.Dt = dt
      self.t = 0. # Inicializacion del tiempo
      self.N = n
      self.Nd = len(self.Xo)
      self.GP = gp 
      self.prev_X = self.Xo 
      #self.trayectoria, self.ax_tray = plt.subplots(1,1)

    def updateStepIter(self,):
      '''
      Ejecuta avance en el integrador simpléctico y actualiza las fuerzas calculadas
      '''
      self.Fo = self.GP.der_log_prob_ver_hiper(*self.Xo)
      self.update_x_verlet()
      self.F = self.GP.der_log_prob_ver_hiper(*self.X)
      self.update_p_verlet()
      self.Fo = self.F
      self.t += self.Dt

    def update_x_verlet(self):
      '''
      La operacion se realiza sobre ndarray
      '''
      self.X = self.Xo + self.Dt*(self.Po + (0.5*self.Dt*self.Fo))

    def update_p_verlet(self):
      '''
      La operacion se realiza sobre ndarray
      '''
      self.P = self.Po + 0.5*self.Dt*(self.Fo + self.F)

    #@numba.njit
    def ejecutarTrayectoria(self,tray_dt):
      '''
      Desarrolla una trayectoria en el integrador simplectico de self.N iteraciones
      '''
      self.Dt = tray_dt
      for index_t in range(self.N):
        self.updateStepIter()
        self.Xo = self.X
        self.Po = self.P
        #self.ploteado(False)
      #self.ploteado(True)


    def ploteado(self,mostrar):
      '''
      Muestra punto x integrado hasta ahora frente al indice del tiempo
      '''
      for i in range(self.Nd):
        self.ax_tray.plot(self.t,self.X[i],'ob')
      if mostrar == True:
        print("se ha mostrado")
        self.trayectoria.show()

In [5]:
class pruebaHMC():
  def __init__(self):
    pass
  
  def log_prob_verosimilitud_datos(self,*hiper):
    arrayEntrada = np.asarray(hiper)
    return (1./10.)*np.sum(np.sin(8*np.pi*arrayEntrada)/np.sin(2*np.pi*arrayEntrada))

  def der_log_prob_ver_hiper(self,*hiper):
    return np.asarray([-(np.pi/5.)*(   (4*np.cos(8*np.pi*i)*np.sin(2*np.pi*i)-np.sin(8*np.pi*i)*np.cos(2*np.pi*i)     ) /  np.power(np.sin(2*np.pi*i),2)   ) for i in hiper])


In [None]:


class datosVisualizacion():
  '''
  Esta clase contiene los datos de entrenamiento y realizaciones de los procesos gaussianos para la visualización de los mismos
  '''
  def __init__(self,Titulo):
    self.x = []
    self.y = []
    self.sigma = []
    self.realizacion_dict = {}
    self.titulo = Titulo
    self.inicializacionPlot()

  def inicializacionPlot(self):
    '''
    Inicializa el objeto matplotlib
    '''
    self.fig,self.ax = plt.subplots(nrows=1,ncols=1,figsize=(10,10))
    self.ax.set_title(self.titulo)
    self.fig_hm, self.ax_hm = plt.subplots(nrows=1,ncols=1,figsize=(10,10))

  def add_covariance(self, cov):
    '''
    Añada matriz de covarianza y alternativamente calcula la covarianza del proceso gaussiano sobre el dominio
    '''

    self.cov_GP = cov

  def add_mean(self,X,Mean):
    '''
    Almacena la desviación estándar de un proceso gausiano dado
    '''
    self.x_mean = X
    self.mean = Mean


  def add_sigma(self,X,Sigma):
    '''
    Almacena la desviación estándar de un proceso gausiano dado
    '''
    self.x_sigma = X
    self.sigma = Sigma
    self.meanMarker = 'r-'

  def add_train_data(self,X,Y):
    self.xtrain = X
    self.ytrain = Y
    self.marker = 'b*'

  def add_data(self,X,Y,label):
    self.x.append(X)
    self.y.append(Y)
    self.realizacion_dict[label] = len(self.x)-1

  def add_corrPuntoPunto(self,corrPP, corrInputs):
    '''
    Añade correlaciones punto a punto sobre un dominio dado por los valores corrInputs
    '''
    self.corrPP = corrPP
    self.corr_in = corrInputs

  def add_data_plot(self,label):
    try:
      self.ax.plot(self.x[self.realizacion_dict[label]],self.y[self.realizacion_dict[label]],'g--')
    except:
      print('No existe datos referentes a etiqueta :',label)

  def add_train_data_plot(self):
    try:
      self.ax.plot(self.xtrain,self.ytrain,self.marker)
    except:
      print('No existen datos de entrenamiento')

  def add_mean_plot(self):
    try:
      self.ax.plot(self.x_mean,self.mean,self.meanMarker)
    except:
      print('No existen datos de entrenamiento')



  def contorno_sigma(self):
    '''
    Muestra en pantalla contorno de 1 y 2 veces los valores de sigma del proceso gausiano
    '''
    self.ax.fill(np.concatenate((self.x_sigma,self.x_sigma[::-1])),
             np.concatenate((self.mean - 1.9600 * self.sigma,
                             (self.mean + 1.9600 * self.sigma)[::-1])),
             alpha=.45, fc='y', ec='None', label='95% confidence interval')
    self.ax.fill(np.concatenate((self.x_sigma,self.x_sigma[::-1])),
             np.concatenate((self.mean - 1.000 * self.sigma,
                             (self.mean + 1.000 * self.sigma)[::-1])),
             alpha=.35, fc='b', ec='None', label='68% confidence interval')
    
  def plotCorrPuntoPunto(self,indices):
    '''
    Visualiza correlaciones punto a punto para los inputs dados por sus indices en la lista indices como argumento del metodo
    '''

    ' Generamos y visualizamos las imagen directamente en este metodo'
    self.fig_cpp, self.ax_cpp = plt.subplots(nrows=1,ncols=1,figsize=(10,10))
    try:
      [self.ax_cpp.plot(self.corr_in,self.corrPP[indice],'-') for indice in indices] 
    except:
      print('No existe datos referentes referentes a correlaciones punto a punto')
    self.ax_cpp.grid(True)
    self.fig_cpp.show()



  def mostrarPlot(self):
    '''
    Muestra plot
    '''
    self.add_mean_plot()
    self.add_train_data_plot()
    self.contorno_sigma()
    self.ax.grid(True)
    self.fig.show()

  def hmapCov(self):
    '''
    Visualiza covarianza como campo bidimensional
    '''
    plotRange = np.arange(len(self.cov_GP))
    heatmap = self.ax_hm.pcolormesh(self.cov_GP,cmap='RdBu_r')
    self.ax_hm.axis([plotRange.min(), plotRange.max(), plotRange.max(), plotRange.min()])
    self.fig_hm.colorbar(heatmap, ax=self.ax_hm)
    self.fig_hm.show()


