# JIT et méthodes
Le petit code suivant, montre que les méthodes même si elles sont associées à des instances différentes, sont liées dans leur compilations et le fait de récréer la classe réinitialise les compilations

In [2]:
from jax import jit, clear_caches
import jax.numpy as jnp
import equinox as eqx

class Class(eqx.Module):
    att1: jnp.ndarray
    att2: str = eqx.field(static=True)

    def meth(self):
        if self.att2 == 'r':
            return self.att1
        else:
            return -self.att1
    
    @jit
    def jit_meth(self, **kwargs):
        return self.meth(**kwargs)
    jit_met = jit(meth)

insr = Class(jnp.ones(2), 'r')
insr2 = Class(2*jnp.ones(2), 'r')
insd = Class(jnp.ones(2), 'd')

print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr2.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insd.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
clear_caches()
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())


0 0 0
[1. 1.]
1 1 1
[2. 2.]
1 1 1
[-1. -1.]
2 2 2
0 0 0


In [3]:
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr2.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insd.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())

0 0 0
[1. 1.]
1 1 1
[2. 2.]
1 1 1
[-1. -1.]
2 2 2


In [4]:
from jax import jit
import jax.numpy as jnp
import equinox as eqx

class Class(eqx.Module):
    att1: jnp.ndarray
    att2: str = eqx.field(static=True)

    def meth(self):
        if self.att2 == 'r':
            return self.att1
        else:
            return -self.att1
    
    @jit
    def jit_meth(self, **kwargs):
        return self.meth(**kwargs)
    jit_met = jit(meth)


insr = Class(jnp.ones(2), 'r')
print(insr.jit_meth._cache_size())
print(insr.jit_meth())
insr2 = Class(2*jnp.ones(2), 'r')
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size())
print(insr2.jit_meth())
insd = Class(jnp.ones(2), 'd')
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insd.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())


0
[1. 1.]
1 1
[2. 2.]
1 1 1
[-1. -1.]
2 2 2


même une instantce qui vient d'être créee hérite d'une version compilée des méthodes -> c'est sympa merci jax

# si l'attribut est une fonction

In [5]:
from jax import jit, clear_caches
import jax.numpy as jnp
import equinox as eqx
from typing import Callable

class Class(eqx.Module):
    att1: jnp.ndarray
    att2: Callable[[float], float] = eqx.field(static=True)

    def meth(self):
        return self.att2(self.att1)
    
    @jit
    def jit_meth(self):
        return self.meth()

insr = Class(jnp.ones(2), lambda x: x)
insr2 = Class(2*jnp.ones(2), lambda x: x)
insd = Class(jnp.ones(2), lambda x: -x)

print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr2.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insd.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
clear_caches()
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())


0 0 0
[1. 1.]
1 1 1
[2. 2.]
2 2 2
[-1. -1.]
3 3 3
0 0 0


In [6]:
from jax import jit, clear_caches
import jax.numpy as jnp
import equinox as eqx
from typing import Callable

class Class(eqx.Module):
    att1: jnp.ndarray
    att2: Callable[[float], float] = eqx.field(static=True)

    def meth(self):
        return self.att2(self.att1)
    
    @jit
    def jit_meth(self):
        return self.meth()
fun1 = lambda x: x
fun2 = lambda x: -x

insr = Class(jnp.ones(2), fun1)
insr2 = Class(2*jnp.ones(2), fun1)
insd = Class(jnp.ones(2), fun2)

print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insr2.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
print(insd.jit_meth())
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())
clear_caches()
print(insr.jit_meth._cache_size(), insr2.jit_meth._cache_size(), insd.jit_meth._cache_size())


0 0 0
[1. 1.]
1 1 1
[2. 2.]
1 1 1
[-1. -1.]
2 2 2
0 0 0


apparamment il faut que la fonction soit associée au même nom de variable, si la fonction est égale dans le sens qu'elle fait la même chose, même pour une fonction très simple, ça ne marche pas. Ce n'est pas le même fonctionnement que pour les autres objets, genre les entiers ça va comparer les valeurs par exemple.Ça implique que si on veut ne pas recompiler sur des fonctions, ils faut que les fonctions soient définient le plus "extérieurement" possible

# recompilation avec le gradient

In [7]:
from jax import jit, clear_caches, grad
import jax.numpy as jnp
import equinox as eqx
from typing import Callable

class Model(eqx.Module):
    arr: jnp.ndarray
    sign: str = eqx.field(static=True)

    def run(self, par: float) -> jnp.ndarray:
        if self.sign == 'pos':
            return par*self.arr
        elif self.sign == 'neg':
            return -par*self.arr
        else:
            return 0.*self.arr

def agreg(out: jnp.ndarray) -> float:
    return jnp.sum(out)

In [8]:
def loss_global(model: Model, par: float):
    return agreg(model.run(par))

jit_grad_loss_global = jit(grad(loss_global, argnums=(1,)))
jit_filter_loss_global = jit(eqx.filter_value_and_grad(loss_global))

model_pos = Model(jnp.ones(2), 'pos')
model_pos2 = Model(2*jnp.ones(2), 'pos')
model_neg = Model(jnp.ones(2), 'neg')
model_other = Model(jnp.ones(2), 'qzeriough')

print(jit_grad_loss_global._cache_size(), jit_filter_loss_global._cache_size())
print(jit_grad_loss_global(model_pos, 1.))
print(jit_grad_loss_global._cache_size(), jit_filter_loss_global._cache_size())
print(jit_filter_loss_global(model_pos, 1.))
print(jit_grad_loss_global._cache_size(), jit_filter_loss_global._cache_size())
print(jit_grad_loss_global(model_pos2, 1.))
print(jit_grad_loss_global._cache_size(), jit_filter_loss_global._cache_size())
print(jit_grad_loss_global(model_neg, 1.))
print(jit_grad_loss_global._cache_size(), jit_filter_loss_global._cache_size())
print(jit_grad_loss_global(model_other, 1.))
print(jit_grad_loss_global._cache_size(), jit_filter_loss_global._cache_size())
print(jit_filter_loss_global(model_other, 1.))
print(jit_grad_loss_global._cache_size(), jit_filter_loss_global._cache_size())

0 0
(Array(2., dtype=float32, weak_type=True),)
1 0
(Array(2., dtype=float32), Model(arr=f32[2], sign='pos'))
1 1
(Array(4., dtype=float32, weak_type=True),)
1 1
(Array(-2., dtype=float32, weak_type=True),)
2 1
(Array(0., dtype=float32, weak_type=True),)
3 1
(Array(0., dtype=float32), Model(arr=f32[2], sign='qzeriough'))
3 2


Dans cette première version, on fait une fonction loss qui prend en argument le modèle et les paramètres, et on dérive seulement par rapport aux paramètre. On constate sans grande surprise qu'il y a compilation à chaque fois que des nouvelles valeurs statiques sont utilisées pour le modèle

In [9]:
clear_caches()
def loss_generate(model: Model) -> Callable[[float], float]:
    def loss(par: float) -> float:
        return agreg(model.run(par))
    return loss

model_pos = Model(jnp.ones(2), 'pos')
model_pos2 = Model(2*jnp.ones(2), 'pos')
model_neg = Model(jnp.ones(2), 'neg')
model_other = Model(jnp.ones(2), 'qzeriough')

loss_model_pos = jit(grad(loss_generate(model_pos)))
print(loss_model_pos._cache_size())
print(loss_model_pos(1.))
print(loss_model_pos._cache_size())
loss_model_pos_bis = jit(grad(loss_generate(model_pos)))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size())
print(loss_model_pos(1.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size())
print(loss_model_pos_bis(1.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size())
loss_model_pos2 = jit(grad(loss_generate(model_pos2)))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size())
print(loss_model_pos2(2.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size())
loss_model_neg = jit(grad(loss_generate(model_neg)))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_neg(2.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())

0
2.0
1
1 0
2.0
1 0
2.0
1 1
1 1 0
4.0
1 1 1
1 1 1 0
-2.0
1 1 1 1


Dans cette deuxième version, on fait une fonction qui génère une fonction de coût à partir d'un modèle. On constate que la fonction générée ne se compile au plus qu'une fois ce qui est logique. Cependant on constate que lorsqu'on créé deux fois une fonction de coût avec le même modèle, la compilation n'est pas comptée en double et il y a de nouveau une compilation. Donc si j'utilise ça il faut être attentif à ce que les fonctions coût ne soient crées qu'une fois pour minimiser le nombre de compilations. On constate qu'il y a aussi compilation si seules les valeurs traçables de l'objet ne sont pas les mêmes, c'est donc très innefficace. Ça n'a pas le même compoterment du tout que les méthodes.

In [27]:
clear_caches()

model_pos = Model(jnp.ones(2), 'pos')
model_pos2 = Model(2*jnp.ones(2), 'pos')
model_neg = Model(jnp.ones(2), 'neg')

@jit
def loss_model_pos(par: float) -> float:
    return agreg(model_pos.run(par))

@jit
def loss_model_pos_bis(par: float) -> float:
    return agreg(model_pos.run(par))

@jit
def loss_model_pos2(par: float) -> float:
    return agreg(model_pos2.run(par))

@jit
def loss_model_neg(par: float) -> float:
    return agreg(model_neg.run(par))

print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_pos(1.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_pos(1.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_pos_bis(1.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_pos2(2.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())
print(loss_model_neg(2.))
print(loss_model_pos._cache_size(), loss_model_pos_bis._cache_size(), loss_model_pos2._cache_size(), loss_model_neg._cache_size())

0 0 0 0
2.0
1 0 0 0
1 0 0 0
2.0
1 0 0 0
2.0
1 1 0 0
1 1 0 0
8.0
1 1 1 0
1 1 1 0
-4.0
1 1 1 1


Ici on fait comme précédemment mais on créé à la main les différentes fonctions coût liées aux différents objets. Mais on a le même résultat : trop de recompilation.