# Computer algebra system for appendix of "When can Transformers reason with abstract symbols?"

This iPython notebook contains code helpful for analyzing the random features kernel of an attention layer.

We fuzz-test the computer algebra system that we implement for correctness (see below).

In [1]:
import numpy as np
from IPython.display import display, Math, Latex
import copy
import disjoint_set
import itertools
from tqdm import tqdm
import pickle
import os
import math

ModuleNotFoundError: No module named 'disjoint_set'

## Definition of the terms $T_{r,n,\mathbf{i},\mathbf{j},\mathbf{a},\mathbf{b},\mathbf{c},\mathbf{d}}$ that we focus on

We will consider terms given by $r \in \mathbb{Z}$, $\mathbf{i} = [i_1,\ldots,i_k] \in [r]^k, \mathbf{j} = [j_1,\ldots,j_l] \in [r]^l, \mathbf{a} = [a_1,\ldots,a_m] \in [r]^m, \mathbf{b} = [b_1,\ldots,b_o] = [r]^o, \mathbf{c} \in [c_1,\ldots,c_{\mu}] \in [r]^{\mu}, \mathbf{d} = [(d_{1,1}, d_{1,2}),\ldots, (d_{z,1},d_{z,2})]$, which are given by

$$T_{r,\mathbf{i},\mathbf{j},\mathbf{a},\mathbf{b},\mathbf{c},\mathbf{d}} = \sum_{w_1,\ldots,w_r \in [k]} \left(\prod_{q \in [k]} s_{w_{i_q}}\right) \cdot \left(\prod_{q \in [l]} u_{w_{j_q}}\right) \cdot \left(\prod_{q \in [m]} t_{w_{a_q}}\right) \cdot \left(\prod_{q \in [o]} v_{w_{b_q}}\right) \cdot \left(\prod_{q \in [\mu]} p_{w_{c_{\mu}}} \right) \cdot \left(\prod_{q \in [z]} 1(x_{w_{d_{q,1}}} = y_{w_{d_{q,2}}})\right)$$

Here
* $p_1,\ldots,p_k \in \mathbb{R}$
* $x_1,\ldots,x_k \in \mathbb{R}$
* $y_1,\ldots,y_k \in \mathbb{R}$.
* $\zeta_1,\ldots,\zeta_k \in \mathbb{R}$.
* $\xi_1,\ldots,\xi_k \in \mathbb{R}$.
* $u_1,\ldots,u_k,v_1,\ldots,v_k \in \mathbb{R}$ are defined as $u_i = \zeta_i + \gamma p_i$ for all $i \in [k]$ and $v_i = \xi_i + \gamma p_i$ for all $i \in [k]$
* $\mathbf{s} = \mathrm{softmax}([\beta u_1,\ldots,\beta u_k]) \in \mathbb{R}^k$ and $\mathbf{t} = \mathrm{softmax}([\beta v_1,\ldots,\beta v_k]) \in \mathbb{R}^k$ for some $\beta \in \mathbb{R}$.

## Code to display a term

In [2]:
INDEX_TO_VAR_NAME = ['ERROR','a','b','c','d','e','f','g','h','i','j','k','l', r'\alpha', r'\delta', r'\epsilon', r'\tau', r'\sigma']

def display_terms(currterms):
    tot_str = ''
    for t in currterms:
        tot_str += term_string(t)
    display(Math(tot_str))
    
def coeff_term_str(coeff):
    term_str = ''
    if coeff > 0:
        term_str += '+'
    if coeff == 1:
        pass
    elif coeff == -1:
        term_str += '-'
    else:
        term_str += str(coeff)
    return term_str
    
def term_string(t):
    i_terms, js, a_terms, bs, ps, diracs, coeff = t

    term_str = coeff_term_str(coeff)
    
    terms_set = set(i_terms + a_terms)
    term_str += r'\sum_{'
    for i_idx, i in enumerate(terms_set):
        term_str += INDEX_TO_VAR_NAME[i]
        if i_idx < len(terms_set) - 1:
            term_str += ','
    term_str += r'}'
    
    for i in i_terms:
        term_str += r's_{' + INDEX_TO_VAR_NAME[i] + '}'
    for a in a_terms:
        term_str += r't_{' + INDEX_TO_VAR_NAME[a] + '}'
    for j in js:
        term_str += r'u_{' + INDEX_TO_VAR_NAME[j] + '}'
    for b in bs:
        term_str += r'v_{' + INDEX_TO_VAR_NAME[b] + '}'
    for p in ps:
        term_str += r'p_{' + INDEX_TO_VAR_NAME[p] + '}'
    for v1, v2 in diracs:
        term_str += r'1(x_{' + INDEX_TO_VAR_NAME[v1] + '} = y_{' + INDEX_TO_VAR_NAME[v2] + '})'
    
    return term_str

## Examples of terms

We give some examples of terms, for illustrative purposes

In [3]:
# i_terms, js, a_terms, bs, ps, diracs, coeff
term = [[1],[],[2],[], [], [(1,2)], 1]
print('Term representation', term)
display_terms([term])

term = [[1],[],[1],[], [], [], 1]
print('Term representation', term)
display_terms([term])

term = [[1],[2],[1],[2], [3], [(3,1)], 1]
print('Term representation', term)
display_terms([term])

Term representation [[1], [], [2], [], [], [(1, 2)], 1]


<IPython.core.display.Math object>

Term representation [[1], [], [1], [], [], [], 1]


<IPython.core.display.Math object>

Term representation [[1], [2], [1], [2], [3], [(3, 1)], 1]


<IPython.core.display.Math object>

## Derivatives in $\beta$

We care about computing $\frac{\partial}{\partial \beta} T_{r,\mathbf{i},\mathbf{j},\mathbf{a},\mathbf{b},\mathbf{c},\mathbf{d}}$. The observation is that we can express this as a sum of terms of the same form. Since only $\mathbf{s}$ and $\mathbf{t}$ depend on $\beta$, the following code successfully computes derivatives in $\beta$.

In [4]:
def take_beta_deriv(term):
    i_terms, js, a_terms, bs, ps, diracs, coeff = term
    assert(len(ps) == 0)

    newterms = []

    # Construct the k index by picking the first that does not appear in i_terms or j_terms
    k = max(np.max(i_terms),np.max(a_terms))+1
    
    for i in i_terms:
        # Notice that \pd{s_i}{beta} = \pd{}{\beta} e^{\beta x_i} / (\sum_j e^{\beta x_j})
        # = x_i e^{\beta x_i} / (\sum_j e^{\beta x_j}) - e^{\beta x_i} (\pd{}{\beta} \sum_j e^{\beta x_j}) / (\sum_j e^{\beta x_j})^2
        # = x_i s_i - s_i \sum_k x_k s_k
        # = s_i x_i - \sum_{k} s_i s_k x_k

        ## Add the x_i s_i term
        newterm = [i_terms, js + [i], a_terms, bs, ps, diracs, coeff]
        newterms.append(newterm)

        ## Add the -\sum_k s_i s_k x_k term
        newterm = [i_terms + [k], js + [k], a_terms, bs, ps, diracs, -coeff]
        newterms.append(newterm)
    
    for a in a_terms:
        ## Add the x_i s_i term
        newterm = [i_terms, js, a_terms, bs + [a], ps, diracs, coeff]
        newterms.append(newterm)

        ## Add the -\sum_k s_i s_k x_k term
        newterm = [i_terms, js, a_terms + [k], bs + [k], ps, diracs, -coeff]
        newterms.append(newterm)

    for a in newterms:
        assert(len(a) == 7)
    return newterms


def take_beta_deriv_terms(currterms):
    newterms = []
    for t in currterms:
        newterms.extend(take_beta_deriv(t))
    return newterms

## Examples of beta derivatives

In [5]:
# i_terms, js, a_terms, bs, ps, diracs, coeff
term = [[1],[],[2],[], [], [(1,2)], 1]
print('Term representation', term)
display_terms([term])
deriv = take_beta_deriv(term)
print('Derivative',deriv)
display_terms(deriv)
print()

term = [[1],[],[1],[], [], [], 1]
print('Term representation', term)
display_terms([term])
deriv = take_beta_deriv(term)
print('Derivative',deriv)
display_terms(deriv)
print()


term = [[1],[1],[1],[2], [], [], 1]
print('Term representation', term)
display_terms([term])
deriv = take_beta_deriv(term)
print('Derivative',deriv)
display_terms(deriv)
print()


Term representation [[1], [], [2], [], [], [(1, 2)], 1]


<IPython.core.display.Math object>

Derivative [[[1], [1], [2], [], [], [(1, 2)], 1], [[1, 3], [3], [2], [], [], [(1, 2)], -1], [[1], [], [2], [2], [], [(1, 2)], 1], [[1], [], [2, 3], [3], [], [(1, 2)], -1]]


<IPython.core.display.Math object>


Term representation [[1], [], [1], [], [], [], 1]


<IPython.core.display.Math object>

Derivative [[[1], [1], [1], [], [], [], 1], [[1, 2], [2], [1], [], [], [], -1], [[1], [], [1], [1], [], [], 1], [[1], [], [1, 2], [2], [], [], -1]]


<IPython.core.display.Math object>


Term representation [[1], [1], [1], [2], [], [], 1]


<IPython.core.display.Math object>

Derivative [[[1], [1, 1], [1], [2], [], [], 1], [[1, 2], [1, 2], [1], [2], [], [], -1], [[1], [1], [1], [2, 1], [], [], 1], [[1], [1], [1, 2], [2, 2], [], [], -1]]


<IPython.core.display.Math object>




## Simplifying sums of terms
If we iteratively take the $\beta$ derivatives, we may end up with sums multiple terms. In order to avoid blow-up in the length of the expression, we have code that groups together like terms.

In [6]:

def check_terms_equiv(term1,term2):
    
    i1, j1, a1, b1, ps1, diracs1, coeff1 = term1
    i2, j2, a2, b2, ps2, diracs2, coeff2 = term2

    if len(i1) != len(i2):
        return False
    if len(j1) != len(j2):
        return False
    if len(a1) != len(a2):
        return False
    if len(b1) != len(b2):
        return False
    if len(ps1) != len(ps2):
        return False
    if len(diracs1) != len(diracs2):
        return False
    
    indices_1 = set(i1 + a1)
    indices_2 = set(i2 + a2)
    if len(indices_1) != len(indices_2):
        return False
    for j in j1:
        assert(j in indices_1)
    for b in b1:
        assert(b in indices_1)
    for j in j2:
        assert(j in indices_2)
    for b in b2:
        assert(b in indices_2)
    for p in ps1:
        assert(p in indices_1)
    for p in ps2:
        assert(p in indices_2)
    for v1, v2 in diracs1:
        assert(v1 in indices_1)
        assert(v2 in indices_1)
    for v1, v2 in diracs2:
        assert(v1 in indices_2)
        assert(v2 in indices_2)
        
    if len(diracs1) == 0: 
        rel_dict = {}
        indices_used = set()
        idx_counts1 = {}
        idx_counts2 = {}
        for i in indices_1:
            idx_counts1[i] = (i1.count(i), j1.count(i), a1.count(i), b1.count(i), ps1.count(i))
        for i in indices_2:
            idx_counts2[i] = (i2.count(i), j2.count(i), a2.count(i), b2.count(i), ps2.count(i))

        for i in indices_1:
            found_idx = False
            for j in indices_2:
                if j in indices_used:
                    continue
                if idx_counts1[i] == idx_counts2[j]:
                    rel_dict[i] = j
                    indices_used.add(j)
                    found_idx = True
                    break
            if not found_idx:
                return False
        return True
    elif len(diracs1) == 1:
        rel_dict = {}
        indices_used = set()
        idx_counts1 = {}
        idx_counts2 = {}
        for i in indices_1:
            idx_counts1[i] = (i1.count(i), j1.count(i), a1.count(i), b1.count(i), ps1.count(i))
        for i in indices_2:
            idx_counts2[i] = (i2.count(i), j2.count(i), a2.count(i), b2.count(i), ps2.count(i))

        # Now that we added the dirac 1(x_i = y_j), the index counts alone are not sufficient.
        # The dirac terms have to be matched.
        v11, v12 = diracs1[0]
        v21, v22 = diracs2[0]
        if idx_counts1[v11] != idx_counts2[v21]:
            return False
        if idx_counts1[v12] != idx_counts2[v22]:
            return False
        rel_dict[v11] = v21
        rel_dict[v12] = v22
        indices_used.add(v21)
        indices_used.add(v22)

        for i in indices_1:
            if i in rel_dict.keys():
                assert(i in [v11, v12])
                continue
            found_idx = False
            for j in indices_2:
                if j in indices_used:
                    continue
                if idx_counts1[i] == idx_counts2[j]:
                    rel_dict[i] = j
                    indices_used.add(j)
                    found_idx = True
                    break
            if not found_idx:
                return False
        return True
    else:
        assert(False) # Case not implemented

def simplify_terms(currterms):
    covered = set()
    equiv_groups = []
    for i in tqdm(range(len(currterms))):
        if i in covered:
            continue
        curr_group = [i]
        for j in range(i+1,len(currterms)):
            if j in covered:
                continue
            if check_terms_equiv(currterms[i], currterms[j]):
                covered.add(j)
                curr_group.append(j)
        covered.add(i)
        equiv_groups.append(curr_group)
        
    for curr_group in equiv_groups:
        for i in curr_group:
            for j in curr_group:
                assert(check_terms_equiv(currterms[i], currterms[j]))
    
    simplified_terms = []
    for curr_group in equiv_groups:
        tot_coeff = 0
        for i in curr_group:
            tot_coeff += currterms[i][-1]
        base_term = copy.deepcopy(currterms[curr_group[0]])
        base_term[-1] = tot_coeff
        # if tot_coeff == 0:
        #     continue
        simplified_terms.append(base_term)
    return simplified_terms

## Example of simplifying sums of terms

In [7]:
term = [[1],[],[2],[2], [], [], 1]
print('Term representation', term)
display_terms([term])
deriv = take_beta_deriv_terms([term])
print('Derivative',deriv)
display_terms(deriv)
deriv2 = take_beta_deriv_terms(deriv)
print('Second derivative', deriv2)
display_terms(deriv2)
simplified_deriv2 = simplify_terms(deriv2)
print('Simplified second derivative', simplified_deriv2)
display_terms(simplified_deriv2)

Term representation [[1], [], [2], [2], [], [], 1]


<IPython.core.display.Math object>

Derivative [[[1], [1], [2], [2], [], [], 1], [[1, 3], [3], [2], [2], [], [], -1], [[1], [], [2], [2, 2], [], [], 1], [[1], [], [2, 3], [2, 3], [], [], -1]]


<IPython.core.display.Math object>

Second derivative [[[1], [1, 1], [2], [2], [], [], 1], [[1, 3], [1, 3], [2], [2], [], [], -1], [[1], [1], [2], [2, 2], [], [], 1], [[1], [1], [2, 3], [2, 3], [], [], -1], [[1, 3], [3, 1], [2], [2], [], [], -1], [[1, 3, 4], [3, 4], [2], [2], [], [], 1], [[1, 3], [3, 3], [2], [2], [], [], -1], [[1, 3, 4], [3, 4], [2], [2], [], [], 1], [[1, 3], [3], [2], [2, 2], [], [], -1], [[1, 3], [3], [2, 4], [2, 4], [], [], 1], [[1], [1], [2], [2, 2], [], [], 1], [[1, 3], [3], [2], [2, 2], [], [], -1], [[1], [], [2], [2, 2, 2], [], [], 1], [[1], [], [2, 3], [2, 2, 3], [], [], -1], [[1], [1], [2, 3], [2, 3], [], [], -1], [[1, 4], [4], [2, 3], [2, 3], [], [], 1], [[1], [], [2, 3], [2, 3, 2], [], [], -1], [[1], [], [2, 3, 4], [2, 3, 4], [], [], 1], [[1], [], [2, 3], [2, 3, 3], [], [], -1], [[1], [], [2, 3, 4], [2, 3, 4], [], [], 1]]


<IPython.core.display.Math object>

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 36615.49it/s]

Simplified second derivative [[[1], [1, 1], [2], [2], [], [], 1], [[1, 3], [1, 3], [2], [2], [], [], -2], [[1], [1], [2], [2, 2], [], [], 2], [[1], [1], [2, 3], [2, 3], [], [], -2], [[1, 3, 4], [3, 4], [2], [2], [], [], 2], [[1, 3], [3, 3], [2], [2], [], [], -1], [[1, 3], [3], [2], [2, 2], [], [], -2], [[1, 3], [3], [2, 4], [2, 4], [], [], 2], [[1], [], [2], [2, 2, 2], [], [], 1], [[1], [], [2, 3], [2, 2, 3], [], [], -3], [[1], [], [2, 3, 4], [2, 3, 4], [], [], 2]]





<IPython.core.display.Math object>

## Derivatives in $\gamma$, when $\beta = 0$

Now, consider derivatives of a term in $\gamma$, in the case that we are evaluating $\beta = 0$. I.e., consider

$$\frac{\partial}{\partial \gamma} T_{r,\mathbf{i},\mathbf{j},\mathbf{a},\mathbf{b},\mathbf{c},\mathbf{d}} \mid_{\beta = 0}$$

Because $\beta = 0$, the only dependence on $\gamma$ is through the terms $u_{j_{k}}$ or $v_{b_k}$.

These can again be written in terms of sums of terms of the same form.

WARNING: We use a formula that requires $\beta = 0$. If we wish to evaluate an expression of the form $\frac{\partial^{s_1}}{\partial^{s_1} \beta}\frac{\partial^{s_2}}{\partial \gamma^{s_2}} T_{r,\mathbf{i},\mathbf{j},\mathbf{a},\mathbf{b},\mathbf{c},\mathbf{d}} \mid_{\beta = 0}$, it is important to take all $\beta$ derivatives first, and then all $\gamma$ derivatives.

In [8]:
print('WARNING: only use take_gamma_deriv only after you have taken all beta derivs first')
def take_gamma_deriv(term):
    i_terms, js, a_terms, bs, ps, diracs, coeff = term

    newterms = []
    
    for j_idx, j in enumerate(js):
        ## Convert j term to p term
        newjs = copy.deepcopy(js)
        del newjs[j_idx]
        newterm = [i_terms, newjs, a_terms, bs, ps + [j], diracs, coeff]
        newterms.append(newterm)
    
    for b_idx, b in enumerate(bs):
        ## Convert b term to p term
        newbs = copy.deepcopy(bs)
        del newbs[b_idx]
        newterm = [i_terms, js, a_terms, newbs, ps + [b], diracs, coeff]
        newterms.append(newterm)

    return newterms


def take_gamma_deriv_terms(currterms):
    newterms = []
    for t in currterms:
        newterms.extend(take_gamma_deriv(t))
    return newterms





## Examples of mixed $\beta$ derivatives and $\gamma$ derivatives

In [9]:
term = [[1],[],[2],[], [], [], 1]
print('Term representation', term)
display_terms([term])
deriv = take_beta_deriv_terms([term])
deriv2 = take_beta_deriv_terms(deriv)
deriv3 = take_gamma_deriv_terms(deriv2)
deriv4 = take_gamma_deriv_terms(deriv3)
print('Second derivative in beta and gamma, at beta = 0')
display_terms(simplify_terms(deriv4))

Term representation [[1], [], [2], [], [], [], 1]


<IPython.core.display.Math object>

Second derivative in beta and gamma, at beta = 0


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 45814.35it/s]


<IPython.core.display.Math object>

## Computing expectation over random $\zeta,\xi,p$ at $\beta = 0, \gamma = 0$

Now consider setting $\beta = 0, \gamma = 0$, and taking the expectation over Gaussian $\mathbf{\zeta} = [\zeta_1,\ldots,\zeta_k]$ and $\mathbf{\xi} = [\xi_1,\ldots,\xi_k]$ and $\mathbf{p} = [p_1,\ldots,p_k]$ which have the following covariance structure:
* $E[\zeta_i \zeta_j] = 1(x_i = x_j)$
* $E[\zeta_i \xi_j] = 1(x_i = y_j)$
* $E[\zeta_i \zeta_j] = 1(y_i = y_j)$
* $E[p_i p_j] = \delta_{ij}$
* $E[p_i \zeta_j] = 0$
* $E[p_i \xi_j] = 0$

These are the random variables that appear in the expression for the attention kernel.

Since $\beta = 0$, we know that $\mathbf{s} = [1/k,\ldots,1/k]$ and $\mathbf{t} = [1/k,\ldots,1/k]$. Therefore, the expetation of $T_{r,\mathbf{i},\mathbf{j},\mathbf{a},\mathbf{b},\mathbf{c},\mathbf{d}} \mid_{\beta = 0,\gamma = 0}$ can be computed using Wick's formula, as a sum over matchings. This is done below.

In [10]:
def list_of_matchings(a):
    """
    Utility function that outputs a list of perfect matchings between elements of a; needed for Wick's formula
    """
    if len(a) % 2 != 0:
        return []
    if len(a) == 0:
        return [[]]
    if len(a) == 2:
        return [[(a[0], a[1])]]
    new_matchings = []
    for i in range(len(a)-1):
        a_copy = copy.deepcopy(a)
        a_copy = a_copy[:i] + a_copy[i+1:]
        a_copy = a_copy[:-1]
        sub_matchings = list_of_matchings(a_copy)
        for x in sub_matchings:
            new_matchings.append(x + [(a[i], a[-1])])
    return new_matchings

def compute_expectation_terms_from_term(term):
    i_terms, js, a_terms, bs, ps, old_diracs, coeff = term
    exp_terms = []
    
    
    vocab_terms = [('x',j) for j in js] + [('y',b) for b in bs]
    sum_indices = set(i_terms + a_terms)
    
    # All the s_i and t_a terms have entries equal to 1/k now
    # So they contribute a 1/k^{front_coeff} scaling to the overall output
    # We sum over tuples of front_coeff-1 indices, i.e., over k^{front_coeff-1} terms
    front_coeff = len(i_terms) + len(a_terms)
    
    ## SANITY CHECK, HOLDS ONLY BECAUSE WE ONLY CARE ABOUT DERIVATIVES OF ONE OF TWO TERMS IN SOFTMAX SELF-ATTENTION KERNEL:
    if len(old_diracs) == 0:
        assert(front_coeff - len(sum_indices) == 1)
    elif len(old_diracs) == 1:
        assert(front_coeff - len(sum_indices) == 0)
    else:
        assert(False)
    
    # calc terms using Wick's theorem
    # Match the ps terms and the js + bs terms
    for mp in list_of_matchings(ps):
        # Add a dirac delta for each pair of indices in mp
        # We can keep track of equal indices via a union-find data structure
        ds = disjoint_set.DisjointSet()
        for i in sum_indices:
            ds.find(i)
        for p1, p2 in mp:
            ds.union(p1,p2)
        ds_list = list(ds)
        rel_dict = {}
        for i, j in ds_list:
            rel_dict[i] = j
        
        # For each connected component, we keep one element
        used_indices = set([i for i in rel_dict.keys() if rel_dict[i] == i])
        
        # Note that the sum still remains on the lower-order index
        for mv in list_of_matchings(vocab_terms):
            # print(mp,mv)
            
            dirac_terms = []
            for v1,v2 in mv:
                assert(v1[0] in ['x','y'])
                assert(v2[0] in ['x','y'])
                if v1[0] == v2[0] and rel_dict[v1[1]] == rel_dict[v2[1]]: # Terms of form 1(x_a = x_a) don't need to be added, since they are 1
                    continue
                sorted_terms = [(v1[0], rel_dict[v1[1]]),(v2[0], rel_dict[v2[1]])]
                sorted_terms.sort()
                dirac_terms.append(tuple(sorted_terms))
            for v1, v2 in old_diracs:
                dirac_terms.append((('x', rel_dict[v1]), ('y', rel_dict[v2])))
                
            # If there are multiple equivalent terms of the form 1(x_a = x_b), say, we can remove them and keep only the first one, since their product is 1
            dirac_terms = list(set(dirac_terms))
        
            # If there are no terms with a certain variable, we can simplify by summing out that variable, which multiplies the sum by k
            actually_used_terms = set([v1[1] for v1,_ in dirac_terms] + [v2[1] for _,v2 in dirac_terms])
            for i in actually_used_terms:
                assert(i in used_indices)
            gap_ind = len(used_indices) - len(actually_used_terms)
            
            exp_term = front_coeff - gap_ind, actually_used_terms, dirac_terms, coeff
            exp_terms.append(exp_term)
            
    return exp_terms


def compute_expectation_terms(terms):
    exp_terms = []
    for t in terms:
        exp_terms += compute_expectation_terms_from_term(t)
    return exp_terms

def display_expectation_terms(exp_terms):
    tot_str = ''
    for t in exp_terms:
        tot_str += get_expectation_term_str(t)
    display(Math(tot_str))
        
def get_expectation_term_str(exp_term):
    
    k_exp, actually_used_indices, dirac_terms, coeff = exp_term
    
    math_expr = coeff_term_str(coeff)
    math_expr += r'\frac{1}{k^{' + str(k_exp) + '}}'
    if len(actually_used_indices) > 0:
        math_expr += r'\sum_{' + ','.join([INDEX_TO_VAR_NAME[i] for i in actually_used_indices]) + '}'

    for v1, v2 in dirac_terms:
        math_expr += r'1(' + v1[0] + '_{' + INDEX_TO_VAR_NAME[v1[1]] + '}=' + v2[0] + '_{' + INDEX_TO_VAR_NAME[v2[1]] + '})'
    return math_expr

## Example expectation over random $\zeta,\xi,p$ at $\beta = 0, \gamma = 0$

In [11]:
term = [[1],[],[1],[], [], [], 1]
print('Term representation', term)
display_terms([term])
deriv = take_beta_deriv_terms([term])
deriv2 = take_beta_deriv_terms(deriv)
print('Second derivative in beta')
display_terms(simplify_terms(deriv2))
exp_terms = compute_expectation_terms(deriv2)
print('Expectation of the above expression over random zeta, xi, p, at beta = 0, gamma = 0')
display_expectation_terms(exp_terms)

Term representation [[1], [], [1], [], [], [], 1]


<IPython.core.display.Math object>

Second derivative in beta


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 76052.66it/s]


<IPython.core.display.Math object>

Expectation of the above expression over random zeta, xi, p, at beta = 0, gamma = 0


<IPython.core.display.Math object>

## Simplifying sums of expectations
Similarly to before, we can simplify sums of expectation terms by grouping together like terms

In [12]:

def simplify_expectation_terms(exp_terms, full_simplify=True):

    exp_terms = [exp_term_to_first_indices(t) for t in exp_terms]
    
    ds = disjoint_set.DisjointSet()
    for i in range(len(exp_terms)):
        ds.find(i)
    indices_left = set(list(range(len(exp_terms))))
    for i in tqdm(range(len(exp_terms))):
        if i not in indices_left:
            continue
        # print(len(indices_left))
        for j in range(i+1,len(exp_terms)):
            if j not in indices_left:
                continue
            if check_equiv_expectation_terms(exp_terms[i], exp_terms[j], full_simplify=full_simplify):
                ds.union(i,j)
                indices_left.remove(j)
        indices_left.remove(i)
    # print(list(ds.itersets()))
    # print('Regular itersets', list(ds.itersets()))
        
    
    tot_terms = []
    for iterset in ds.itersets():
        curr_coeff = 0
        for idx in iterset:
            curr_coeff += exp_terms[idx][-1]
        curr_exp_term = tuple(list(exp_terms[list(iterset)[0]][:-1]) + [curr_coeff])
        if curr_coeff != 0:
            tot_terms.append(curr_exp_term)
    return tot_terms

def exp_term_to_first_indices(exp_term):
    k_exp, sum_indices, dirac_terms, coeff = exp_term

    for v1, v2 in dirac_terms:
        assert(v1[1] in sum_indices)
        assert(v2[1] in sum_indices)
    
    n = len(sum_indices)
    new_sum_indices = set(range(1,n+1))
    rel_dict = {}
    for i, idx in enumerate(sum_indices):
        rel_dict[idx] = i+1
    
    new_dirac_terms = []
    for x in dirac_terms:
        new_term = [(x[0][0], rel_dict[x[0][1]]), (x[1][0], rel_dict[x[1][1]])]
        new_term.sort()
        new_dirac_terms.append(tuple(new_term))
    
    return (k_exp, new_sum_indices, new_dirac_terms, coeff)


def check_equiv_expectation_terms(exp_term1, exp_term2, full_simplify=True,ignore_kexp=False):
    k_exp1, sum_indices1, dirac_terms1, coeff1 = exp_term1
    k_exp2, sum_indices2, dirac_terms2, coeff2 = exp_term2
    
    for v1, v2 in dirac_terms1:
        assert(v1[1] in sum_indices1)
        assert(v2[1] in sum_indices1)
    for v1, v2 in dirac_terms2:
        assert(v1[1] in sum_indices2)
        assert(v2[1] in sum_indices2)
    
    if not ignore_kexp:
        if k_exp1 != k_exp2:
            return False
    if len(sum_indices1) != len(sum_indices2):
        return False
    if len(sum_indices1) == 0:
        assert(len(dirac_terms1) == 0)
        assert(len(dirac_terms2) == 0)
        return True
    # return False
    
    sig1 = get_signature_from_expectation_term(exp_term1)
    sig2 = get_signature_from_expectation_term(exp_term2)
    if sig1 != sig2:
        return False
    
    # Map each of the sum_indices1 to one of the sum_indices2, if possible
    # Try each of the permutations
    to_idx1 = list(sum_indices1)
    to_idx2 = list(sum_indices2)
    
    n = len(to_idx1)
    to_idx1.sort()
    to_idx2.sort()
    
    ## NO LONGER REQUIRE THE SUM INDICES TO BE 1...n+1
    assert(to_idx1 == list(range(1,n+1)))
    assert(to_idx2 == list(range(1,n+1)))
    
    mat1 = get_transitive_closure_of_incidence_mat(exp_term1)
    mat2 = get_transitive_closure_of_incidence_mat(exp_term2)
    
    if np.all(mat1 == mat2):
        return True
    
    if not full_simplify:
        return False
    
    for perm in itertools.permutations(range(n)):
        # print(perm)
        doubleperm = np.zeros(2*n, dtype=np.int32)
        doubleperm[0:n] = np.asarray(perm)
        doubleperm[n:2*n] = np.asarray(perm)+n
        permmat2 = np.array(mat2)
        for i in range(2*n):
            for j in range(2*n):
                permmat2[i,j] = mat2[doubleperm[i], doubleperm[j]]

        if np.all(mat1 == permmat2):
            return True
    return False


def get_signature_from_expectation_term(exp_term):
    k_exp, sum_indices, dirac_terms, coeff = exp_term
    
    # Break diracs into connected components
    ds = disjoint_set.DisjointSet()
    for i in sum_indices:
        ds.find(i)
    for v1, v2 in dirac_terms:
        ds.union(v1[1],v2[1])
    # print(list(ds.itersets()))
    
    # For each connected component, keep track of the number of x, y, and xy variables
    x_vars = set()
    y_vars = set()
    for v1, v2 in dirac_terms:
        if v1[0] == 'x':
            x_vars.add(v1[1])
        elif v1[0] == 'y':
            y_vars.add(v1[1])
        else:
            assert(False)
        
        if v2[0] == 'x':
            x_vars.add(v2[1])
        elif v2[0] == 'y':
            y_vars.add(v2[1])
        else:
            assert(False)
            
    xy_vars = x_vars.intersection(y_vars)
    x_only_vars = x_vars.difference(xy_vars)
    y_only_vars = y_vars.difference(xy_vars)
        
    signature = []
    for iterset in ds.itersets():
        xy_ct = len(iterset.intersection(xy_vars))
        y_ct = len(iterset.intersection(y_only_vars))
        x_ct = len(iterset.intersection(x_only_vars))
        signature.append((x_ct,y_ct,xy_ct))
    signature.sort()
    return signature


def get_incidence_mat(exp_term):
    ## Assumes that sum_indices are 1...n+1
    k_exp, sum_indices, dirac_terms, coeff = exp_term
    n = len(sum_indices)
    assert(list(sum_indices) == list(range(1,n+1)))
    n = len(sum_indices)
    mat = np.zeros((2*n,2*n))
    for term in dirac_terms:
        v1, v2 = term
        i1 = v1[1]-1
        i2 = v2[1]-1
        if v1[0] == 'y':
            i1 += n
        if v2[0] == 'y':
            i2 += n
        mat[i1,i2] = 1
        mat[i2,i1] = 1
    for i in range(2*n):
        mat[i,i] = 1
    return mat

def transitive_closure_of_mat(mat):
    # Floyd warshall algorithm
    n = mat.shape[0]
    for i in range(n):
        mat = mat @ mat
        mat = 1 * (mat > 0)
    return mat

def get_transitive_closure_of_incidence_mat(exp_term):
    return transitive_closure_of_mat(get_incidence_mat(exp_term))
    
    

## Example of simplifying sum of expectations

In [13]:
exp_terms = simplify_expectation_terms(exp_terms)
print('Simplified version of above terms')
display_expectation_terms(exp_terms)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 8071.40it/s]

Simplified version of above terms





<IPython.core.display.Math object>

## More compact output format
The equations in the above format can be complicated to read, especially if there are many indices. Here, we provide code that writes them in more compact matrix notation. This works by creating a list of terms `EXP_TERMS_REF_LIST` for which we manually determine an equivalent linear-algebraic expression. While outputting, if a term corresponds to a term from `EXP_TERMS_REF_LIST`, we replace it with the corresponding expression.

In [14]:


EXP_TERMS_REF_LIST = [((2, set(), [], -1152), ''),
                      
             ((0, {1, 2}, [(('x', 2), ('y', 1))], 1), '{\color{green} {1^TXY^T 1}}'),
             ((3, {1, 2, 3}, [(('x', 1), ('y', 2)), (('x', 1), ('x', 3))], -4), '{\color{green} {1^TXX^TXY^T1}}'),     
             ((3, {1, 2, 3}, [(('x', 1), ('y', 2)), (('y', 2), ('y', 3))], -4),   '{\color{green} {1^TXY^TYY^T1}}'),
             ((4, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('x', 2), ('x', 3)), (('x', 3), ('y', 4))], 192), '{\color{green} {1^TXX^TXX^TXY^T1}}'),
             ((4, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('y', 2), ('x', 3)), (('x', 3), ('y', 4))], 192), '{\color{green} {1^TXY^TYX^TXY^T1}}'),
             ((4, {1, 2, 3, 4}, [(('y', 1), ('x', 2)), (('x', 2), ('y', 3)), (('y', 3), ('y', 4))], 192), '{\color{green} {1^TYX^TXY^TYY^T1}}'),
             ((0, {1, 2, 3, 4, 5}, [(('x', 1), ('y', 2)), (('x', 4), ('x', 5)), (('x', 3), ('y', 2)), (('x', 3), ('x', 4))], 1), '{\color{green} {1^TXY^TYX^TXX^TXX^T1}}'),
             ((0, {1, 2, 3, 4, 5}, [(('x', 1), ('y', 2)), (('y', 2), ('y', 3)), (('y', 3), ('x', 4)), (('x', 4), ('x', 5))], 1), '{\color{green} {1^TXY^TYY^TYX^TXX^T1}}'),
             ((0, {1, 2, 3, 4, 5}, [(('y', 1), ('x', 2)), (('x', 2), ('x', 3)), (('x', 3), ('y', 4)), (('y', 4), ('y', 5))], 1), '{\color{green} {1^TYX^TXX^TXY^TYY^T1}}'),
             ((0, {1, 2, 3, 4, 5}, [(('y', 1), ('y', 2)), (('y', 2), ('x', 3)), (('x', 3), ('y', 4)), (('y', 4), ('y', 5))], 1), '{\color{green} {1^TYY^TYX^TXY^TYY^T1}}'),        
             ((3, {1, 2}, [(('x', 1), ('x', 2)), (('x', 2), ('y', 1))], -336), '{\color{green} {tr(XX^TXY^T)}}'),
             ((3, {1, 2}, [(('x', 1), ('y', 2)), (('y', 2), ('y', 1))], -336), '{\color{green} {tr(XY^TYY^T)}}'),
                      
                      
             ((4, {1, 2}, [(('x', 1), ('x', 2))], 576), '{\color{orange} {1^TXX^T1}}'),
             ((4, {1, 2}, [(('y', 1), ('y', 2))], 576), '{\color{orange} {1^TYY^T1}}'),
                      
             ((2, {1}, [(('x', 1), ('y', 1))], 864), '{\color{red} {tr(XY^T)}}'),
             ((4, {1, 2, 3}, [(('x', 2), ('y', 1)), (('x', 1), ('y', 3))], 144),  '{\color{red} {1^TXY^TXY^T1}}'),
             ((0, {1, 2, 3}, [(('x', 1), ('y', 2)), (('x', 2), ('x', 3))], 1),    '{\color{red} {1^TXX^TYX^T1}}'),
             ((4, {1, 2, 3}, [(('y', 1), ('y', 2)), (('x', 1), ('y', 3))], 192),  '{\color{red} {1^TYX^TYY^T1}}'),
             ((0, {1, 2}, [(('x', 2), ('y', 1)), (('x', 1), ('y', 2))], 1), '{\color{red} {tr(XY^T XY^T)}}'),
                      
             ((0, {1, 2, 3}, [(('x', 1), ('x', 2)), (('y', 1), ('y', 3))], 1),    '{\color{purple} {1^TXX^TYY^T1}}'),
             ((0, {1, 2}, [(('y', 1), ('y', 2)), (('x', 1), ('x', 2))], 1), '{\color{blue}{ tr(XX^T YY^T)}}'),
                      
             ((0, {1, 2, 3}, [(('x', 1), ('x', 2)), (('x', 1), ('x', 3))], 1),    '1^TXX^TXX^T1'),
             ((0, {1, 2, 3}, [(('y', 1), ('y', 3)), (('y', 1), ('y', 2))], 1),    '1^TYY^TYY^T1'),
    
#              ((0, {1, 2, 3}, [(('y', 1), ('x', 2)), (('x', 2), ('y', 3)), (('y', 3), ('x', 1))], 1), 'tr(YX^TXY^TYX^T)'),
#              ((0, {1, 2, 3}, [(('x', 1), ('x', 2)), (('x', 2), ('x', 3)), (('x', 3), ('y', 3))], 1), 'tr(XX^TXX^TXY^T)'),
#              ((0, {1, 2, 3}, [(('y', 1), ('y', 2)), (('y', 2), ('y', 3)), (('y', 3), ('x', 1))], 1), 'tr(YY^TYY^TYX^T)'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('x', 2), ('x', 3)), (('x', 3), ('x', 4))], 1), '1^TXX^TXX^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('y', 2)), (('y', 2), ('y', 3)), (('y', 3), ('y', 4))], 1), '1^TYY^TYY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('x', 2), ('x', 3)), (('x', 3), ('y', 4))], 1), '1^TXY^TXX^TXY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('y', 2), ('x', 3)), (('y', 3), ('y', 4))], 1), '1^TXY^TYX^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('y', 2)), (('y', 2), ('x', 3)), (('y', 3), ('y', 4))], 1), '1^TYY^TYX^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('y', 2), ('x', 3)), (('x', 3), ('y', 4))], 1), '1^TXX^TYX^TXY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('y', 2), ('y', 3)), (('x', 3), ('y', 4))], 1), '1^TXY^TYY^TXY^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('x', 2)), (('y', 2), ('y', 3)), (('y', 3), ('y', 4))], 1), '1^TYX^TYY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('x', 2), ('x', 3)), (('x', 3), ('x', 4))], 1), '1^TXY^TXX^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('y', 2)), (('x', 2), ('x', 3)), (('x', 3), ('x', 4))], 1), '1^TYY^TXX^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('y', 2), ('y', 3)), (('y', 3), ('y', 4))], 1), '1^TXX^TYY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('x', 2), ('y', 3)), (('x', 3), ('x', 4))], 1), '1^TXX^TXY^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 2), ('y', 1)), (('x', 1), ('y', 4)), (('y', 4), ('y', 3))], 1), '1^TXY^TXY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 3)), (('x', 3), ('y', 2)), (('x', 2), ('y', 4))], 1), '1^TXX^TXY^TXY^T1'),           
            ]

def get_expectation_term_str_for_equiv_terms(exp_terms,add_coeff=True, simple_mode=True):
    if add_coeff:
        math_expr = '+('
        for i in range(len(exp_terms)):
            k_exp, actually_used_indices, dirac_terms, coeff = exp_terms[i]
            math_expr += coeff_term_str(coeff)
            math_expr += r'\frac{1}{k^{' + str(k_exp) + '}}'

        math_expr += ')'
    else:
        math_expr=''
    
    k_exp, actually_used_indices, dirac_terms, coeff = exp_terms[0]
    
    if simple_mode:
        if len(actually_used_indices) > 0:
            math_expr += r'\sum_{' + ','.join([INDEX_TO_VAR_NAME[i] for i in actually_used_indices]) + '}'

        for v1, v2 in dirac_terms:
            math_expr += r'1(' + v1[0] + '_{' + INDEX_TO_VAR_NAME[v1[1]] + '}=' + v2[0] + '_{' + INDEX_TO_VAR_NAME[v2[1]] + '})'
        return math_expr
    else:
        # Search for equivalent expression in EXP_TERMS_REF_LIST, and use the representation from there
        for k, v in EXP_TERMS_REF_LIST:
            if check_equiv_expectation_terms(exp_terms[0], k, full_simplify=True,ignore_kexp=True):
                return math_expr + v
        
        display_expectation_terms([exp_terms[0]])
        print(exp_terms[0])
        assert(False)

def get_expectation_terms_compact_str(exp_terms,simple_mode=True, add_coeff=False):
    # Group together expectation terms by front coeff
    exp_terms = [exp_term_to_first_indices(t) for t in exp_terms]
    ds = disjoint_set.DisjointSet()
    for i in range(len(exp_terms)):
        ds.find(i)
    for i in range(len(exp_terms)):
        for j in range(i+1,len(exp_terms)):
            if check_equiv_expectation_terms(exp_terms[i], exp_terms[j], full_simplify=True,ignore_kexp=True):
                ds.union(i,j)
                break

                
    tot_str_list = []
    for i, iterset in enumerate(ds.itersets()):
        tot_str = ''
        if add_coeff:
            tot_str += get_expectation_term_str_for_equiv_terms([exp_terms[i] for i in iterset], add_coeff=True, simple_mode=simple_mode)
        else:
            tot_str += '+c_{' + str(i+1) + '}' + get_expectation_term_str_for_equiv_terms([exp_terms[i] for i in iterset], add_coeff=False, simple_mode=simple_mode)
        tot_str_list.append(tot_str)
    return tot_str_list

def display_expectation_terms_compact(exp_terms,simple_mode=True, add_coeff=False):
    tot_str_list = get_expectation_terms_compact_str(exp_terms, simple_mode=simple_mode, add_coeff=add_coeff)
    display(Math(''.join(tot_str_list)))

def get_expectation_term_str_for_equiv_terms(exp_terms,add_coeff=True, simple_mode=True):
    if add_coeff:
        math_expr = '+('
        for i in range(len(exp_terms)):
            k_exp, actually_used_indices, dirac_terms, coeff = exp_terms[i]
            math_expr += coeff_term_str(coeff)
            math_expr += r'\frac{1}{k^{' + str(k_exp) + '}}'

        math_expr += ')'
    else:
        math_expr=''
    
    k_exp, actually_used_indices, dirac_terms, coeff = exp_terms[0]
    
    if simple_mode:
        if len(actually_used_indices) > 0:
            math_expr += r'\sum_{' + ','.join([INDEX_TO_VAR_NAME[i] for i in actually_used_indices]) + '}'

        for v1, v2 in dirac_terms:
            math_expr += r'1(' + v1[0] + '_{' + INDEX_TO_VAR_NAME[v1[1]] + '}=' + v2[0] + '_{' + INDEX_TO_VAR_NAME[v2[1]] + '})'
        return math_expr
    else:
        # Break the products of diracs into connected components
        # The term is the product of these connected components
        
        assert(actually_used_indices == set([dterm[0][1] for dterm in dirac_terms] + [dterm[1][1] for dterm in dirac_terms]))
        
        ds = disjoint_set.DisjointSet()
        for i in actually_used_indices:
            ds.find(i)
        for v1, v2 in dirac_terms:
            ds.union(v1[1],v2[1])
        # print('DS itersets', list(ds.itersets()))

        found_term_strs = []
        for iterset in ds.itersets():
            # print(iterset)
            dirac_subset = [dterm for dterm in dirac_terms if dterm[0][1] in iterset or dterm[1][1] in iterset]
            # print(dirac_subset)
            currstr = get_dirac_term_str(iterset, dirac_subset)
            
            found_term_strs.append(currstr)
        # print(found_term_strs)
        if len(found_term_strs) == 1:
            math_expr += found_term_strs[0]
            return math_expr
        elif len(found_term_strs) > 0:
            math_expr += '('
            math_expr += ')('.join(found_term_strs)
            math_expr += ')'
            return math_expr
        else:
            math_expr += ''
            assert(len(actually_used_indices) == 0)
            return math_expr
            # display_expectation_terms([exp_terms[0]])
            # print(exp_terms[0])
            # assert(False)

def get_dirac_term_str(actually_used_indices, dirac_terms):
    
    math_expr = ''
    
    curr_exp_term = (0, actually_used_indices, dirac_terms, 1)
    curr_exp_term_first_ind = exp_term_to_first_indices(curr_exp_term)
    
    # Search for equivalent expression in EXP_TERMS_REF_LIST, and use the representation from there
    for k, v in EXP_TERMS_REF_LIST:
        if check_equiv_expectation_terms(curr_exp_term_first_ind, k, full_simplify=True,ignore_kexp=True):
            if v == 'default':
                print('USING DEFAULT')
                math_expr += '{\color{red}{'
                if len(actually_used_indices) > 0:
                    math_expr += r'\sum_{' + ','.join([INDEX_TO_VAR_NAME[i] for i in actually_used_indices]) + '}'

                for v1, v2 in dirac_terms:
                    math_expr += r'1(' + v1[0] + '_{' + INDEX_TO_VAR_NAME[v1[1]] + '}=' + v2[0] + '_{' + INDEX_TO_VAR_NAME[v2[1]] + '})'
                math_expr += '}}'
                return math_expr
            else:

                return math_expr + v
    display_expectation_terms([curr_exp_term])
    print(curr_exp_term)
    print(curr_exp_term_first_ind)
    return '{\color{red}{ERROR}}'
    # assert(False)

## Example of more compact output format

In [15]:

print('The expectation terms from before in simpler linear-algebraic format')
display_expectation_terms_compact(exp_terms,simple_mode=False,add_coeff=True)
print('The expectation terms from before in simpler linear-algebraic format, hiding the coefficients that depend on k')
display_expectation_terms_compact(exp_terms,simple_mode=False,add_coeff=False)

The expectation terms from before in simpler linear-algebraic format


<IPython.core.display.Math object>

The expectation terms from before in simpler linear-algebraic format, hiding the coefficients that depend on k


<IPython.core.display.Math object>

## Fuzz-testing to ensure correctness
To check correctness of the computer algebra system -- and specifically the simplification step, which is the most complex, we fuzz-test the computed expectations. For this, we evaluate the derivatives for random inputs $x_1,\ldots,x_k$ and $y_1,\ldots,y_k$. Fuzz-testing code is below, and fuzz tests for validity are conducted when computing the derivatives that we require for our paper.

In [16]:
def rand_sequence(k,m):
    Xinds = np.random.randint(0,m,k)
    return Xinds

def sequence_to_one_hot_matrix(Xinds,k,m):
    assert(len(Xinds) == k)
    X = np.zeros((k,m))
    z = [[i,Xinds[i]] for i in range(k)]
    z = np.asarray(z,dtype=np.int32)
    X[z[:,0],z[:,1]] = 1
    return X

def eval_exp_terms(X,Y,exp_terms,ignore_coeff=True, ignore_k_exp=False):
    tot = 0
    for t in tqdm(exp_terms):
        # print(t)
        tot += eval_exp_term(X,Y,t,ignore_coeff=ignore_coeff, ignore_k_exp=ignore_k_exp)
    return tot

def eval_exp_term(X,Y,exp_term,ignore_coeff=True, ignore_k_exp=False):
    k = X.shape[0]
    # m = X.shape[1]
    assert(k == Y.shape[0])
    assert(len(X.shape) == 1)
    assert(len(Y.shape) == 1)
    # assert(m == Y.shape[1])
    
    k_exp, actually_used_indices, dirac_terms, coeff = exp_term
    
    scaling = 1
    if not ignore_k_exp:
        scaling = scaling * math.pow(k,-k_exp)
    if not ignore_coeff:
        scaling = scaling * coeff
    
    actually_used_indices = list(actually_used_indices)
    idx_dict = {}
    for i in range(len(actually_used_indices)):
        idx_dict[actually_used_indices[i]] = i
    
    tot_sum = 0
    
    for idx_vec in itertools.product(range(k),repeat=len(actually_used_indices)):
        # print(idx_vec)
        curr_dirac_prod = 1
        for dterm in dirac_terms:
            if dterm[0][0] == 'x':
                v1 = X[idx_vec[idx_dict[dterm[0][1]]]]
            elif dterm[0][0] == 'y':
                v1 = Y[idx_vec[idx_dict[dterm[0][1]]]]
            else:
                assert(False)
            if dterm[1][0] == 'x':
                v2 = X[idx_vec[idx_dict[dterm[1][1]]]]
            elif dterm[1][0] == 'y':
                v2 = Y[idx_vec[idx_dict[dterm[1][1]]]]
            else:
                assert(False)
            if v1 != v2:
                curr_dirac_prod = 0
                break
        tot_sum += curr_dirac_prod
    
    return scaling * tot_sum    
    

def fuzz_for_equiv(exp_terms,k,m,num_fuzzers,ignore_coeff=True, ignore_k_exp=False):
    fuzzers = []
    for i in range(num_fuzzers):
        X = rand_sequence(k=k,m=m)
        Y = rand_sequence(k=k,m=m)
        fuzzers.append((X,Y))

    fuzzer_outs = []
    for i in tqdm(range(len(exp_terms))):
        # print(exp_terms[i])
        fuzzer_outs.append([])
        for f in fuzzers:
            ev = eval_exp_term(f[0],f[1],exp_terms[i], ignore_coeff=ignore_coeff, ignore_k_exp=ignore_k_exp)
            fuzzer_outs[i].append(ev)
        fuzzer_outs[i] = tuple(fuzzer_outs[i])
    
    ds = disjoint_set.DisjointSet()
    fuzz_dict = {}
    for i in range(len(exp_terms)):
        ds.find(i)
        if fuzzer_outs[i] in fuzz_dict:
            ds.union(i, fuzz_dict[fuzzer_outs[i]])
        else:
            fuzz_dict[fuzzer_outs[i]] = i
    return list(ds.itersets())


def eval_on_fuzzers(exp_terms,fuzzers):
    exp_evals = []
    for i in range(len(fuzzers)):
        ev = eval_exp_terms(fuzzers[i][0], fuzzers[i][1],exp_terms,ignore_coeff=False, ignore_k_exp=False)
        exp_evals.append(ev)
    return exp_evals

def fuzz_compare(exp_terms1,exp_terms2):
    k_fuzz = 5
    m_fuzz = 8
    num_fuzzers = 10

    fuzzers = []
    for i in range(num_fuzzers):
        X = rand_sequence(k=k_fuzz,m=m_fuzz)
        Y = rand_sequence(k=k_fuzz,m=m_fuzz)
        fuzzers.append((X,Y))

    print('Fuzzing')
    evals1 = eval_on_fuzzers(exp_terms1, fuzzers)
    evals2 = eval_on_fuzzers(exp_terms2, fuzzers)
    print(evals1)
    print(evals2)
    for i in range(num_fuzzers):
        assert(abs(evals1[i] - evals2[i]) < 1e-6)
    

## Computations on the transformer random features kernel

The transformer random features kernel is

$$\kappa_{X,Y}(\beta,\gamma) = E_{\zeta,\xi,p}[\mathrm{softmax}(\beta u)^T XY^T \mathrm{softmax}(\beta v) + \gamma^2 \mathrm{softmax}(\beta u)^T \mathrm{softmax}(\beta v)]$$

Changing notation slightly, this is a sum of two terms that can be written in our computer algebra system:
$$\kappa_{X,Y}(\beta,\gamma) = E_{\zeta,\xi,p}[\sum_{a,b} s_at_b 1(x_a=y_b) + \gamma^2 \sum_{a} s_at_a]\,.$$

So we for any $s_1,s_2$ we can compute
$$\frac{\partial^{s_1}}{\partial \beta^{s_1}} \frac{\partial^{s_2}}{\partial \gamma^{s_2}} \kappa_{X,Y}(\beta,\gamma)\,,$$
which we do below.

In [17]:
def get_transformer_rf_deriv(num_beta_derivs, num_gamma_derivs, fuzz_test=False):

    ## Term 1:
    # # s, m, t, n, p, diracs, coeff
    # ## smax(beta u)^T X Y^T smax(beta v)
    startterm = [[1],[],[2],[], [], [(1,2)], 1]

    currterms = [startterm]
    for i in range(num_beta_derivs):
        currterms = simplify_terms(take_beta_deriv_terms(currterms))
        print(f'beta {i+1}, Simplified len', len(currterms))
        # display_terms(currterms)

    for i in range(num_gamma_derivs):
        currterms = simplify_terms(take_gamma_deriv_terms(currterms))
        print(f'gamma {i+1}, Simplified len', len(currterms))
        # display_terms(currterms)
    # display_terms(currterms)

    exp_terms = compute_expectation_terms(currterms)
    simplified_exp_terms = exp_terms
    print('Exp terms, len', len(exp_terms))
    simplified_exp_terms = simplify_expectation_terms(simplified_exp_terms, full_simplify=False)
    print('Exp terms, partially simplified len', len(simplified_exp_terms))
    if fuzz_test:
        fuzz_compare(exp_terms,simplified_exp_terms)
    # display_expectation_terms_compact(simplified_exp_terms, simple_mode=True)
    simplified_exp_terms2 = simplify_expectation_terms(simplified_exp_terms, full_simplify=True)
    print('Exp terms, fully simplified len', len(simplified_exp_terms2))
    if fuzz_test:
        fuzz_compare(simplified_exp_terms,simplified_exp_terms2)
    display_expectation_terms_compact(simplified_exp_terms2, simple_mode=True)
    print('Term 1 Expectation',len(simplified_exp_terms2))
    # display_expectation_terms(simplified_exp_terms)

    exp_terms1 = simplified_exp_terms2

    ## Term 2:
    # # s, m, t, n, p, diracs, coeff
    # # ## gamma^2 smax(beta u)^T smax(beta v)
    startterm = [[1],[],[1],[], [], [], num_gamma_derivs * (num_gamma_derivs-1)]

    currterms = [startterm]
    for i in range(num_beta_derivs):
        currterms = simplify_terms(take_beta_deriv_terms(currterms))
        print(f'beta {i+1}, Simplified len', len(currterms))
        # display_terms(currterms)

    for i in range(num_gamma_derivs-2):
        currterms = simplify_terms(take_gamma_deriv_terms(currterms))
        print(f'gamma {i+1}, Simplified len', len(currterms))
        # display_terms(currterms)
    # display_terms(currterms)

    exp_terms = compute_expectation_terms(currterms)
    simplified_exp_terms = exp_terms
    print('Exp terms, len', len(exp_terms))
    simplified_exp_terms = simplify_expectation_terms(simplified_exp_terms, full_simplify=False)
    print('Exp terms, partially simplified len', len(simplified_exp_terms))
    # display_expectation_terms_compact(simplified_exp_terms, simple_mode=True)
    simplified_exp_terms = simplify_expectation_terms(simplified_exp_terms, full_simplify=True)
    print('Exp terms, fully simplified len', len(simplified_exp_terms))
    display_expectation_terms_compact(simplified_exp_terms, simple_mode=True)
    print('Term 2 Expectation',len(simplified_exp_terms))
    # display_expectation_terms(simplified_exp_terms)
    exp_terms2 = simplified_exp_terms
    
    exp_terms = exp_terms1 + exp_terms2
    simplified_exp_terms = exp_terms
    simplified_exp_terms = simplify_expectation_terms(simplified_exp_terms, full_simplify=False)
    simplified_exp_terms = simplify_expectation_terms(simplified_exp_terms, full_simplify=True)
    print('Simplified len', len(simplified_exp_terms))
    return simplified_exp_terms

## Computing and saving the derivatives of the transformer random features kernel that we care about

In [18]:
# for num_beta_derivs in [0,2,4,6]:
#     for num_gamma_derivs in [0,2,4,6,8,10]:
for num_beta_derivs, num_gamma_derivs in [(0,0), (2,2), (4, 0), (4,2), (6, 4)]:
    curr_file = f'exp_terms/beta{num_beta_derivs}_gamma{num_gamma_derivs}.pkl'
    if os.path.exists(curr_file):
        continue
    exp_terms = get_transformer_rf_deriv(num_beta_derivs, num_gamma_derivs,fuzz_test=True)
    pickle.dump(exp_terms, open(curr_file, 'wb'))
    # display_expectation_terms(exp_terms)
    print(f'Compact beta deriv={num_beta_derivs}, gamma deriv={num_gamma_derivs}, len={len(exp_terms)}')

Exp terms, len 1


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5133.79it/s]


Exp terms, partially simplified len 1
Fuzzing


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 8701.88it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 9341.43it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4116.10it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<

[0.16, 0.2, 0.08, 0.2, 0.2, 0.16, 0.12, 0.08, 0.2, 0.2]
[0.16, 0.2, 0.08, 0.2, 0.2, 0.16, 0.12, 0.08, 0.2, 0.2]


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12372.58it/s]


Exp terms, fully simplified len 1
Fuzzing


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 4634.59it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 8473.34it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 7884.03it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<

[0.16, 0.12, 0.04, 0.12, 0.12, 0.16, 0.08, 0.2, 0.16, 0.08]
[0.16, 0.12, 0.04, 0.12, 0.12, 0.16, 0.08, 0.2, 0.16, 0.08]





<IPython.core.display.Math object>

Term 1 Expectation 1
Exp terms, len 1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 13148.29it/s]


Exp terms, partially simplified len 0


0it [00:00, ?it/s]

Exp terms, fully simplified len 0





<IPython.core.display.Math object>

Term 2 Expectation 0


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10538.45it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11366.68it/s]


Simplified len 1
Compact beta deriv=0, gamma deriv=0, len=1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 22104.37it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 45964.98it/s]


beta 2, Simplified len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 24/24 [00:00<00:00, 49200.05it/s]


gamma 1, Simplified len 18


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 57675.69it/s]


gamma 2, Simplified len 12
Exp terms, len 12


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 5385.94it/s]


Exp terms, partially simplified len 3
Fuzzing


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 20945.34it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 22260.79it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 23172.95it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<0

[-0.128, -0.064, 0.03199999999999997, -0.096, -0.192, 0.128, -0.096, 0.064, -0.096, -0.096]
[-0.128, -0.064, 0.032, -0.096, -0.192, 0.128, -0.096, 0.064, -0.096, -0.096]


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 5769.33it/s]


Exp terms, fully simplified len 2
Fuzzing


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11859.48it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 21254.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10280.16it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<0

[-0.16, -0.032, 0.032, -0.16, 0.0, 0.0, 0.0, -0.032, -0.064, 0.096]
[-0.16, -0.032, 0.032, -0.16, 0.0, 0.0, 0.0, -0.032, -0.064, 0.096]


<IPython.core.display.Math object>

Term 1 Expectation 2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 17313.95it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53464.68it/s]


beta 2, Simplified len 12
Exp terms, len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 12777.77it/s]


Exp terms, partially simplified len 2


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 8322.03it/s]


Exp terms, fully simplified len 2


<IPython.core.display.Math object>

Term 2 Expectation 2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 10286.46it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 22982.49it/s]


Simplified len 2
Compact beta deriv=2, gamma deriv=2, len=2


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 16070.13it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 45990.18it/s]


beta 2, Simplified len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [00:00<00:00, 46987.69it/s]


beta 3, Simplified len 30


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:00<00:00, 25625.36it/s]

beta 4, Simplified len 68
Exp terms, len 204



100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 204/204 [00:00<00:00, 3295.91it/s]


Exp terms, partially simplified len 40
Fuzzing


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 204/204 [00:00<00:00, 424.56it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 204/204 [00:00<00:00, 393.46it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 204/204 [00:00<00:00, 427.21it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 204/204 [00:00

[-0.6435840000000022, -0.7403520000000039, -0.5514240000000007, -1.1089920000000062, -0.5314560000000016, -0.5160959999999997, -0.5514240000000007, -0.3240960000000006, 0.0, -0.5314560000000004]
[-0.6435840000000002, -0.7403520000000025, -0.5514240000000008, -1.1089920000000006, -0.5314560000000002, -0.5160960000000006, -0.5514240000000012, -0.32409600000000016, 0.0, -0.5314560000000011]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 1465.31it/s]


Exp terms, fully simplified len 23
Fuzzing


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 116.56it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 126.88it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 102.94it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00

[-0.3317760000000012, -0.14592000000000008, -0.3210239999999964, -0.5084160000000003, -0.26265599999999983, -0.40704000000000023, -1.1980800000000005, -0.25344000000000044, -0.7403520000000006, -0.40704000000000023]
[-0.33177600000000085, -0.14592, -0.32102399999999887, -0.5084159999999998, -0.2626559999999998, -0.40703999999999974, -1.1980800000000014, -0.2534399999999999, -0.7403519999999987, -0.4070399999999994]





<IPython.core.display.Math object>

Term 1 Expectation 23


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 49344.75it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 85510.78it/s]


beta 2, Simplified len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [00:00<00:00, 51843.76it/s]


beta 3, Simplified len 30


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:00<00:00, 30147.74it/s]


beta 4, Simplified len 68
Exp terms, len 204


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 204/204 [00:00<00:00, 3733.31it/s]


Exp terms, partially simplified len 0


0it [00:00, ?it/s]

Exp terms, fully simplified len 0





<IPython.core.display.Math object>

Term 2 Expectation 0


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 9754.20it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 9799.78it/s]


Simplified len 23
Compact beta deriv=4, gamma deriv=0, len=23


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 18957.31it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 44034.69it/s]


beta 2, Simplified len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [00:00<00:00, 42623.84it/s]


beta 3, Simplified len 30


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:00<00:00, 26476.14it/s]


beta 4, Simplified len 68


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 272/272 [00:00<00:00, 12063.18it/s]


gamma 1, Simplified len 154


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 462/462 [00:00<00:00, 8285.06it/s]


gamma 2, Simplified len 197
Exp terms, len 197


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 197/197 [00:00<00:00, 3658.31it/s]


Exp terms, partially simplified len 29
Fuzzing


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 197/197 [00:00<00:00, 4095.39it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 197/197 [00:00<00:00, 4296.44it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 197/197 [00:00<00:00, 4363.14it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 197/197 [00:00<

[1.090559999999999, -2.488320000000005, -0.1843200000000036, -1.628160000000003, -1.489920000000001, -2.8415999999999983, -0.6758400000000004, -1.029120000000006, -1.6128000000000018, -0.8448000000000024]
[1.0905600000000009, -2.488320000000002, -0.18431999999999965, -1.6281600000000005, -1.4899200000000006, -2.8416000000000006, -0.67584, -1.029119999999995, -1.6127999999999996, -0.8448]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 3071.82it/s]


Exp terms, fully simplified len 15
Fuzzing


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 3095.27it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 3479.65it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 3021.16it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<

[-0.7065599999999999, -1.35168, -0.8448, -2.18112, -2.181120000000001, -0.90624, -2.04288, -2.08896, -1.3055999999999999, -0.5836800000000002]
[-0.7065600000000014, -1.35168, -0.8448000000000002, -2.18112, -2.18112, -0.9062400000000002, -2.0428800000000003, -2.088960000000001, -1.3055999999999996, -0.5836799999999984]





<IPython.core.display.Math object>

Term 1 Expectation 15


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 44858.87it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 49257.83it/s]


beta 2, Simplified len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [00:00<00:00, 50848.61it/s]


beta 3, Simplified len 30


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:00<00:00, 29705.31it/s]


beta 4, Simplified len 68
Exp terms, len 204


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 204/204 [00:00<00:00, 3647.56it/s]


Exp terms, partially simplified len 24


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 24/24 [00:00<00:00, 3966.87it/s]


Exp terms, fully simplified len 17


<IPython.core.display.Math object>

Term 2 Expectation 17


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 4929.04it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 24/24 [00:00<00:00, 3798.04it/s]


Simplified len 17
Compact beta deriv=4, gamma deriv=2, len=17


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 44501.90it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 71392.41it/s]


beta 2, Simplified len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [00:00<00:00, 44228.16it/s]


beta 3, Simplified len 30


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:00<00:00, 26560.78it/s]


beta 4, Simplified len 68


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 532/532 [00:00<00:00, 14305.67it/s]


beta 5, Simplified len 142


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1232/1232 [00:00<00:00, 7849.24it/s]


beta 6, Simplified len 281


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1686/1686 [00:00<00:00, 2749.82it/s]


gamma 1, Simplified len 798


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3990/3990 [00:02<00:00, 1575.73it/s]


gamma 2, Simplified len 1345


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5380/5380 [00:04<00:00, 1267.41it/s]


gamma 3, Simplified len 1570


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4710/4710 [00:03<00:00, 1362.58it/s]


gamma 4, Simplified len 1345
Exp terms, len 4035


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4035/4035 [00:01<00:00, 2338.24it/s]


Exp terms, partially simplified len 91
Fuzzing


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4035/4035 [00:00<00:00, 4474.53it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4035/4035 [00:00<00:00, 4640.74it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4035/4035 [00:00<00:00, 4534.28it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4035/4035 [00:00<

[74.64960000001554, 94.0031999999953, 655.2576000000022, -414.72000000001015, -52.53119999997903, 171.4176000000046, -364.9536000000099, -74.64959999998287, 367.71840000001237, -348.3648000000089]
[74.64959999999917, 94.00319999999968, 655.2575999999999, -414.72000000000094, -52.53120000000081, 171.4176000000004, -364.95360000000005, -74.64960000000406, 367.71839999999884, -348.3648000000002]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 91/91 [00:00<00:00, 2102.26it/s]


Exp terms, fully simplified len 32
Fuzzing


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 91/91 [00:00<00:00, 2737.15it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 91/91 [00:00<00:00, 2771.83it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 91/91 [00:00<00:00, 2803.45it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 91/91 [00:00<

[483.8400000000004, 658.0223999999994, 436.8383999999992, 55.295999999999935, 376.0127999999995, 326.24639999999937, 276.4799999999984, 539.1360000000013, 293.0687999999996, 470.01599999999866]
[483.8399999999988, 658.0224, 436.83839999999987, 55.295999999999395, 376.0127999999999, 326.2464000000001, 276.4799999999989, 539.1359999999983, 293.06879999999984, 470.01599999999956]





<IPython.core.display.Math object>

Term 1 Expectation 32


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 17403.75it/s]


beta 1, Simplified len 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 83635.17it/s]


beta 2, Simplified len 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [00:00<00:00, 52401.51it/s]


beta 3, Simplified len 30


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:00<00:00, 30145.65it/s]


beta 4, Simplified len 68


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 532/532 [00:00<00:00, 16220.95it/s]


beta 5, Simplified len 142


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1232/1232 [00:00<00:00, 8930.88it/s]


beta 6, Simplified len 281


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1686/1686 [00:00<00:00, 3547.59it/s]


gamma 1, Simplified len 656


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3280/3280 [00:01<00:00, 2580.46it/s]


gamma 2, Simplified len 979
Exp terms, len 2937


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2937/2937 [00:00<00:00, 2949.36it/s]


Exp terms, partially simplified len 90


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [00:00<00:00, 2477.42it/s]

Exp terms, fully simplified len 44





<IPython.core.display.Math object>

Term 2 Expectation 44


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 5058.27it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:00<00:00, 3191.00it/s]

Simplified len 44
Compact beta deriv=6, gamma deriv=4, len=44





In [19]:
# EXP_TERMS_REF_LIST = [((2, set(), [], -1152), ''),
#              ((2, {1}, [(('x', 1), ('y', 1))], 864), 'tr(XY^T)'),
#              ((0, {1, 2}, [(('x', 2), ('y', 1))], 1), '1^T X Y^T 1'),
#              ((3, {1, 2}, [(('x', 1), ('y', 1)), (('x', 1), ('x', 2))], -336), 'tr(XY^T diag(XX^T1))'),
#              ((3, {1, 2}, [(('y', 1), ('y', 2)), (('x', 1), ('y', 1))], -336), 'tr(XY^T diag(YY^T1))'),
#              ((4, {1, 2}, [(('x', 1), ('x', 2))], 576), '1^TXX^T1'),
#              ((4, {1, 2}, [(('y', 1), ('y', 2))], 576), '1^TYY^T 1'),
#              ((0, {1, 2}, [(('x', 2), ('y', 1)), (('x', 1), ('y', 2))], 1), 'tr(XY^T XY^T)'),
#              ((0, {1, 2}, [(('y', 1), ('y', 2)), (('x', 1), ('x', 2))], 1), '\color{blue}{ tr(XX^T YY^T)}'),
                      
#              ((0, {1, 2, 3}, [(('x', 1), ('x', 2)), (('x', 1), ('x', 3))], 1),    '1^TXX^TXX^T1'),
#              ((3, {1, 2, 3}, [(('x', 1), ('y', 2)), (('x', 1), ('x', 3))], -4),   '1^TXX^TXY^T1'),
#              ((0, {1, 2, 3}, [(('x', 1), ('y', 2)), (('x', 2), ('x', 3))], 1),    '1^TXX^TYX^T1'),
#              ((0, {1, 2, 3}, [(('x', 1), ('x', 2)), (('y', 1), ('y', 3))], 1),    '1^TXX^TYY^T1'),
#              ((4, {1, 2, 3}, [(('x', 2), ('y', 1)), (('x', 1), ('y', 3))], 144),  '1^TXY^TXY^T1'),
#              ((3, {1, 2, 3}, [(('x', 1), ('y', 2)), (('y', 2), ('y', 3))], -4),   '1^TXY^TYY^T1'),
#              ((4, {1, 2, 3}, [(('y', 1), ('y', 2)), (('x', 1), ('y', 3))], 192),  '1^TYX^TYY^T1'),
#              ((0, {1, 2, 3}, [(('y', 1), ('y', 3)), (('y', 1), ('y', 2))], 1),    '1^TYY^TYY^T1'),
            
#              # ((0, {1, 2, 3}, [(('x', 1), ('x', 2)), (('x', 1), ('x', 3)), (('x', 1), ('y', 1))], 1), '\color{green}{tr(XY^T diag(XX^T1)diag(XX^T1))}'),
#              # ((0, {1, 2, 3}, [(('y', 1), ('y', 3)), (('x', 1), ('y', 1)), (('x', 2), ('y', 3))], 1), '\color{green}{tr(XY^T diag(YY^T YX^T 1)}'),
#              # ((0, {1, 2, 3}, [(('x', 1), ('y', 2)), (('x', 1), ('y', 1)), (('x', 1), ('y', 3))], 1), '\color{green}{tr(XY^T diag(XY^T1)diag(XY^T1))}'),
                      
#              ((0, {1, 2, 3}, [(('x', 1), ('x', 2)), (('y', 1), ('y', 3)), (('x', 1), ('y', 1))], 1), 'tr(diag(XX^T1)XY^Tdiag(YY^T1))'),
#              ((0, {1, 2, 3}, [(('x', 1), ('x', 3)), (('x', 1), ('y', 1)), (('x', 1), ('x', 2))], 1), 'tr(diag(XX^T1)XY^Tdiag(XX^T1))'),
#              ((0, {1, 2, 3}, [(('y', 1), ('y', 2)), (('x', 1), ('y', 1)), (('y', 1), ('y', 3))], 1), 'tr(diag(YY^T1)XY^Tdiag(YY^T1))'),
                      
#              ((4, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('x', 2), ('x', 3)), (('x', 3), ('y', 4))], 192), '1^TXX^TXX^TXY^T1'),
#              ((4, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('y', 2), ('x', 3)), (('x', 3), ('y', 4))], 192), '1^TXY^TYX^TXY^T1'),
#              ((4, {1, 2, 3, 4}, [(('y', 1), ('x', 2)), (('x', 2), ('y', 3)), (('y', 3), ('y', 4))], 192), '1^TYX^TXY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('x', 2), ('x', 3)), (('x', 3), ('x', 4))], 1), '1^TXX^TXX^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('y', 2)), (('y', 2), ('y', 3)), (('y', 3), ('y', 4))], 1), '1^TYY^TYY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('x', 2), ('x', 3)), (('x', 3), ('y', 4))], 1), '1^TXY^TXX^TXY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('y', 2), ('x', 3)), (('y', 3), ('y', 4))], 1), '1^TXY^TYX^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('y', 2)), (('y', 2), ('x', 3)), (('y', 3), ('y', 4))], 1), '1^TYY^TYX^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('y', 2), ('x', 3)), (('x', 3), ('y', 4))], 1), '1^TXX^TYX^TXY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('y', 2), ('y', 3)), (('x', 3), ('y', 4))], 1), '1^TXY^TYY^TXY^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('x', 2)), (('y', 2), ('y', 3)), (('y', 3), ('y', 4))], 1), '1^TYX^TYY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('y', 2)), (('x', 2), ('x', 3)), (('x', 3), ('x', 4))], 1), '1^TXY^TXX^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('y', 1), ('y', 2)), (('x', 2), ('x', 3)), (('x', 3), ('x', 4))], 1), '1^TYY^TXX^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('y', 2), ('y', 3)), (('y', 3), ('y', 4))], 1), '1^TXX^TYY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 2)), (('x', 2), ('y', 3)), (('x', 3), ('x', 4))], 1), '1^TXX^TXY^TXX^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 2), ('y', 1)), (('x', 1), ('y', 4)), (('y', 4), ('y', 3))], 1), '1^TXY^TXY^TYY^T1'),
#              ((0, {1, 2, 3, 4}, [(('x', 1), ('x', 3)), (('x', 3), ('y', 2)), (('x', 2), ('y', 4))], 1), '1^TXX^TXY^TXY^T1'),
                      
#              ((0, {1, 2, 3, 4, 5}, [(('x', 1), ('y', 2)), (('x', 4), ('x', 5)), (('x', 3), ('y', 2)), (('x', 3), ('x', 4))], 1), '1^TXY^TYX^TXX^TXX^T1'),
#              ((0, {1, 2, 3, 4, 5}, [(('x', 1), ('y', 2)), (('x', 1), ('x', 3)), (('x', 3), ('x', 4)), (('x', 1), ('y', 5))], 1), 'tr(diag(XY^T1)diag(XY^T1)XX^Tdiag(XX^T1))'),
#              ((0, {1, 2, 3, 4, 5}, [(('x', 1), ('y', 2)), (('x', 1), ('x', 3)), (('x', 3), ('y', 5)), (('x', 3), ('y', 4))], 1), '1^Tdiag(XY^T1)XX^Tdiag(XY^T1)diag(XY^T1)1'),
#              ((0, {1, 2, 3, 4, 5}, [(('x', 1), ('y', 2)), (('x', 1), ('y', 4)), (('y', 2), ('y', 3)), (('x', 1), ('y', 5))], 1), 'tr(diag(XY^T1)diag(XY^T1)diag(YY^T1)diag(XY^T1))'),]

# for exp_term, v in EXP_TERMS_REF_LIST:
#     if v == 'default':
#         print(exp_term)
#         display_expectation_terms([exp_term])
#         display_expectation_terms_compact([exp_term], simple_mode=False)
#         print(v)
#         assert(False)

# LaTeX output

In [23]:
latex_strs = {}
colors = ['CC79A7', 'D55E00', '0072B2', 'F0E442', '009E73', '56B4E9', 'E69F00', '000000']
color_dict = {r'\color{green}' : r'\color{cblind1}',
              r'\color{orange}' : r'\color{cblind2}',
              r'\color{red}' : r'\color{cblind3}',
              r'\color{purple}' : r'\color{cblind4}',
              r'\color{blue}' : r'\color{cblind5}',
             }
# \definecolor{cblind1}{HTML}{CC79A7}
# \definecolor{cblind2}{HTML}{0072B2}
# \definecolor{cblind3}{HTML}{D55E00}
# \definecolor{cblind4}{HTML}{009E73}
# \definecolor{cblind5}{HTML}{F0E442}

for num_gamma_derivs in [0,2,4,6,8,10]:
    for num_beta_derivs in [0,2,4,6]:
        curr_file = f'exp_terms/beta{num_beta_derivs}_gamma{num_gamma_derivs}.pkl'
        if not os.path.exists(curr_file):
            continue
       
            
        print('beta', num_beta_derivs, 'gamma', num_gamma_derivs)
        exp_terms = pickle.load(open(curr_file, 'rb'))
        print('Len', len(exp_terms))
        curr_str = get_expectation_terms_compact_str(exp_terms,simple_mode=False, add_coeff=False)
        curr_str = '$ ' + f' $ $ '.join(curr_str) + ' $ '
        for k, v in color_dict.items():
            curr_str = curr_str.replace(k,v)
        latex_strs[(num_beta_derivs, num_gamma_derivs)] = curr_str

        
latex_output = r'\begin{longtable}{p{0.2\linewidth} >{\raggedright\arraybackslash}p{0.8\linewidth}<{}}' + '\n' + r'\toprule \textbf{Derivative} & \textbf{Expansion} \\* \midrule' + '\n'
for b in [0,2,4,6]:
    for l in [0,2,4]:
        if (b,l) not in [(0,0), (4,0), (2,2), (4,2), (6,4)]:
            continue
        if len(latex_strs[(b,l)]) == 0:
            latex_strs[(b,l)] = '$0$'
        # latex_output += r'\rule{0pt}{4ex} \vspace{2ex} $ '
        latex_output += r'$ '
        if b > 0:
            latex_output += r'\frac{\partial^{' + f'{b}' + r'}}{\partial \beta^{' + f'{b}' + '}}' 
        if l > 0:
            latex_output += r'\frac{\partial^{' + f'{l}' + r'}}{\partial \gamma^{' + f'{l}' + '}}'
        latex_output += r'\kappa_{X,Y}(0,0) = $ & ' + latex_strs[(b,l)] + r' \\* ' + '\n' + r'\midrule' + '\n'
latex_output += r'\end{longtable}'
print(latex_output)

beta 0 gamma 0
Len 1
beta 4 gamma 0
Len 23
beta 2 gamma 2
Len 2
beta 4 gamma 2
Len 17
beta 6 gamma 4
Len 44
\begin{longtable}{p{0.2\linewidth} >{\raggedright\arraybackslash}p{0.8\linewidth}<{}}
\toprule \textbf{Derivative} & \textbf{Expansion} \\* \midrule
$ \kappa_{X,Y}(0,0) = $ & $ +c_{1}{\color{cblind1} {1^TXY^T 1}} $  \\* 
\midrule
$ \frac{\partial^{2}}{\partial \beta^{2}}\frac{\partial^{2}}{\partial \gamma^{2}}\kappa_{X,Y}(0,0) = $ & $ +c_{1}{\color{cblind1} {1^TXY^T 1}} $ $ +c_{2}{\color{cblind3} {tr(XY^T)}} $  \\* 
\midrule
$ \frac{\partial^{4}}{\partial \beta^{4}}\kappa_{X,Y}(0,0) = $ & $ +c_{1}{\color{cblind1} {1^TXY^T 1}} $ $ +c_{2}{\color{cblind1} {1^TXX^TXY^T1}} $ $ +c_{3}{\color{cblind1} {1^TXY^TYY^T1}} $ $ +c_{4}{\color{cblind1} {1^TXX^TXX^TXY^T1}} $ $ +c_{5}({\color{cblind1} {1^TXY^T 1}})({\color{cblind2} {1^TXX^T1}}) $ $ +c_{6}{\color{cblind1} {1^TXY^TYX^TXY^T1}} $ $ +c_{7}({\color{cblind1} {1^TXY^T 1}})({\color{cblind1} {1^TXY^T 1}}) $ $ +c_{8}{\color{cblind1} {1^TYX^T

In [28]:
# For checking that the relevant coefficients are strictly positive
for num_beta_derivs, num_gamma_derivs in [(0,0), (2,2), (4, 0), (4,2), (6, 4)]:
    curr_file = f'exp_terms/beta{num_beta_derivs}_gamma{num_gamma_derivs}.pkl'
    print('beta', num_beta_derivs, 'gamma', num_gamma_derivs)
    exp_terms = pickle.load(open(curr_file, 'rb'))
    display_expectation_terms_compact(exp_terms,simple_mode=False,add_coeff=True)

beta 0 gamma 0


<IPython.core.display.Math object>

beta 2 gamma 2


<IPython.core.display.Math object>

beta 4 gamma 0


<IPython.core.display.Math object>

beta 4 gamma 2


<IPython.core.display.Math object>

beta 6 gamma 4


<IPython.core.display.Math object>

# Bonus: extra fuzzing code that was used to sanity-check that the computed functions were symmetric in x,y

In [24]:
def fuzz_compare_symm(exp_terms):
    k_fuzz = 5
    m_fuzz = 8
    num_fuzzers = 10

    fuzzers = []
    fuzzers2 = []
    for i in range(num_fuzzers):
        X = rand_sequence(k=k_fuzz,m=m_fuzz)
        Y = rand_sequence(k=k_fuzz,m=m_fuzz)
        fuzzers.append((X,Y))
        fuzzers2.append((Y,X))

    print('Fuzzing for symm')
    evals1 = eval_on_fuzzers(exp_terms, fuzzers)
    evals2 = eval_on_fuzzers(exp_terms, fuzzers2)
    print(evals1)
    print(evals2)
    for i in range(num_fuzzers):
        assert(abs(evals1[i] - evals2[i]) < 1e-6)
        
def fuzz_match_terms_by_symm(exp_terms,k,m,num_fuzzers,ignore_coeff=True, ignore_k_exp=False):
    fuzzers = []
    for i in range(num_fuzzers):
        X = rand_sequence(k=k,m=m)
        Y = rand_sequence(k=k,m=m)
        fuzzers.append((X,Y))

    fuzzer_outs = {}
    for i in tqdm(range(len(exp_terms))):
        # print(exp_terms[i])
        fuzzer_outs[(i,0)] = []
        fuzzer_outs[(i,1)] = []
        for f in fuzzers:
            ev = eval_exp_term(f[0],f[1],exp_terms[i], ignore_coeff=ignore_coeff, ignore_k_exp=ignore_k_exp)
            ev2 = eval_exp_term(f[1],f[0],exp_terms[i], ignore_coeff=ignore_coeff, ignore_k_exp=ignore_k_exp)
            fuzzer_outs[(i,0)].append(ev)
            fuzzer_outs[(i,1)].append(ev2)
        fuzzer_outs[(i,0)] = tuple(fuzzer_outs[(i,0)])
        fuzzer_outs[(i,1)] = tuple(fuzzer_outs[(i,1)])
    return fuzzer_outs


for num_beta_derivs in [0,2,4,6]:
    for num_gamma_derivs in [0,2,4,6,8,10]:
        curr_file = f'exp_terms/beta{num_beta_derivs}_gamma{num_gamma_derivs}.pkl'
        if not os.path.exists(curr_file):
            continue
       
            
        print('beta', num_beta_derivs, 'gamma', num_gamma_derivs)
        exp_terms = pickle.load(open(curr_file, 'rb'))
        print('Len', len(exp_terms))
        # print(get_expectation_terms_compact_str(exp_terms,simple_mode=False, add_coeff=False))

        fuzzer_outs = fuzz_match_terms_by_symm(exp_terms,k=7,m=3,num_fuzzers=10, ignore_k_exp=False, ignore_coeff=False)
        matched = set()
        nf = len(fuzzer_outs[(0,0)])
        for i in range(len(exp_terms)):
            for s in range(i,len(exp_terms)):
                if np.all([abs(fuzzer_outs[(i,0)][j] - fuzzer_outs[(s,1)][j]) < 1e-6 for j in range(nf)]):
                    # print(i,s)
                    print(i,s)
                    if i in matched:
                        print(i)
                        assert(False)
                    if s in matched:
                        print(s)
                        assert(False)
                    matched.add(i)
                    matched.add(s)
                    # print(exp_terms[i])
                    # print(exp_terms[s])
                    # display_expectation_terms_compact([exp_terms[i]],simple_mode=False)
                    # display_expectation_terms_compact([exp_terms[s]],simple_mode=False)
                    print()


        # All terms are matched
        print(len(matched))
        print(len(exp_terms))


beta 0 gamma 0
Len 1


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.65it/s]


0 0

1
1
beta 2 gamma 2
Len 2


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1366.89it/s]


0 0

1 1

2
2
beta 4 gamma 0
Len 23


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 23/23 [00:24<00:00,  1.08s/it]


0 0

1 2

3 7

4 8

5 5

6 6

9 14

10 13

11 12

15 21

16 22

17 20

18 18

19 19

23
23
beta 4 gamma 2
Len 17


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 48.86it/s]


0 0

1 1

2 4

3 5

6 10

7 12

8 8

9 9

11 11

13 14

15 15

16 16

17
17
beta 6 gamma 4
Len 44


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 44/44 [00:00<00:00, 52.33it/s]

0 0

1 1

2 6

3 3

4 7

5 5

8 15

9 12

10 18

11 14

13 13

16 16

17 17

19 24

20 26

21 21

22 31

23 23

25 25

27 28

29 29

30 30

32 32

33 36

34 42

35 35

37 43

38 38

39 39

40 40

41 41

44
44



