In [1]:
import jax.numpy as jnp
from jax import random, jit, lax, value_and_grad
import optax
from tqdm import tqdm
import os

from src.neural_network_decoders import TransformerDecoder, print_params_structure
from qecsim.models.rotatedplanar import RotatedPlanarCode

key = random.key(0)

# Load data

In [2]:
data_dir = "../data_sets/stim_spin_3x3_r3/"
code = RotatedPlanarCode(3, 3)

data = {
    file_name.split(".")[0]: jnp.load(f"{data_dir}/{file_name}") for file_name in os.listdir(data_dir) if file_name.endswith(".npy")
}
for name, val in data.items():
    print(f"{name}: {val.shape}")

num_deformations, num_shots, num_rounds, num_syndromes = data["syndromes_rounds"].shape
x_init = jnp.append(
    data["syndromes_initial"], 
    jnp.tile(data["deformations"][:, None, :], (1, num_shots, 1))+2, 
    axis=-1
).reshape(num_deformations*num_shots, -1)
x = jnp.append(
    data["syndromes_rounds"], 
    jnp.tile(data["deformations"][:, None, None, :], (1, num_shots, num_rounds, 1))+2, 
    axis=-1
).reshape(num_deformations*num_shots, num_rounds, -1)
y = data["observables"].flatten()
bz = jnp.tile(data["is_using_the_z_basis"][:, None], (1, num_shots)).flatten()
print()
print(f"x_init: {x_init.shape}")
print(f"x: {x.shape}")
print(f"y: {y.shape}")
print(f"bz: {bz.shape}")

syndromes_initial: (2000, 1000, 8)
observables: (2000, 1000)
is_using_the_z_basis: (2000,)
syndromes_rounds: (2000, 1000, 3, 8)
deformations: (2000, 9)

x_init: (2000000, 17)
x: (2000000, 3, 17)
y: (2000000,)
bz: (2000000,)


In [3]:
def shuffle_data(key, *sets):
    """
    Shuffle the data along the first axis.
    
    Args:
        key: JAX random key.
        *sets: Variable number of arrays to be shuffled in unison along the first axis.
    Returns:
        Tuple:
            - new_key: JAX random key after splitting.
            - shuffled_data: List of shuffled arrays.
    """
    subkey, key = random.split(key)
    perm = random.permutation(subkey, sets[0].shape[0])
    shuffled_data = [set[perm] for set in sets]
    return key, shuffled_data

key, [x_init, x, y, bz] = shuffle_data(key, x_init, x, y, bz)

# Show data for first training sample
print("\nx_init:")
print(x_init[0])
print("\nx:")
print(x[0])
print("\ny:", y[0])
print("\nbz:", bz[0])


x_init:
[1 1 0 0 1 1 1 0 4 7 5 7 3 6 4 2 6]

x:
[[1 1 1 0 1 1 1 1 4 7 5 7 3 6 4 2 6]
 [1 1 1 0 1 1 1 1 4 7 5 7 3 6 4 2 6]
 [1 1 1 0 1 1 0 1 4 7 5 7 3 6 4 2 6]]

y: 0

bz: False


# Initialize model

In [100]:
batch_size = 64
num_epochs = 100

init_key, shuffle_key = random.split(random.key(0), num=2)

In [101]:
def cords_from_code(code: RotatedPlanarCode) -> tuple[list[tuple[float, float]], list[tuple[float, float]]]:
    """Get the coordinates of the plaquettes and data qubits from a rotated planar code and returns them as two separate lists."""
    plaquette_coords = code._plaquette_indices
    data_qubit_coords = [(x-.5, y-.5) for y in range(code.size[0]) for x in range(code.size[1])]
    return plaquette_coords, data_qubit_coords

In [102]:
plaquette_coords, data_qubit_coords = cords_from_code(code)
model = TransformerDecoder(
    site_locations=jnp.array(plaquette_coords + data_qubit_coords),
    output_features=4,
    vocab_size=8,
    num_layers=2,
    heads=4,
    d_model=32,
    mlp_dim=128,
    training=False
)
model_params = model.init(init_key, x_init[:batch_size], x[:batch_size])  # Initialize model parameters
print_params_structure(model_params)

params
  embedder
    embedder
      embedding:	 shape (8, 32)
  transformer_first_round
    encoder_layers_0
      norm_attention
        scale:	 shape (32,)
        bias:	 shape (32,)
      attention
        query
          kernel:	 shape (32, 4, 8)
          bias:	 shape (4, 8)
        key
          kernel:	 shape (32, 4, 8)
          bias:	 shape (4, 8)
        value
          kernel:	 shape (32, 4, 8)
          bias:	 shape (4, 8)
        out
          kernel:	 shape (4, 8, 32)
          bias:	 shape (32,)
      norm_mlp
        scale:	 shape (32,)
        bias:	 shape (32,)
      gated_mlp
        fc_layer_0
          kernel:	 shape (32, 128)
          bias:	 shape (128,)
        fc_layer_1
          kernel:	 shape (64, 32)
          bias:	 shape (32,)
    encoder_layers_1
      norm_attention
        scale:	 shape (32,)
        bias:	 shape (32,)
      attention
        query
          kernel:	 shape (32, 4, 8)
          bias:	 shape (4, 8)
        key
          kernel:	 shape (

In [103]:
shuffle_key, [x_init, x, y, bz] = shuffle_data(shuffle_key, x_init, x, y, bz)
input = (x_init[:1], x[:1])  # Input for a single training sample
output = model.apply(model_params, *input)[0]  # Forward pass with a batch of data
print("\nModel output for first training sample:")
print(f"in:\n {input[0][0]}\n{input[1][0]}")
print(f"Out:\n [{', '.join(f'{p:.2%}' for p in output)}]")


Model output for first training sample:
in:
 [1 1 1 0 0 0 0 0 5 3 7 7 7 2 3 7 5]
[[1 1 1 0 0 0 0 0 5 3 7 7 7 2 3 7 5]
 [1 1 1 0 0 0 0 0 5 3 7 7 7 2 3 7 5]
 [1 1 1 0 0 1 0 0 5 3 7 7 7 2 3 7 5]]
Out:
 [2.91%, 4.06%, 57.42%, 35.61%]


# Evaluation functions

In [104]:
@jit
def binary_cross_entropy(y_true, y_pred):
    # Clip predictions to avoid log(0)
    y_pred = jnp.clip(y_pred, 1e-7, 1.0 - 1e-7)
    # Calculate binary cross-entropy
    return -jnp.mean(y_true * jnp.log(y_pred) + (1 - y_true) * jnp.log(1 - y_pred))

@jit
def loss_fn(params, x_init, x, y, bz):
    # Get model predictions
    p = model.apply(params, x_init, x)
    p_I, p_X, p_Y, p_Z = p[:,0], p[:,1], p[:,2], p[:,3]
    # Calculate probability of a logical flip based on the basis
    p_flip_z = p_X + p_Y
    p_flip_x = p_Z + p_Y
    # Chose which flip to predict based on the basis used
    p_flip = bz * p_flip_z + (1.0 - bz) * p_flip_x
    # Calculate binary cross-entropy loss
    return binary_cross_entropy(y, p_flip)

loss_fn(model_params, x_init[:batch_size], x[:batch_size], y[:batch_size], bz[:batch_size])

Array(1.3491414, dtype=float32)

In [105]:
@jit
def estimate_ler(params, x_init, x, y, bz):
    probs = model.apply(params, x_init, x)
    # Get predicted logical Pauli error
    prediction = probs.argmax(axis=1) # Get the class with the highest probability (0: I, 1: X, 2: Y, 3: Z)
    err_I = prediction == 0
    err_X = prediction == 1
    err_Y = prediction == 2
    err_Z = prediction == 3
    # Determine if a logical flip has occurred based on the basis
    y_pred = (err_X & bz) | (err_Y) | (err_Z & ~bz)
    # Compare predictions to true labels and estimate the ler
    sucess_rate = jnp.mean(y_pred == y)
    ler = 1.0 - sucess_rate
    return ler

estimate_ler(model_params, x_init[:batch_size], x[:batch_size], y[:batch_size], bz[:batch_size])

Array(0.59375, dtype=float32)

# Setup the optimizer

In [106]:
num_batches = num_epochs * x.shape[0] // batch_size
learning_rate = optax.warmup_cosine_decay_schedule(
    init_value=0.0,
    peak_value=1e-3,
    warmup_steps=num_batches * 0.05,
    decay_steps=num_batches,
    end_value=1e-5
)
optimizer = optax.chain(
    optax.clip_by_global_norm(1.0),
    optax.adamw(learning_rate)
)
opt_state = optimizer.init(model_params)

# Training loop

In [107]:
@jit
def training_step(
    opt_state, 
    model_params: dict, 
    x_init: jnp.ndarray, 
    x: jnp.ndarray, 
    y: jnp.ndarray, 
    bz: jnp.ndarray, 
    batch_idx: int
) -> tuple[optax.OptState, dict, float]:
    """
    Perform a single training step: compute loss and gradients, update model parameters.

    Args:
        opt_state: Current state of the optimizer.
        model_params: Current model parameters.
        x_init (jnp.ndarray (batch_size, n_sites)): Syndrome measurements at initial round.
        x (jnp.ndarray (batch_size, n_rounds, n_sites)): Syndrome measurements for all rounds except the initial round.
        y (jnp.ndarray (batch_size,)): Observable outcomes.
        bz (jnp.ndarray (batch_size,)): Basis for logical state initialization and measurement (True for Z-basis, False for X-basis).
        batch_idx (int): Index of the current batch.

    Returns:
        Tuple:
            - new_opt_state: Updated optimizer state.
            - new_model_params: Updated model parameters.
            - loss: Computed loss for the batch.
    """
    # Get batch data
    start = batch_idx * batch_size
    batch_x_init = lax.dynamic_slice(x_init, (start, 0), (batch_size, x_init.shape[1]))
    batch_x = lax.dynamic_slice(x, (start, 0, 0), (batch_size, x.shape[1], x.shape[2]))
    batch_y = lax.dynamic_slice(y, (start,), (batch_size,))
    batch_bz = lax.dynamic_slice(bz, (start,), (batch_size,))
    # Compute loss and gradients
    loss, grads = value_and_grad(loss_fn)(model_params, batch_x_init, batch_x, batch_y, batch_bz)
    # Update model parameters
    updates, opt_state = optimizer.update(grads, opt_state, model_params)
    model_params = optax.apply_updates(model_params, updates)
    return opt_state, model_params, loss

In [108]:
for epoch in range(num_epochs):
    # Shuffle data at the start of each epoch
    shuffle_key, [x_init, x, y, bz] = shuffle_data(shuffle_key, x_init, x, y, bz)

    # Training loop
    num_batches = x.shape[0] // batch_size
    epoch_loss = 0.0
    for batch_idx in tqdm(range(num_batches), desc=f"Epoch {epoch+1}/{num_epochs}", ncols=200):
        opt_state, model_params, loss = training_step(
            opt_state, model_params, x_init, x, y, bz, batch_idx
        )
        epoch_loss += loss
    epoch_loss /= num_batches
    print(f"Epoch {epoch+1}/{num_epochs} - Loss: {epoch_loss:.4f}")

Epoch 1/100:   0%|                                                                                                                                                            | 0/31250 [00:00<?, ?it/s]

Epoch 1/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:25<00:00, 365.06it/s]


Epoch 1/100 - Loss: 0.5873


Epoch 2/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:20<00:00, 389.15it/s]


Epoch 2/100 - Loss: 0.5072


Epoch 3/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 392.96it/s]


Epoch 3/100 - Loss: 0.4781


Epoch 4/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 393.83it/s]


Epoch 4/100 - Loss: 0.4672


Epoch 5/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:20<00:00, 388.03it/s]


Epoch 5/100 - Loss: 0.4611


Epoch 6/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:20<00:00, 389.97it/s]


Epoch 6/100 - Loss: 0.4573


Epoch 7/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 395.76it/s]


Epoch 7/100 - Loss: 0.4525


Epoch 8/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 394.90it/s]


Epoch 8/100 - Loss: 0.4501


Epoch 9/100: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 392.04it/s]


Epoch 9/100 - Loss: 0.4485


Epoch 10/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 391.90it/s]


Epoch 10/100 - Loss: 0.4467


Epoch 11/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 394.02it/s]


Epoch 11/100 - Loss: 0.4461


Epoch 12/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 391.23it/s]


Epoch 12/100 - Loss: 0.4457


Epoch 13/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 394.87it/s]


Epoch 13/100 - Loss: 0.4448


Epoch 14/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 395.02it/s]


Epoch 14/100 - Loss: 0.4434


Epoch 15/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.31it/s]


Epoch 15/100 - Loss: 0.4429


Epoch 16/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 393.93it/s]


Epoch 16/100 - Loss: 0.4424


Epoch 17/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 392.30it/s]


Epoch 17/100 - Loss: 0.4418


Epoch 18/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.87it/s]


Epoch 18/100 - Loss: 0.4413


Epoch 19/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.56it/s]


Epoch 19/100 - Loss: 0.4411


Epoch 20/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.65it/s]


Epoch 20/100 - Loss: 0.4405


Epoch 21/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.13it/s]


Epoch 21/100 - Loss: 0.4402


Epoch 22/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 399.10it/s]


Epoch 22/100 - Loss: 0.4398


Epoch 23/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.95it/s]


Epoch 23/100 - Loss: 0.4395


Epoch 24/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.39it/s]


Epoch 24/100 - Loss: 0.4394


Epoch 25/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.44it/s]


Epoch 25/100 - Loss: 0.4390


Epoch 26/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.07it/s]


Epoch 26/100 - Loss: 0.4386


Epoch 27/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 399.55it/s]


Epoch 27/100 - Loss: 0.4383


Epoch 28/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 395.81it/s]


Epoch 28/100 - Loss: 0.4381


Epoch 29/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 390.92it/s]


Epoch 29/100 - Loss: 0.4378


Epoch 30/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.30it/s]


Epoch 30/100 - Loss: 0.4376


Epoch 31/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:20<00:00, 388.99it/s]


Epoch 31/100 - Loss: 0.4372


Epoch 32/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 391.88it/s]


Epoch 32/100 - Loss: 0.4371


Epoch 33/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 394.65it/s]


Epoch 33/100 - Loss: 0.4367


Epoch 34/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 395.31it/s]


Epoch 34/100 - Loss: 0.4365


Epoch 35/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:20<00:00, 388.32it/s]


Epoch 35/100 - Loss: 0.4364


Epoch 36/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.31it/s]


Epoch 36/100 - Loss: 0.4359


Epoch 37/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.02it/s]


Epoch 37/100 - Loss: 0.4358


Epoch 38/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.82it/s]


Epoch 38/100 - Loss: 0.4355


Epoch 39/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 394.64it/s]


Epoch 39/100 - Loss: 0.4353


Epoch 40/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.01it/s]


Epoch 40/100 - Loss: 0.4352


Epoch 41/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 394.37it/s]


Epoch 41/100 - Loss: 0.4347


Epoch 42/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.46it/s]


Epoch 42/100 - Loss: 0.4345


Epoch 43/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.39it/s]


Epoch 43/100 - Loss: 0.4342


Epoch 44/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.99it/s]


Epoch 44/100 - Loss: 0.4339


Epoch 45/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.35it/s]


Epoch 45/100 - Loss: 0.4336


Epoch 46/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.21it/s]


Epoch 46/100 - Loss: 0.4334


Epoch 47/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.02it/s]


Epoch 47/100 - Loss: 0.4330


Epoch 48/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.96it/s]


Epoch 48/100 - Loss: 0.4328


Epoch 49/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.56it/s]


Epoch 49/100 - Loss: 0.4325


Epoch 50/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.08it/s]


Epoch 50/100 - Loss: 0.4322


Epoch 51/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.21it/s]


Epoch 51/100 - Loss: 0.4321


Epoch 52/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.18it/s]


Epoch 52/100 - Loss: 0.4316


Epoch 53/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.69it/s]


Epoch 53/100 - Loss: 0.4313


Epoch 54/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 395.36it/s]


Epoch 54/100 - Loss: 0.4309


Epoch 55/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.87it/s]


Epoch 55/100 - Loss: 0.4306


Epoch 56/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 394.71it/s]


Epoch 56/100 - Loss: 0.4303


Epoch 57/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.72it/s]


Epoch 57/100 - Loss: 0.4298


Epoch 58/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.26it/s]


Epoch 58/100 - Loss: 0.4295


Epoch 59/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.73it/s]


Epoch 59/100 - Loss: 0.4291


Epoch 60/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.13it/s]


Epoch 60/100 - Loss: 0.4288


Epoch 61/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.51it/s]


Epoch 61/100 - Loss: 0.4284


Epoch 62/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.65it/s]


Epoch 62/100 - Loss: 0.4281


Epoch 63/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 404.05it/s]


Epoch 63/100 - Loss: 0.4276


Epoch 64/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.45it/s]


Epoch 64/100 - Loss: 0.4273


Epoch 65/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 399.25it/s]


Epoch 65/100 - Loss: 0.4269


Epoch 66/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:19<00:00, 392.86it/s]


Epoch 66/100 - Loss: 0.4265


Epoch 67/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.79it/s]


Epoch 67/100 - Loss: 0.4261


Epoch 68/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 399.04it/s]


Epoch 68/100 - Loss: 0.4256


Epoch 69/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.37it/s]


Epoch 69/100 - Loss: 0.4252


Epoch 70/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.47it/s]


Epoch 70/100 - Loss: 0.4248


Epoch 71/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 399.88it/s]


Epoch 71/100 - Loss: 0.4244


Epoch 72/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.92it/s]


Epoch 72/100 - Loss: 0.4240


Epoch 73/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.74it/s]


Epoch 73/100 - Loss: 0.4236


Epoch 74/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 399.05it/s]


Epoch 74/100 - Loss: 0.4232


Epoch 75/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.85it/s]


Epoch 75/100 - Loss: 0.4227


Epoch 76/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.43it/s]


Epoch 76/100 - Loss: 0.4223


Epoch 77/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.57it/s]


Epoch 77/100 - Loss: 0.4220


Epoch 78/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.23it/s]


Epoch 78/100 - Loss: 0.4216


Epoch 79/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 399.28it/s]


Epoch 79/100 - Loss: 0.4212


Epoch 80/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 405.62it/s]


Epoch 80/100 - Loss: 0.4208


Epoch 81/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.07it/s]


Epoch 81/100 - Loss: 0.4205


Epoch 82/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 402.79it/s]


Epoch 82/100 - Loss: 0.4201


Epoch 83/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.46it/s]


Epoch 83/100 - Loss: 0.4197


Epoch 84/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.05it/s]


Epoch 84/100 - Loss: 0.4194


Epoch 85/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.54it/s]


Epoch 85/100 - Loss: 0.4191


Epoch 86/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.94it/s]


Epoch 86/100 - Loss: 0.4188


Epoch 87/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.70it/s]


Epoch 87/100 - Loss: 0.4185


Epoch 88/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 398.66it/s]


Epoch 88/100 - Loss: 0.4182


Epoch 89/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.60it/s]


Epoch 89/100 - Loss: 0.4179


Epoch 90/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 402.04it/s]


Epoch 90/100 - Loss: 0.4177


Epoch 91/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.75it/s]


Epoch 91/100 - Loss: 0.4174


Epoch 92/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 396.21it/s]


Epoch 92/100 - Loss: 0.4172


Epoch 93/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 401.09it/s]


Epoch 93/100 - Loss: 0.4170


Epoch 94/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.21it/s]


Epoch 94/100 - Loss: 0.4169


Epoch 95/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.02it/s]


Epoch 95/100 - Loss: 0.4167


Epoch 96/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 397.23it/s]


Epoch 96/100 - Loss: 0.4166


Epoch 97/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 403.04it/s]


Epoch 97/100 - Loss: 0.4165


Epoch 98/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 400.39it/s]


Epoch 98/100 - Loss: 0.4164


Epoch 99/100: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:18<00:00, 395.95it/s]


Epoch 99/100 - Loss: 0.4163


Epoch 100/100: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31250/31250 [01:17<00:00, 405.52it/s]

Epoch 100/100 - Loss: 0.4163





In [109]:
import json
import jax

with open(f"transformer_model_params_100_epochs.json", "w") as f:
    json.dump(jax.tree.map(lambda x: x.tolist(), model_params), f, indent=4)

In [110]:
def params_count(params):
    return sum(jnp.prod(jnp.array(p.shape)) for p in jax.tree_util.tree_leaves(params))

params_count(model_params)

Array(43012, dtype=int32)

In [113]:
from flax.serialization import to_bytes, from_bytes

with open(f"transformer_model_params_100_epochs.msgpack", "wb") as f:
    f.write(to_bytes(model_params))

with open(f"transformer_model_params_100_epochs.msgpack", "rb") as f:
    model_params_loaded = from_bytes(model_params, f.read())

assert jax.tree_util.tree_all(
    jax.tree_util.tree_map(lambda x, y: jnp.array_equal(x, y), model_params, model_params_loaded)
)

# Evaluate model

In [118]:
num_estimation_samples = 100000
shuffle_key, [x_init, x, y, bz] = shuffle_data(shuffle_key, x_init, x, y, bz)
estimated_ler = estimate_ler(model_params, x_init[:num_estimation_samples], x[:num_estimation_samples], y[:num_estimation_samples], bz[:num_estimation_samples])
print(f"\nEstimated LER on training data: {estimated_ler:.4%}")


Estimated LER on training data: 17.4790%


In [112]:
for i in range(10):
    print(f"\nExperiment {i}:")
    print(f"Experiment in basis {'Z' if bz[i] else 'X'} with observable outcome {y[i]}")
    decoder_state = model.apply(model_params, x_init[i:i+1], method=model.apply_first_round)
    probs = model.apply(model_params, decoder_state, method=model.apply_final_prediction)
    # print(f"Round 0 input:\t", x_init[i])
    print(f"Round 0 probabilities:\t", "\t".join(f"P_{pauli} = {p:6.2%}" for pauli, p in zip("IXYZ", probs[0])))
    for r in range(x.shape[1]):
        decoder_state = model.apply(model_params, decoder_state, x[i:i+1, r, :], method=model.apply_internal_round)
        probs = model.apply(model_params, decoder_state, method=model.apply_final_prediction)
        # print(f"Round {r+1} input:\t", x[i, r])
        print(f"Round {r+1} probabilities:\t", "\t".join(f"P_{pauli} = {p:6.2%}" for pauli, p in zip("IXYZ", probs[0])))


Experiment 0:
Experiment in basis Z with observable outcome 1
Round 0 probabilities:	 P_I = 40.43%	P_X = 38.96%	P_Y = 10.24%	P_Z = 10.37%
Round 1 probabilities:	 P_I =  9.16%	P_X = 11.42%	P_Y = 47.11%	P_Z = 32.30%
Round 2 probabilities:	 P_I = 48.12%	P_X = 16.39%	P_Y = 10.93%	P_Z = 24.55%
Round 3 probabilities:	 P_I = 51.20%	P_X = 32.12%	P_Y =  6.94%	P_Z =  9.73%

Experiment 1:
Experiment in basis Z with observable outcome 0
Round 0 probabilities:	 P_I = 24.77%	P_X = 46.74%	P_Y = 17.95%	P_Z = 10.54%
Round 1 probabilities:	 P_I = 20.36%	P_X =  3.81%	P_Y = 12.92%	P_Z = 62.91%
Round 2 probabilities:	 P_I = 40.84%	P_X =  3.19%	P_Y =  3.97%	P_Z = 52.00%
Round 3 probabilities:	 P_I =  4.81%	P_X =  0.24%	P_Y =  4.22%	P_Z = 90.73%

Experiment 2:
Experiment in basis X with observable outcome 0
Round 0 probabilities:	 P_I = 43.25%	P_X = 34.57%	P_Y =  7.27%	P_Z = 14.91%
Round 1 probabilities:	 P_I = 37.50%	P_X = 34.64%	P_Y = 13.57%	P_Z = 14.29%
Round 2 probabilities:	 P_I = 17.39%	P_X = 71.64%	P