diff --git a/Axon.Activations.html b/Axon.Activations.html
index 3e1d7aa0..29afd628 100644
--- a/Axon.Activations.html
+++ b/Axon.Activations.html
@@ -115,19 +115,19 @@ <h1>
 <p>Activation functions.</p><p>Activation functions are element-wise, (typically) non-linear
 functions called on the output of another layer, such as
 a dense layer:</p><pre><code class="makeup elixir" translate="no"><span class="n">x</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="7343695290-1">(</span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="7343695290-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="7343695290-2">(</span><span class="p" data-group-id="7343695290-2">)</span></code></pre><p>Activation functions output the &quot;activation&quot; or how active
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="5019297381-1">(</span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="5019297381-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="5019297381-2">(</span><span class="p" data-group-id="5019297381-2">)</span></code></pre><p>Activation functions output the &quot;activation&quot; or how active
 a given layer's neurons are in learning a representation
 of the data-generating distribution.</p><p>Some activations are commonly used as output activations. For
 example <code class="inline">softmax</code> is often used as the output in multiclass
 classification problems because it returns a categorical
-probability distribution:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="3594817532-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3594817532-2">(</span><span class="p" data-group-id="3594817532-3">[</span><span class="p" data-group-id="3594817532-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3594817532-4">]</span><span class="p" data-group-id="3594817532-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3594817532-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3594817532-5">}</span><span class="p" data-group-id="3594817532-2">)</span><span class="p" data-group-id="3594817532-1">)</span><span class="w">
-</span><span class="p" data-group-id="3594817532-6">#</span><span class="nc" data-group-id="3594817532-6">Nx.Tensor</span><span class="p" data-group-id="3594817532-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3594817532-7">[</span><span class="mi">1</span><span class="p" data-group-id="3594817532-7">]</span><span class="p" data-group-id="3594817532-8">[</span><span class="mi">3</span><span class="p" data-group-id="3594817532-8">]</span><span class="w">
-  </span><span class="p" data-group-id="3594817532-9">[</span><span class="w">
-    </span><span class="p" data-group-id="3594817532-10">[</span><span class="mf">0.09003057330846786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2447284758090973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6652409434318542</span><span class="p" data-group-id="3594817532-10">]</span><span class="w">
-  </span><span class="p" data-group-id="3594817532-9">]</span><span class="w">
-</span><span class="p" data-group-id="3594817532-6">&gt;</span></code></pre><p>Other activations such as <code class="inline">tanh</code> or <code class="inline">sigmoid</code> are used because
+probability distribution:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="7897985030-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7897985030-2">(</span><span class="p" data-group-id="7897985030-3">[</span><span class="p" data-group-id="7897985030-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7897985030-4">]</span><span class="p" data-group-id="7897985030-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7897985030-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7897985030-5">}</span><span class="p" data-group-id="7897985030-2">)</span><span class="p" data-group-id="7897985030-1">)</span><span class="w">
+</span><span class="p" data-group-id="7897985030-6">#</span><span class="nc" data-group-id="7897985030-6">Nx.Tensor</span><span class="p" data-group-id="7897985030-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7897985030-7">[</span><span class="mi">1</span><span class="p" data-group-id="7897985030-7">]</span><span class="p" data-group-id="7897985030-8">[</span><span class="mi">3</span><span class="p" data-group-id="7897985030-8">]</span><span class="w">
+  </span><span class="p" data-group-id="7897985030-9">[</span><span class="w">
+    </span><span class="p" data-group-id="7897985030-10">[</span><span class="mf">0.09003057330846786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2447284758090973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6652409434318542</span><span class="p" data-group-id="7897985030-10">]</span><span class="w">
+  </span><span class="p" data-group-id="7897985030-9">]</span><span class="w">
+</span><span class="p" data-group-id="7897985030-6">&gt;</span></code></pre><p>Other activations such as <code class="inline">tanh</code> or <code class="inline">sigmoid</code> are used because
 they have desirable properties, such as keeping the output
 tensor constrained within a certain range.</p><p>Generally, the choice of activation function is arbitrary;
 although some activations work better than others in certain
@@ -421,26 +421,26 @@ <h1 class="signature" translate="no">celu(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="4002720836-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4002720836-2">(</span><span class="p" data-group-id="4002720836-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4002720836-3">]</span><span class="p" data-group-id="4002720836-2">)</span><span class="p" data-group-id="4002720836-1">)</span><span class="w">
-</span><span class="p" data-group-id="4002720836-4">#</span><span class="nc" data-group-id="4002720836-4">Nx.Tensor</span><span class="p" data-group-id="4002720836-4">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4002720836-5">[</span><span class="mi">7</span><span class="p" data-group-id="4002720836-5">]</span><span class="w">
-  </span><span class="p" data-group-id="4002720836-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4002720836-6">]</span><span class="w">
-</span><span class="p" data-group-id="4002720836-4">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="4002720836-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4002720836-8">(</span><span class="p" data-group-id="4002720836-9">[</span><span class="p" data-group-id="4002720836-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4002720836-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4002720836-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4002720836-11">]</span><span class="p" data-group-id="4002720836-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4002720836-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4002720836-12">}</span><span class="p" data-group-id="4002720836-8">)</span><span class="p" data-group-id="4002720836-7">)</span><span class="w">
-</span><span class="p" data-group-id="4002720836-13">#</span><span class="nc" data-group-id="4002720836-13">Nx.Tensor</span><span class="p" data-group-id="4002720836-13">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="4002720836-14">[</span><span class="mi">2</span><span class="p" data-group-id="4002720836-14">]</span><span class="p" data-group-id="4002720836-15">[</span><span class="mi">3</span><span class="p" data-group-id="4002720836-15">]</span><span class="w">
-  </span><span class="p" data-group-id="4002720836-16">[</span><span class="w">
-    </span><span class="p" data-group-id="4002720836-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="4002720836-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4002720836-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4002720836-18">]</span><span class="w">
-  </span><span class="p" data-group-id="4002720836-16">]</span><span class="w">
-</span><span class="p" data-group-id="4002720836-13">&gt;</span></code></pre><h3 id="celu/2-error-cases" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="2583113905-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2583113905-2">(</span><span class="p" data-group-id="2583113905-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2583113905-3">]</span><span class="p" data-group-id="2583113905-2">)</span><span class="p" data-group-id="2583113905-1">)</span><span class="w">
+</span><span class="p" data-group-id="2583113905-4">#</span><span class="nc" data-group-id="2583113905-4">Nx.Tensor</span><span class="p" data-group-id="2583113905-4">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2583113905-5">[</span><span class="mi">7</span><span class="p" data-group-id="2583113905-5">]</span><span class="w">
+  </span><span class="p" data-group-id="2583113905-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2583113905-6">]</span><span class="w">
+</span><span class="p" data-group-id="2583113905-4">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="2583113905-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2583113905-8">(</span><span class="p" data-group-id="2583113905-9">[</span><span class="p" data-group-id="2583113905-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2583113905-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2583113905-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2583113905-11">]</span><span class="p" data-group-id="2583113905-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2583113905-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2583113905-12">}</span><span class="p" data-group-id="2583113905-8">)</span><span class="p" data-group-id="2583113905-7">)</span><span class="w">
+</span><span class="p" data-group-id="2583113905-13">#</span><span class="nc" data-group-id="2583113905-13">Nx.Tensor</span><span class="p" data-group-id="2583113905-13">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="2583113905-14">[</span><span class="mi">2</span><span class="p" data-group-id="2583113905-14">]</span><span class="p" data-group-id="2583113905-15">[</span><span class="mi">3</span><span class="p" data-group-id="2583113905-15">]</span><span class="w">
+  </span><span class="p" data-group-id="2583113905-16">[</span><span class="w">
+    </span><span class="p" data-group-id="2583113905-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="2583113905-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2583113905-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2583113905-18">]</span><span class="w">
+  </span><span class="p" data-group-id="2583113905-16">]</span><span class="w">
+</span><span class="p" data-group-id="2583113905-13">&gt;</span></code></pre><h3 id="celu/2-error-cases" class="section-heading">
   <a href="#celu/2-error-cases" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">error-cases</p>
   </a>
   Error cases
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="0749255695-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0749255695-2">(</span><span class="p" data-group-id="0749255695-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="0749255695-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0749255695-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0749255695-4">}</span><span class="p" data-group-id="0749255695-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0749255695-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="0390424424-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0390424424-2">(</span><span class="p" data-group-id="0390424424-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="0390424424-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0390424424-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0390424424-4">}</span><span class="p" data-group-id="0390424424-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0390424424-1">)</span><span class="w">
 </span><span class="gt">** (ArgumentError) :alpha must be non-zero in CELU activation</span></code></pre><h2 id="celu/2-references" class="section-heading">
   <a href="#celu/2-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
@@ -483,20 +483,20 @@ <h1 class="signature" translate="no">elu(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="1473853167-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1473853167-2">(</span><span class="p" data-group-id="1473853167-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1473853167-3">]</span><span class="p" data-group-id="1473853167-2">)</span><span class="p" data-group-id="1473853167-1">)</span><span class="w">
-</span><span class="p" data-group-id="1473853167-4">#</span><span class="nc" data-group-id="1473853167-4">Nx.Tensor</span><span class="p" data-group-id="1473853167-4">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1473853167-5">[</span><span class="mi">7</span><span class="p" data-group-id="1473853167-5">]</span><span class="w">
-  </span><span class="p" data-group-id="1473853167-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1473853167-6">]</span><span class="w">
-</span><span class="p" data-group-id="1473853167-4">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="1473853167-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1473853167-8">(</span><span class="p" data-group-id="1473853167-9">[</span><span class="p" data-group-id="1473853167-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1473853167-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1473853167-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1473853167-11">]</span><span class="p" data-group-id="1473853167-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1473853167-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1473853167-12">}</span><span class="p" data-group-id="1473853167-8">)</span><span class="p" data-group-id="1473853167-7">)</span><span class="w">
-</span><span class="p" data-group-id="1473853167-13">#</span><span class="nc" data-group-id="1473853167-13">Nx.Tensor</span><span class="p" data-group-id="1473853167-13">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1473853167-14">[</span><span class="mi">2</span><span class="p" data-group-id="1473853167-14">]</span><span class="p" data-group-id="1473853167-15">[</span><span class="mi">3</span><span class="p" data-group-id="1473853167-15">]</span><span class="w">
-  </span><span class="p" data-group-id="1473853167-16">[</span><span class="w">
-    </span><span class="p" data-group-id="1473853167-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="1473853167-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1473853167-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1473853167-18">]</span><span class="w">
-  </span><span class="p" data-group-id="1473853167-16">]</span><span class="w">
-</span><span class="p" data-group-id="1473853167-13">&gt;</span></code></pre><h2 id="elu/2-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="4979007184-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4979007184-2">(</span><span class="p" data-group-id="4979007184-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4979007184-3">]</span><span class="p" data-group-id="4979007184-2">)</span><span class="p" data-group-id="4979007184-1">)</span><span class="w">
+</span><span class="p" data-group-id="4979007184-4">#</span><span class="nc" data-group-id="4979007184-4">Nx.Tensor</span><span class="p" data-group-id="4979007184-4">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4979007184-5">[</span><span class="mi">7</span><span class="p" data-group-id="4979007184-5">]</span><span class="w">
+  </span><span class="p" data-group-id="4979007184-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4979007184-6">]</span><span class="w">
+</span><span class="p" data-group-id="4979007184-4">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="4979007184-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4979007184-8">(</span><span class="p" data-group-id="4979007184-9">[</span><span class="p" data-group-id="4979007184-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4979007184-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4979007184-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4979007184-11">]</span><span class="p" data-group-id="4979007184-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4979007184-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4979007184-12">}</span><span class="p" data-group-id="4979007184-8">)</span><span class="p" data-group-id="4979007184-7">)</span><span class="w">
+</span><span class="p" data-group-id="4979007184-13">#</span><span class="nc" data-group-id="4979007184-13">Nx.Tensor</span><span class="p" data-group-id="4979007184-13">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="4979007184-14">[</span><span class="mi">2</span><span class="p" data-group-id="4979007184-14">]</span><span class="p" data-group-id="4979007184-15">[</span><span class="mi">3</span><span class="p" data-group-id="4979007184-15">]</span><span class="w">
+  </span><span class="p" data-group-id="4979007184-16">[</span><span class="w">
+    </span><span class="p" data-group-id="4979007184-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="4979007184-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4979007184-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4979007184-18">]</span><span class="w">
+  </span><span class="p" data-group-id="4979007184-16">]</span><span class="w">
+</span><span class="p" data-group-id="4979007184-13">&gt;</span></code></pre><h2 id="elu/2-references" class="section-heading">
   <a href="#elu/2-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -530,20 +530,20 @@ <h1 class="signature" translate="no">exp(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="9771055129-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9771055129-2">(</span><span class="p" data-group-id="9771055129-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="9771055129-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9771055129-4">[</span><span class="ss">:data</span><span class="p" data-group-id="9771055129-4">]</span><span class="p" data-group-id="9771055129-2">)</span><span class="p" data-group-id="9771055129-1">)</span><span class="w">
-</span><span class="p" data-group-id="9771055129-5">#</span><span class="nc" data-group-id="9771055129-5">Nx.Tensor</span><span class="p" data-group-id="9771055129-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9771055129-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="9771055129-6">]</span><span class="w">
-  </span><span class="p" data-group-id="9771055129-7">[</span><span class="mf">0.049787066876888275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1353352814912796</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3678794503211975</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7182817459106445</span><span class="p">,</span><span class="w"> </span><span class="mf">7.389056205749512</span><span class="p">,</span><span class="w"> </span><span class="mf">20.08553695678711</span><span class="p" data-group-id="9771055129-7">]</span><span class="w">
-</span><span class="p" data-group-id="9771055129-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="9771055129-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9771055129-9">(</span><span class="p" data-group-id="9771055129-10">[</span><span class="p" data-group-id="9771055129-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="9771055129-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9771055129-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="9771055129-12">]</span><span class="p" data-group-id="9771055129-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9771055129-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9771055129-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9771055129-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="9771055129-14">]</span><span class="p" data-group-id="9771055129-9">)</span><span class="p" data-group-id="9771055129-8">)</span><span class="w">
-</span><span class="p" data-group-id="9771055129-15">#</span><span class="nc" data-group-id="9771055129-15">Nx.Tensor</span><span class="p" data-group-id="9771055129-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="9771055129-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9771055129-16">]</span><span class="p" data-group-id="9771055129-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9771055129-17">]</span><span class="w">
-  </span><span class="p" data-group-id="9771055129-18">[</span><span class="w">
-    </span><span class="p" data-group-id="9771055129-19">[</span><span class="mf">0.3671875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.134765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049560546875</span><span class="p" data-group-id="9771055129-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9771055129-20">[</span><span class="mf">2.703125</span><span class="p">,</span><span class="w"> </span><span class="mf">7.375</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p" data-group-id="9771055129-20">]</span><span class="w">
-  </span><span class="p" data-group-id="9771055129-18">]</span><span class="w">
-</span><span class="p" data-group-id="9771055129-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="2944581031-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2944581031-2">(</span><span class="p" data-group-id="2944581031-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2944581031-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2944581031-4">[</span><span class="ss">:data</span><span class="p" data-group-id="2944581031-4">]</span><span class="p" data-group-id="2944581031-2">)</span><span class="p" data-group-id="2944581031-1">)</span><span class="w">
+</span><span class="p" data-group-id="2944581031-5">#</span><span class="nc" data-group-id="2944581031-5">Nx.Tensor</span><span class="p" data-group-id="2944581031-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2944581031-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="2944581031-6">]</span><span class="w">
+  </span><span class="p" data-group-id="2944581031-7">[</span><span class="mf">0.049787066876888275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1353352814912796</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3678794503211975</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7182817459106445</span><span class="p">,</span><span class="w"> </span><span class="mf">7.389056205749512</span><span class="p">,</span><span class="w"> </span><span class="mf">20.08553695678711</span><span class="p" data-group-id="2944581031-7">]</span><span class="w">
+</span><span class="p" data-group-id="2944581031-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="2944581031-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2944581031-9">(</span><span class="p" data-group-id="2944581031-10">[</span><span class="p" data-group-id="2944581031-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2944581031-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2944581031-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2944581031-12">]</span><span class="p" data-group-id="2944581031-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2944581031-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2944581031-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2944581031-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2944581031-14">]</span><span class="p" data-group-id="2944581031-9">)</span><span class="p" data-group-id="2944581031-8">)</span><span class="w">
+</span><span class="p" data-group-id="2944581031-15">#</span><span class="nc" data-group-id="2944581031-15">Nx.Tensor</span><span class="p" data-group-id="2944581031-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="2944581031-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2944581031-16">]</span><span class="p" data-group-id="2944581031-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2944581031-17">]</span><span class="w">
+  </span><span class="p" data-group-id="2944581031-18">[</span><span class="w">
+    </span><span class="p" data-group-id="2944581031-19">[</span><span class="mf">0.3671875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.134765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049560546875</span><span class="p" data-group-id="2944581031-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2944581031-20">[</span><span class="mf">2.703125</span><span class="p">,</span><span class="w"> </span><span class="mf">7.375</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p" data-group-id="2944581031-20">]</span><span class="w">
+  </span><span class="p" data-group-id="2944581031-18">]</span><span class="w">
+</span><span class="p" data-group-id="2944581031-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="gelu/1">
@@ -571,20 +571,20 @@ <h1 class="signature" translate="no">gelu(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="5475029182-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5475029182-2">(</span><span class="p" data-group-id="5475029182-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5475029182-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5475029182-4">[</span><span class="ss">:data</span><span class="p" data-group-id="5475029182-4">]</span><span class="p" data-group-id="5475029182-2">)</span><span class="p" data-group-id="5475029182-1">)</span><span class="w">
-</span><span class="p" data-group-id="5475029182-5">#</span><span class="nc" data-group-id="5475029182-5">Nx.Tensor</span><span class="p" data-group-id="5475029182-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5475029182-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="5475029182-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5475029182-7">[</span><span class="o">-</span><span class="mf">0.0040496885776519775</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04550027847290039</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15865525603294373</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8413447141647339</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9544997215270996</span><span class="p">,</span><span class="w"> </span><span class="mf">2.995950222015381</span><span class="p" data-group-id="5475029182-7">]</span><span class="w">
-</span><span class="p" data-group-id="5475029182-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="5475029182-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5475029182-9">(</span><span class="p" data-group-id="5475029182-10">[</span><span class="p" data-group-id="5475029182-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="5475029182-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5475029182-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5475029182-12">]</span><span class="p" data-group-id="5475029182-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5475029182-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5475029182-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5475029182-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5475029182-14">]</span><span class="p" data-group-id="5475029182-9">)</span><span class="p" data-group-id="5475029182-8">)</span><span class="w">
-</span><span class="p" data-group-id="5475029182-15">#</span><span class="nc" data-group-id="5475029182-15">Nx.Tensor</span><span class="p" data-group-id="5475029182-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="5475029182-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5475029182-16">]</span><span class="p" data-group-id="5475029182-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5475029182-17">]</span><span class="w">
-  </span><span class="p" data-group-id="5475029182-18">[</span><span class="w">
-    </span><span class="p" data-group-id="5475029182-19">[</span><span class="o">-</span><span class="mf">0.16015625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005859375</span><span class="p" data-group-id="5475029182-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5475029182-20">[</span><span class="mf">0.83984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.984375</span><span class="p" data-group-id="5475029182-20">]</span><span class="w">
-  </span><span class="p" data-group-id="5475029182-18">]</span><span class="w">
-</span><span class="p" data-group-id="5475029182-15">&gt;</span></code></pre><h2 id="gelu/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="8234197100-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8234197100-2">(</span><span class="p" data-group-id="8234197100-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8234197100-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8234197100-4">[</span><span class="ss">:data</span><span class="p" data-group-id="8234197100-4">]</span><span class="p" data-group-id="8234197100-2">)</span><span class="p" data-group-id="8234197100-1">)</span><span class="w">
+</span><span class="p" data-group-id="8234197100-5">#</span><span class="nc" data-group-id="8234197100-5">Nx.Tensor</span><span class="p" data-group-id="8234197100-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8234197100-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="8234197100-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8234197100-7">[</span><span class="o">-</span><span class="mf">0.0040496885776519775</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04550027847290039</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15865525603294373</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8413447141647339</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9544997215270996</span><span class="p">,</span><span class="w"> </span><span class="mf">2.995950222015381</span><span class="p" data-group-id="8234197100-7">]</span><span class="w">
+</span><span class="p" data-group-id="8234197100-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="8234197100-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8234197100-9">(</span><span class="p" data-group-id="8234197100-10">[</span><span class="p" data-group-id="8234197100-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8234197100-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8234197100-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8234197100-12">]</span><span class="p" data-group-id="8234197100-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8234197100-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8234197100-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8234197100-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="8234197100-14">]</span><span class="p" data-group-id="8234197100-9">)</span><span class="p" data-group-id="8234197100-8">)</span><span class="w">
+</span><span class="p" data-group-id="8234197100-15">#</span><span class="nc" data-group-id="8234197100-15">Nx.Tensor</span><span class="p" data-group-id="8234197100-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="8234197100-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8234197100-16">]</span><span class="p" data-group-id="8234197100-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8234197100-17">]</span><span class="w">
+  </span><span class="p" data-group-id="8234197100-18">[</span><span class="w">
+    </span><span class="p" data-group-id="8234197100-19">[</span><span class="o">-</span><span class="mf">0.16015625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005859375</span><span class="p" data-group-id="8234197100-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8234197100-20">[</span><span class="mf">0.83984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.984375</span><span class="p" data-group-id="8234197100-20">]</span><span class="w">
+  </span><span class="p" data-group-id="8234197100-18">]</span><span class="w">
+</span><span class="p" data-group-id="8234197100-15">&gt;</span></code></pre><h2 id="gelu/1-references" class="section-heading">
   <a href="#gelu/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -620,20 +620,20 @@ <h1 class="signature" translate="no">hard_sigmoid(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="8796733334-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8796733334-2">(</span><span class="p" data-group-id="8796733334-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8796733334-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8796733334-4">[</span><span class="ss">:data</span><span class="p" data-group-id="8796733334-4">]</span><span class="p" data-group-id="8796733334-2">)</span><span class="p" data-group-id="8796733334-1">)</span><span class="w">
-</span><span class="p" data-group-id="8796733334-5">#</span><span class="nc" data-group-id="8796733334-5">Nx.Tensor</span><span class="p" data-group-id="8796733334-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8796733334-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="8796733334-6">]</span><span class="w">
-  </span><span class="p" data-group-id="8796733334-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20000000298023224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6000000238418579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.800000011920929</span><span class="p" data-group-id="8796733334-7">]</span><span class="w">
-</span><span class="p" data-group-id="8796733334-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="8796733334-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8796733334-9">(</span><span class="p" data-group-id="8796733334-10">[</span><span class="p" data-group-id="8796733334-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8796733334-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8796733334-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8796733334-12">]</span><span class="p" data-group-id="8796733334-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8796733334-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8796733334-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8796733334-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="8796733334-14">]</span><span class="p" data-group-id="8796733334-9">)</span><span class="p" data-group-id="8796733334-8">)</span><span class="w">
-</span><span class="p" data-group-id="8796733334-15">#</span><span class="nc" data-group-id="8796733334-15">Nx.Tensor</span><span class="p" data-group-id="8796733334-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="8796733334-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8796733334-16">]</span><span class="p" data-group-id="8796733334-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8796733334-17">]</span><span class="w">
-  </span><span class="p" data-group-id="8796733334-18">[</span><span class="w">
-    </span><span class="p" data-group-id="8796733334-19">[</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8796733334-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="8796733334-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.59765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.796875</span><span class="p" data-group-id="8796733334-20">]</span><span class="w">
-  </span><span class="p" data-group-id="8796733334-18">]</span><span class="w">
-</span><span class="p" data-group-id="8796733334-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="6715273695-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6715273695-2">(</span><span class="p" data-group-id="6715273695-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6715273695-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6715273695-4">[</span><span class="ss">:data</span><span class="p" data-group-id="6715273695-4">]</span><span class="p" data-group-id="6715273695-2">)</span><span class="p" data-group-id="6715273695-1">)</span><span class="w">
+</span><span class="p" data-group-id="6715273695-5">#</span><span class="nc" data-group-id="6715273695-5">Nx.Tensor</span><span class="p" data-group-id="6715273695-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6715273695-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="6715273695-6">]</span><span class="w">
+  </span><span class="p" data-group-id="6715273695-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20000000298023224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6000000238418579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.800000011920929</span><span class="p" data-group-id="6715273695-7">]</span><span class="w">
+</span><span class="p" data-group-id="6715273695-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="6715273695-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6715273695-9">(</span><span class="p" data-group-id="6715273695-10">[</span><span class="p" data-group-id="6715273695-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6715273695-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6715273695-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6715273695-12">]</span><span class="p" data-group-id="6715273695-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6715273695-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6715273695-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6715273695-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6715273695-14">]</span><span class="p" data-group-id="6715273695-9">)</span><span class="p" data-group-id="6715273695-8">)</span><span class="w">
+</span><span class="p" data-group-id="6715273695-15">#</span><span class="nc" data-group-id="6715273695-15">Nx.Tensor</span><span class="p" data-group-id="6715273695-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="6715273695-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6715273695-16">]</span><span class="p" data-group-id="6715273695-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6715273695-17">]</span><span class="w">
+  </span><span class="p" data-group-id="6715273695-18">[</span><span class="w">
+    </span><span class="p" data-group-id="6715273695-19">[</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6715273695-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6715273695-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.59765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.796875</span><span class="p" data-group-id="6715273695-20">]</span><span class="w">
+  </span><span class="p" data-group-id="6715273695-18">]</span><span class="w">
+</span><span class="p" data-group-id="6715273695-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="hard_silu/2">
@@ -665,20 +665,20 @@ <h1 class="signature" translate="no">hard_silu(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="1091083990-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1091083990-2">(</span><span class="p" data-group-id="1091083990-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1091083990-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1091083990-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1091083990-4">]</span><span class="p" data-group-id="1091083990-2">)</span><span class="p" data-group-id="1091083990-1">)</span><span class="w">
-</span><span class="p" data-group-id="1091083990-5">#</span><span class="nc" data-group-id="1091083990-5">Nx.Tensor</span><span class="p" data-group-id="1091083990-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1091083990-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1091083990-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1091083990-7">[</span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2000000476837158</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4000000953674316</span><span class="p" data-group-id="1091083990-7">]</span><span class="w">
-</span><span class="p" data-group-id="1091083990-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="1091083990-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1091083990-9">(</span><span class="p" data-group-id="1091083990-10">[</span><span class="p" data-group-id="1091083990-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1091083990-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1091083990-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1091083990-12">]</span><span class="p" data-group-id="1091083990-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1091083990-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1091083990-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1091083990-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1091083990-14">]</span><span class="p" data-group-id="1091083990-9">)</span><span class="p" data-group-id="1091083990-8">)</span><span class="w">
-</span><span class="p" data-group-id="1091083990-15">#</span><span class="nc" data-group-id="1091083990-15">Nx.Tensor</span><span class="p" data-group-id="1091083990-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1091083990-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1091083990-16">]</span><span class="p" data-group-id="1091083990-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1091083990-17">]</span><span class="w">
-  </span><span class="p" data-group-id="1091083990-18">[</span><span class="w">
-    </span><span class="p" data-group-id="1091083990-19">[</span><span class="o">-</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p" data-group-id="1091083990-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1091083990-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.390625</span><span class="p" data-group-id="1091083990-20">]</span><span class="w">
-  </span><span class="p" data-group-id="1091083990-18">]</span><span class="w">
-</span><span class="p" data-group-id="1091083990-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="4630962949-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4630962949-2">(</span><span class="p" data-group-id="4630962949-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4630962949-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4630962949-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4630962949-4">]</span><span class="p" data-group-id="4630962949-2">)</span><span class="p" data-group-id="4630962949-1">)</span><span class="w">
+</span><span class="p" data-group-id="4630962949-5">#</span><span class="nc" data-group-id="4630962949-5">Nx.Tensor</span><span class="p" data-group-id="4630962949-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4630962949-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4630962949-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4630962949-7">[</span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2000000476837158</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4000000953674316</span><span class="p" data-group-id="4630962949-7">]</span><span class="w">
+</span><span class="p" data-group-id="4630962949-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="4630962949-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4630962949-9">(</span><span class="p" data-group-id="4630962949-10">[</span><span class="p" data-group-id="4630962949-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4630962949-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4630962949-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4630962949-12">]</span><span class="p" data-group-id="4630962949-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4630962949-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4630962949-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4630962949-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4630962949-14">]</span><span class="p" data-group-id="4630962949-9">)</span><span class="p" data-group-id="4630962949-8">)</span><span class="w">
+</span><span class="p" data-group-id="4630962949-15">#</span><span class="nc" data-group-id="4630962949-15">Nx.Tensor</span><span class="p" data-group-id="4630962949-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="4630962949-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4630962949-16">]</span><span class="p" data-group-id="4630962949-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4630962949-17">]</span><span class="w">
+  </span><span class="p" data-group-id="4630962949-18">[</span><span class="w">
+    </span><span class="p" data-group-id="4630962949-19">[</span><span class="o">-</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p" data-group-id="4630962949-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4630962949-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.390625</span><span class="p" data-group-id="4630962949-20">]</span><span class="w">
+  </span><span class="p" data-group-id="4630962949-18">]</span><span class="w">
+</span><span class="p" data-group-id="4630962949-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="hard_tanh/1">
@@ -706,20 +706,20 @@ <h1 class="signature" translate="no">hard_tanh(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="1783411180-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1783411180-2">(</span><span class="p" data-group-id="1783411180-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1783411180-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1783411180-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1783411180-4">]</span><span class="p" data-group-id="1783411180-2">)</span><span class="p" data-group-id="1783411180-1">)</span><span class="w">
-</span><span class="p" data-group-id="1783411180-5">#</span><span class="nc" data-group-id="1783411180-5">Nx.Tensor</span><span class="p" data-group-id="1783411180-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1783411180-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1783411180-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1783411180-7">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1783411180-7">]</span><span class="w">
-</span><span class="p" data-group-id="1783411180-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="1783411180-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1783411180-9">(</span><span class="p" data-group-id="1783411180-10">[</span><span class="p" data-group-id="1783411180-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1783411180-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1783411180-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1783411180-12">]</span><span class="p" data-group-id="1783411180-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1783411180-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1783411180-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1783411180-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1783411180-14">]</span><span class="p" data-group-id="1783411180-9">)</span><span class="p" data-group-id="1783411180-8">)</span><span class="w">
-</span><span class="p" data-group-id="1783411180-15">#</span><span class="nc" data-group-id="1783411180-15">Nx.Tensor</span><span class="p" data-group-id="1783411180-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1783411180-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1783411180-16">]</span><span class="p" data-group-id="1783411180-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1783411180-17">]</span><span class="w">
-  </span><span class="p" data-group-id="1783411180-18">[</span><span class="w">
-    </span><span class="p" data-group-id="1783411180-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p" data-group-id="1783411180-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1783411180-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1783411180-20">]</span><span class="w">
-  </span><span class="p" data-group-id="1783411180-18">]</span><span class="w">
-</span><span class="p" data-group-id="1783411180-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="2067175150-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2067175150-2">(</span><span class="p" data-group-id="2067175150-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2067175150-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2067175150-4">[</span><span class="ss">:data</span><span class="p" data-group-id="2067175150-4">]</span><span class="p" data-group-id="2067175150-2">)</span><span class="p" data-group-id="2067175150-1">)</span><span class="w">
+</span><span class="p" data-group-id="2067175150-5">#</span><span class="nc" data-group-id="2067175150-5">Nx.Tensor</span><span class="p" data-group-id="2067175150-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2067175150-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="2067175150-6">]</span><span class="w">
+  </span><span class="p" data-group-id="2067175150-7">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2067175150-7">]</span><span class="w">
+</span><span class="p" data-group-id="2067175150-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="2067175150-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2067175150-9">(</span><span class="p" data-group-id="2067175150-10">[</span><span class="p" data-group-id="2067175150-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2067175150-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2067175150-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2067175150-12">]</span><span class="p" data-group-id="2067175150-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2067175150-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2067175150-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2067175150-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2067175150-14">]</span><span class="p" data-group-id="2067175150-9">)</span><span class="p" data-group-id="2067175150-8">)</span><span class="w">
+</span><span class="p" data-group-id="2067175150-15">#</span><span class="nc" data-group-id="2067175150-15">Nx.Tensor</span><span class="p" data-group-id="2067175150-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="2067175150-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2067175150-16">]</span><span class="p" data-group-id="2067175150-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2067175150-17">]</span><span class="w">
+  </span><span class="p" data-group-id="2067175150-18">[</span><span class="w">
+    </span><span class="p" data-group-id="2067175150-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p" data-group-id="2067175150-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2067175150-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2067175150-20">]</span><span class="w">
+  </span><span class="p" data-group-id="2067175150-18">]</span><span class="w">
+</span><span class="p" data-group-id="2067175150-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="leaky_relu/2">
@@ -755,20 +755,20 @@ <h1 class="signature" translate="no">leaky_relu(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="4856329491-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4856329491-2">(</span><span class="p" data-group-id="4856329491-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4856329491-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4856329491-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4856329491-4">]</span><span class="p" data-group-id="4856329491-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="4856329491-1">)</span><span class="w">
-</span><span class="p" data-group-id="4856329491-5">#</span><span class="nc" data-group-id="4856329491-5">Nx.Tensor</span><span class="p" data-group-id="4856329491-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4856329491-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4856329491-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4856329491-7">[</span><span class="o">-</span><span class="mf">1.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4856329491-7">]</span><span class="w">
-</span><span class="p" data-group-id="4856329491-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="4856329491-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4856329491-9">(</span><span class="p" data-group-id="4856329491-10">[</span><span class="p" data-group-id="4856329491-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4856329491-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4856329491-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4856329491-12">]</span><span class="p" data-group-id="4856329491-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4856329491-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4856329491-13">]</span><span class="p" data-group-id="4856329491-9">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="4856329491-8">)</span><span class="w">
-</span><span class="p" data-group-id="4856329491-14">#</span><span class="nc" data-group-id="4856329491-14">Nx.Tensor</span><span class="p" data-group-id="4856329491-14">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4856329491-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4856329491-15">]</span><span class="p" data-group-id="4856329491-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4856329491-16">]</span><span class="w">
-  </span><span class="p" data-group-id="4856329491-17">[</span><span class="w">
-    </span><span class="p" data-group-id="4856329491-18">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5</span><span class="p" data-group-id="4856329491-18">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4856329491-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4856329491-19">]</span><span class="w">
-  </span><span class="p" data-group-id="4856329491-17">]</span><span class="w">
-</span><span class="p" data-group-id="4856329491-14">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="8875991416-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8875991416-2">(</span><span class="p" data-group-id="8875991416-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8875991416-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8875991416-4">[</span><span class="ss">:data</span><span class="p" data-group-id="8875991416-4">]</span><span class="p" data-group-id="8875991416-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="8875991416-1">)</span><span class="w">
+</span><span class="p" data-group-id="8875991416-5">#</span><span class="nc" data-group-id="8875991416-5">Nx.Tensor</span><span class="p" data-group-id="8875991416-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8875991416-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="8875991416-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8875991416-7">[</span><span class="o">-</span><span class="mf">1.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8875991416-7">]</span><span class="w">
+</span><span class="p" data-group-id="8875991416-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="8875991416-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8875991416-9">(</span><span class="p" data-group-id="8875991416-10">[</span><span class="p" data-group-id="8875991416-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8875991416-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8875991416-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8875991416-12">]</span><span class="p" data-group-id="8875991416-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8875991416-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="8875991416-13">]</span><span class="p" data-group-id="8875991416-9">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="8875991416-8">)</span><span class="w">
+</span><span class="p" data-group-id="8875991416-14">#</span><span class="nc" data-group-id="8875991416-14">Nx.Tensor</span><span class="p" data-group-id="8875991416-14">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8875991416-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8875991416-15">]</span><span class="p" data-group-id="8875991416-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8875991416-16">]</span><span class="w">
+  </span><span class="p" data-group-id="8875991416-17">[</span><span class="w">
+    </span><span class="p" data-group-id="8875991416-18">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5</span><span class="p" data-group-id="8875991416-18">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8875991416-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8875991416-19">]</span><span class="w">
+  </span><span class="p" data-group-id="8875991416-17">]</span><span class="w">
+</span><span class="p" data-group-id="8875991416-14">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="linear/1">
@@ -796,20 +796,20 @@ <h1 class="signature" translate="no">linear(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="4331729576-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4331729576-2">(</span><span class="p" data-group-id="4331729576-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4331729576-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4331729576-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4331729576-4">]</span><span class="p" data-group-id="4331729576-2">)</span><span class="p" data-group-id="4331729576-1">)</span><span class="w">
-</span><span class="p" data-group-id="4331729576-5">#</span><span class="nc" data-group-id="4331729576-5">Nx.Tensor</span><span class="p" data-group-id="4331729576-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4331729576-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4331729576-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4331729576-7">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4331729576-7">]</span><span class="w">
-</span><span class="p" data-group-id="4331729576-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="4331729576-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4331729576-9">(</span><span class="p" data-group-id="4331729576-10">[</span><span class="p" data-group-id="4331729576-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4331729576-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4331729576-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4331729576-12">]</span><span class="p" data-group-id="4331729576-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4331729576-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4331729576-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4331729576-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4331729576-14">]</span><span class="p" data-group-id="4331729576-9">)</span><span class="p" data-group-id="4331729576-8">)</span><span class="w">
-</span><span class="p" data-group-id="4331729576-15">#</span><span class="nc" data-group-id="4331729576-15">Nx.Tensor</span><span class="p" data-group-id="4331729576-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="4331729576-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4331729576-16">]</span><span class="p" data-group-id="4331729576-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4331729576-17">]</span><span class="w">
-  </span><span class="p" data-group-id="4331729576-18">[</span><span class="w">
-    </span><span class="p" data-group-id="4331729576-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4331729576-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4331729576-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4331729576-20">]</span><span class="w">
-  </span><span class="p" data-group-id="4331729576-18">]</span><span class="w">
-</span><span class="p" data-group-id="4331729576-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="0215288340-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0215288340-2">(</span><span class="p" data-group-id="0215288340-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0215288340-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0215288340-4">[</span><span class="ss">:data</span><span class="p" data-group-id="0215288340-4">]</span><span class="p" data-group-id="0215288340-2">)</span><span class="p" data-group-id="0215288340-1">)</span><span class="w">
+</span><span class="p" data-group-id="0215288340-5">#</span><span class="nc" data-group-id="0215288340-5">Nx.Tensor</span><span class="p" data-group-id="0215288340-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0215288340-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0215288340-6">]</span><span class="w">
+  </span><span class="p" data-group-id="0215288340-7">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0215288340-7">]</span><span class="w">
+</span><span class="p" data-group-id="0215288340-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="0215288340-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0215288340-9">(</span><span class="p" data-group-id="0215288340-10">[</span><span class="p" data-group-id="0215288340-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0215288340-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0215288340-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0215288340-12">]</span><span class="p" data-group-id="0215288340-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0215288340-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0215288340-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0215288340-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0215288340-14">]</span><span class="p" data-group-id="0215288340-9">)</span><span class="p" data-group-id="0215288340-8">)</span><span class="w">
+</span><span class="p" data-group-id="0215288340-15">#</span><span class="nc" data-group-id="0215288340-15">Nx.Tensor</span><span class="p" data-group-id="0215288340-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="0215288340-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0215288340-16">]</span><span class="p" data-group-id="0215288340-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0215288340-17">]</span><span class="w">
+  </span><span class="p" data-group-id="0215288340-18">[</span><span class="w">
+    </span><span class="p" data-group-id="0215288340-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0215288340-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0215288340-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0215288340-20">]</span><span class="w">
+  </span><span class="p" data-group-id="0215288340-18">]</span><span class="w">
+</span><span class="p" data-group-id="0215288340-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="log_sigmoid/1">
@@ -837,20 +837,20 @@ <h1 class="signature" translate="no">log_sigmoid(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="4351852912-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4351852912-2">(</span><span class="p" data-group-id="4351852912-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4351852912-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4351852912-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4351852912-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4351852912-5">[</span><span class="ss">:data</span><span class="p" data-group-id="4351852912-5">]</span><span class="p" data-group-id="4351852912-2">)</span><span class="p" data-group-id="4351852912-1">)</span><span class="w">
-</span><span class="p" data-group-id="4351852912-6">#</span><span class="nc" data-group-id="4351852912-6">Nx.Tensor</span><span class="p" data-group-id="4351852912-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4351852912-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4351852912-7">]</span><span class="w">
-  </span><span class="p" data-group-id="4351852912-8">[</span><span class="o">-</span><span class="mf">3.0485873222351074</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04858734831213951</span><span class="p" data-group-id="4351852912-8">]</span><span class="w">
-</span><span class="p" data-group-id="4351852912-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="4351852912-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4351852912-10">(</span><span class="p" data-group-id="4351852912-11">[</span><span class="p" data-group-id="4351852912-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4351852912-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4351852912-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4351852912-13">]</span><span class="p" data-group-id="4351852912-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4351852912-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4351852912-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4351852912-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4351852912-15">]</span><span class="p" data-group-id="4351852912-10">)</span><span class="p" data-group-id="4351852912-9">)</span><span class="w">
-</span><span class="p" data-group-id="4351852912-16">#</span><span class="nc" data-group-id="4351852912-16">Nx.Tensor</span><span class="p" data-group-id="4351852912-16">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="4351852912-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4351852912-17">]</span><span class="p" data-group-id="4351852912-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4351852912-18">]</span><span class="w">
-  </span><span class="p" data-group-id="4351852912-19">[</span><span class="w">
-    </span><span class="p" data-group-id="4351852912-20">[</span><span class="o">-</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.046875</span><span class="p" data-group-id="4351852912-20">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4351852912-21">[</span><span class="o">-</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04833984375</span><span class="p" data-group-id="4351852912-21">]</span><span class="w">
-  </span><span class="p" data-group-id="4351852912-19">]</span><span class="w">
-</span><span class="p" data-group-id="4351852912-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="2099663946-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2099663946-2">(</span><span class="p" data-group-id="2099663946-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2099663946-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2099663946-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2099663946-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2099663946-5">[</span><span class="ss">:data</span><span class="p" data-group-id="2099663946-5">]</span><span class="p" data-group-id="2099663946-2">)</span><span class="p" data-group-id="2099663946-1">)</span><span class="w">
+</span><span class="p" data-group-id="2099663946-6">#</span><span class="nc" data-group-id="2099663946-6">Nx.Tensor</span><span class="p" data-group-id="2099663946-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2099663946-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="2099663946-7">]</span><span class="w">
+  </span><span class="p" data-group-id="2099663946-8">[</span><span class="o">-</span><span class="mf">3.0485873222351074</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04858734831213951</span><span class="p" data-group-id="2099663946-8">]</span><span class="w">
+</span><span class="p" data-group-id="2099663946-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="2099663946-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2099663946-10">(</span><span class="p" data-group-id="2099663946-11">[</span><span class="p" data-group-id="2099663946-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2099663946-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2099663946-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2099663946-13">]</span><span class="p" data-group-id="2099663946-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2099663946-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2099663946-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2099663946-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2099663946-15">]</span><span class="p" data-group-id="2099663946-10">)</span><span class="p" data-group-id="2099663946-9">)</span><span class="w">
+</span><span class="p" data-group-id="2099663946-16">#</span><span class="nc" data-group-id="2099663946-16">Nx.Tensor</span><span class="p" data-group-id="2099663946-16">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="2099663946-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2099663946-17">]</span><span class="p" data-group-id="2099663946-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2099663946-18">]</span><span class="w">
+  </span><span class="p" data-group-id="2099663946-19">[</span><span class="w">
+    </span><span class="p" data-group-id="2099663946-20">[</span><span class="o">-</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.046875</span><span class="p" data-group-id="2099663946-20">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2099663946-21">[</span><span class="o">-</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04833984375</span><span class="p" data-group-id="2099663946-21">]</span><span class="w">
+  </span><span class="p" data-group-id="2099663946-19">]</span><span class="w">
+</span><span class="p" data-group-id="2099663946-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="log_softmax/2">
@@ -880,20 +880,20 @@ <h1 class="signature" translate="no">log_softmax(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="7193768366-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7193768366-2">(</span><span class="p" data-group-id="7193768366-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7193768366-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7193768366-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7193768366-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7193768366-5">[</span><span class="ss">:data</span><span class="p" data-group-id="7193768366-5">]</span><span class="p" data-group-id="7193768366-2">)</span><span class="p" data-group-id="7193768366-1">)</span><span class="w">
-</span><span class="p" data-group-id="7193768366-6">#</span><span class="nc" data-group-id="7193768366-6">Nx.Tensor</span><span class="p" data-group-id="7193768366-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7193768366-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="7193768366-7">]</span><span class="w">
-  </span><span class="p" data-group-id="7193768366-8">[</span><span class="o">-</span><span class="mf">6.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4577628374099731</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45776283740997314</span><span class="p" data-group-id="7193768366-8">]</span><span class="w">
-</span><span class="p" data-group-id="7193768366-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="7193768366-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7193768366-10">(</span><span class="p" data-group-id="7193768366-11">[</span><span class="p" data-group-id="7193768366-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="7193768366-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7193768366-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7193768366-13">]</span><span class="p" data-group-id="7193768366-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7193768366-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7193768366-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7193768366-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="7193768366-15">]</span><span class="p" data-group-id="7193768366-10">)</span><span class="p" data-group-id="7193768366-9">)</span><span class="w">
-</span><span class="p" data-group-id="7193768366-16">#</span><span class="nc" data-group-id="7193768366-16">Nx.Tensor</span><span class="p" data-group-id="7193768366-16">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="7193768366-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7193768366-17">]</span><span class="p" data-group-id="7193768366-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7193768366-18">]</span><span class="w">
-  </span><span class="p" data-group-id="7193768366-19">[</span><span class="w">
-    </span><span class="p" data-group-id="7193768366-20">[</span><span class="o">-</span><span class="mf">0.404296875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.390625</span><span class="p" data-group-id="7193768366-20">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7193768366-21">[</span><span class="o">-</span><span class="mf">2.390625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.404296875</span><span class="p" data-group-id="7193768366-21">]</span><span class="w">
-  </span><span class="p" data-group-id="7193768366-19">]</span><span class="w">
-</span><span class="p" data-group-id="7193768366-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="3805093259-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3805093259-2">(</span><span class="p" data-group-id="3805093259-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3805093259-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3805093259-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3805093259-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3805093259-5">[</span><span class="ss">:data</span><span class="p" data-group-id="3805093259-5">]</span><span class="p" data-group-id="3805093259-2">)</span><span class="p" data-group-id="3805093259-1">)</span><span class="w">
+</span><span class="p" data-group-id="3805093259-6">#</span><span class="nc" data-group-id="3805093259-6">Nx.Tensor</span><span class="p" data-group-id="3805093259-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3805093259-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3805093259-7">]</span><span class="w">
+  </span><span class="p" data-group-id="3805093259-8">[</span><span class="o">-</span><span class="mf">6.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4577628374099731</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45776283740997314</span><span class="p" data-group-id="3805093259-8">]</span><span class="w">
+</span><span class="p" data-group-id="3805093259-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="3805093259-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3805093259-10">(</span><span class="p" data-group-id="3805093259-11">[</span><span class="p" data-group-id="3805093259-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3805093259-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3805093259-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3805093259-13">]</span><span class="p" data-group-id="3805093259-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3805093259-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3805093259-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3805093259-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3805093259-15">]</span><span class="p" data-group-id="3805093259-10">)</span><span class="p" data-group-id="3805093259-9">)</span><span class="w">
+</span><span class="p" data-group-id="3805093259-16">#</span><span class="nc" data-group-id="3805093259-16">Nx.Tensor</span><span class="p" data-group-id="3805093259-16">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3805093259-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3805093259-17">]</span><span class="p" data-group-id="3805093259-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3805093259-18">]</span><span class="w">
+  </span><span class="p" data-group-id="3805093259-19">[</span><span class="w">
+    </span><span class="p" data-group-id="3805093259-20">[</span><span class="o">-</span><span class="mf">0.404296875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.390625</span><span class="p" data-group-id="3805093259-20">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3805093259-21">[</span><span class="o">-</span><span class="mf">2.390625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.404296875</span><span class="p" data-group-id="3805093259-21">]</span><span class="w">
+  </span><span class="p" data-group-id="3805093259-19">]</span><span class="w">
+</span><span class="p" data-group-id="3805093259-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="log_sumexp/2">
@@ -923,20 +923,20 @@ <h1 class="signature" translate="no">log_sumexp(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="5085135405-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5085135405-2">(</span><span class="p" data-group-id="5085135405-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5085135405-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5085135405-4">[</span><span class="ss">:data</span><span class="p" data-group-id="5085135405-4">]</span><span class="p" data-group-id="5085135405-2">)</span><span class="p" data-group-id="5085135405-1">)</span><span class="w">
-</span><span class="p" data-group-id="5085135405-5">#</span><span class="nc" data-group-id="5085135405-5">Nx.Tensor</span><span class="p" data-group-id="5085135405-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5085135405-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5085135405-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5085135405-7">[</span><span class="mf">0.45776283740997314</span><span class="p" data-group-id="5085135405-7">]</span><span class="w">
-</span><span class="p" data-group-id="5085135405-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="5085135405-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5085135405-9">(</span><span class="p" data-group-id="5085135405-10">[</span><span class="p" data-group-id="5085135405-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="5085135405-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5085135405-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5085135405-12">]</span><span class="p" data-group-id="5085135405-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5085135405-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5085135405-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5085135405-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5085135405-14">]</span><span class="p" data-group-id="5085135405-9">)</span><span class="p" data-group-id="5085135405-8">)</span><span class="w">
-</span><span class="p" data-group-id="5085135405-15">#</span><span class="nc" data-group-id="5085135405-15">Nx.Tensor</span><span class="p" data-group-id="5085135405-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="5085135405-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5085135405-16">]</span><span class="p" data-group-id="5085135405-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5085135405-17">]</span><span class="w">
-  </span><span class="p" data-group-id="5085135405-18">[</span><span class="w">
-    </span><span class="p" data-group-id="5085135405-19">[</span><span class="mf">0.404296875</span><span class="p" data-group-id="5085135405-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5085135405-20">[</span><span class="mf">0.404296875</span><span class="p" data-group-id="5085135405-20">]</span><span class="w">
-  </span><span class="p" data-group-id="5085135405-18">]</span><span class="w">
-</span><span class="p" data-group-id="5085135405-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="1766318784-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1766318784-2">(</span><span class="p" data-group-id="1766318784-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1766318784-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1766318784-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1766318784-4">]</span><span class="p" data-group-id="1766318784-2">)</span><span class="p" data-group-id="1766318784-1">)</span><span class="w">
+</span><span class="p" data-group-id="1766318784-5">#</span><span class="nc" data-group-id="1766318784-5">Nx.Tensor</span><span class="p" data-group-id="1766318784-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1766318784-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1766318784-6">]</span><span class="w">
+  </span><span class="p" data-group-id="1766318784-7">[</span><span class="mf">0.45776283740997314</span><span class="p" data-group-id="1766318784-7">]</span><span class="w">
+</span><span class="p" data-group-id="1766318784-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="1766318784-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1766318784-9">(</span><span class="p" data-group-id="1766318784-10">[</span><span class="p" data-group-id="1766318784-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1766318784-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1766318784-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1766318784-12">]</span><span class="p" data-group-id="1766318784-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1766318784-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1766318784-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1766318784-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1766318784-14">]</span><span class="p" data-group-id="1766318784-9">)</span><span class="p" data-group-id="1766318784-8">)</span><span class="w">
+</span><span class="p" data-group-id="1766318784-15">#</span><span class="nc" data-group-id="1766318784-15">Nx.Tensor</span><span class="p" data-group-id="1766318784-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="1766318784-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1766318784-16">]</span><span class="p" data-group-id="1766318784-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1766318784-17">]</span><span class="w">
+  </span><span class="p" data-group-id="1766318784-18">[</span><span class="w">
+    </span><span class="p" data-group-id="1766318784-19">[</span><span class="mf">0.404296875</span><span class="p" data-group-id="1766318784-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1766318784-20">[</span><span class="mf">0.404296875</span><span class="p" data-group-id="1766318784-20">]</span><span class="w">
+  </span><span class="p" data-group-id="1766318784-18">]</span><span class="w">
+</span><span class="p" data-group-id="1766318784-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mish/1">
@@ -964,20 +964,20 @@ <h1 class="signature" translate="no">mish(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="1639863690-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1639863690-2">(</span><span class="p" data-group-id="1639863690-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1639863690-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1639863690-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1639863690-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1639863690-5">[</span><span class="ss">:data</span><span class="p" data-group-id="1639863690-5">]</span><span class="p" data-group-id="1639863690-2">)</span><span class="p" data-group-id="1639863690-1">)</span><span class="w">
-</span><span class="p" data-group-id="1639863690-6">#</span><span class="nc" data-group-id="1639863690-6">Nx.Tensor</span><span class="p" data-group-id="1639863690-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1639863690-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1639863690-7">]</span><span class="w">
-  </span><span class="p" data-group-id="1639863690-8">[</span><span class="o">-</span><span class="mf">0.14564745128154755</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2525014877319336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30340147018432617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8650984168052673</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9439589977264404</span><span class="p">,</span><span class="w"> </span><span class="mf">2.98653507232666</span><span class="p" data-group-id="1639863690-8">]</span><span class="w">
-</span><span class="p" data-group-id="1639863690-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="1639863690-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1639863690-10">(</span><span class="p" data-group-id="1639863690-11">[</span><span class="p" data-group-id="1639863690-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1639863690-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1639863690-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1639863690-13">]</span><span class="p" data-group-id="1639863690-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1639863690-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1639863690-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1639863690-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1639863690-15">]</span><span class="p" data-group-id="1639863690-10">)</span><span class="p" data-group-id="1639863690-9">)</span><span class="w">
-</span><span class="p" data-group-id="1639863690-16">#</span><span class="nc" data-group-id="1639863690-16">Nx.Tensor</span><span class="p" data-group-id="1639863690-16">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1639863690-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1639863690-17">]</span><span class="p" data-group-id="1639863690-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1639863690-18">]</span><span class="w">
-  </span><span class="p" data-group-id="1639863690-19">[</span><span class="w">
-    </span><span class="p" data-group-id="1639863690-20">[</span><span class="o">-</span><span class="mf">0.30078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1435546875</span><span class="p" data-group-id="1639863690-20">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1639863690-21">[</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9375</span><span class="p">,</span><span class="w"> </span><span class="mf">2.96875</span><span class="p" data-group-id="1639863690-21">]</span><span class="w">
-  </span><span class="p" data-group-id="1639863690-19">]</span><span class="w">
-</span><span class="p" data-group-id="1639863690-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="3850122477-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3850122477-2">(</span><span class="p" data-group-id="3850122477-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3850122477-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3850122477-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3850122477-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3850122477-5">[</span><span class="ss">:data</span><span class="p" data-group-id="3850122477-5">]</span><span class="p" data-group-id="3850122477-2">)</span><span class="p" data-group-id="3850122477-1">)</span><span class="w">
+</span><span class="p" data-group-id="3850122477-6">#</span><span class="nc" data-group-id="3850122477-6">Nx.Tensor</span><span class="p" data-group-id="3850122477-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3850122477-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3850122477-7">]</span><span class="w">
+  </span><span class="p" data-group-id="3850122477-8">[</span><span class="o">-</span><span class="mf">0.14564745128154755</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2525014877319336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30340147018432617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8650984168052673</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9439589977264404</span><span class="p">,</span><span class="w"> </span><span class="mf">2.98653507232666</span><span class="p" data-group-id="3850122477-8">]</span><span class="w">
+</span><span class="p" data-group-id="3850122477-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="3850122477-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3850122477-10">(</span><span class="p" data-group-id="3850122477-11">[</span><span class="p" data-group-id="3850122477-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3850122477-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3850122477-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3850122477-13">]</span><span class="p" data-group-id="3850122477-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3850122477-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3850122477-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3850122477-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3850122477-15">]</span><span class="p" data-group-id="3850122477-10">)</span><span class="p" data-group-id="3850122477-9">)</span><span class="w">
+</span><span class="p" data-group-id="3850122477-16">#</span><span class="nc" data-group-id="3850122477-16">Nx.Tensor</span><span class="p" data-group-id="3850122477-16">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3850122477-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3850122477-17">]</span><span class="p" data-group-id="3850122477-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3850122477-18">]</span><span class="w">
+  </span><span class="p" data-group-id="3850122477-19">[</span><span class="w">
+    </span><span class="p" data-group-id="3850122477-20">[</span><span class="o">-</span><span class="mf">0.30078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1435546875</span><span class="p" data-group-id="3850122477-20">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3850122477-21">[</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9375</span><span class="p">,</span><span class="w"> </span><span class="mf">2.96875</span><span class="p" data-group-id="3850122477-21">]</span><span class="w">
+  </span><span class="p" data-group-id="3850122477-19">]</span><span class="w">
+</span><span class="p" data-group-id="3850122477-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="relu6/1">
@@ -1005,20 +1005,20 @@ <h1 class="signature" translate="no">relu6(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="3753461218-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3753461218-2">(</span><span class="p" data-group-id="3753461218-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3753461218-3">]</span><span class="p" data-group-id="3753461218-2">)</span><span class="p" data-group-id="3753461218-1">)</span><span class="w">
-</span><span class="p" data-group-id="3753461218-4">#</span><span class="nc" data-group-id="3753461218-4">Nx.Tensor</span><span class="p" data-group-id="3753461218-4">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3753461218-5">[</span><span class="mi">7</span><span class="p" data-group-id="3753461218-5">]</span><span class="w">
-  </span><span class="p" data-group-id="3753461218-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3753461218-6">]</span><span class="w">
-</span><span class="p" data-group-id="3753461218-4">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="3753461218-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3753461218-8">(</span><span class="p" data-group-id="3753461218-9">[</span><span class="p" data-group-id="3753461218-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3753461218-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3753461218-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3753461218-11">]</span><span class="p" data-group-id="3753461218-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3753461218-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3753461218-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3753461218-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3753461218-13">]</span><span class="p" data-group-id="3753461218-8">)</span><span class="p" data-group-id="3753461218-7">)</span><span class="w">
-</span><span class="p" data-group-id="3753461218-14">#</span><span class="nc" data-group-id="3753461218-14">Nx.Tensor</span><span class="p" data-group-id="3753461218-14">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="3753461218-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3753461218-15">]</span><span class="p" data-group-id="3753461218-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3753461218-16">]</span><span class="w">
-  </span><span class="p" data-group-id="3753461218-17">[</span><span class="w">
-    </span><span class="p" data-group-id="3753461218-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3753461218-18">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3753461218-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3753461218-19">]</span><span class="w">
-  </span><span class="p" data-group-id="3753461218-17">]</span><span class="w">
-</span><span class="p" data-group-id="3753461218-14">&gt;</span></code></pre><h2 id="relu6/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="6159210870-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6159210870-2">(</span><span class="p" data-group-id="6159210870-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6159210870-3">]</span><span class="p" data-group-id="6159210870-2">)</span><span class="p" data-group-id="6159210870-1">)</span><span class="w">
+</span><span class="p" data-group-id="6159210870-4">#</span><span class="nc" data-group-id="6159210870-4">Nx.Tensor</span><span class="p" data-group-id="6159210870-4">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6159210870-5">[</span><span class="mi">7</span><span class="p" data-group-id="6159210870-5">]</span><span class="w">
+  </span><span class="p" data-group-id="6159210870-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6159210870-6">]</span><span class="w">
+</span><span class="p" data-group-id="6159210870-4">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="6159210870-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6159210870-8">(</span><span class="p" data-group-id="6159210870-9">[</span><span class="p" data-group-id="6159210870-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6159210870-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6159210870-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6159210870-11">]</span><span class="p" data-group-id="6159210870-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6159210870-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6159210870-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6159210870-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6159210870-13">]</span><span class="p" data-group-id="6159210870-8">)</span><span class="p" data-group-id="6159210870-7">)</span><span class="w">
+</span><span class="p" data-group-id="6159210870-14">#</span><span class="nc" data-group-id="6159210870-14">Nx.Tensor</span><span class="p" data-group-id="6159210870-14">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="6159210870-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6159210870-15">]</span><span class="p" data-group-id="6159210870-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6159210870-16">]</span><span class="w">
+  </span><span class="p" data-group-id="6159210870-17">[</span><span class="w">
+    </span><span class="p" data-group-id="6159210870-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6159210870-18">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6159210870-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6159210870-19">]</span><span class="w">
+  </span><span class="p" data-group-id="6159210870-17">]</span><span class="w">
+</span><span class="p" data-group-id="6159210870-14">&gt;</span></code></pre><h2 id="relu6/1-references" class="section-heading">
   <a href="#relu6/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -1052,20 +1052,20 @@ <h1 class="signature" translate="no">relu(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3702695835-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3702695835-2">(</span><span class="p" data-group-id="3702695835-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3702695835-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3702695835-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3702695835-4">]</span><span class="p" data-group-id="3702695835-2">)</span><span class="p" data-group-id="3702695835-1">)</span><span class="w">
-</span><span class="p" data-group-id="3702695835-5">#</span><span class="nc" data-group-id="3702695835-5">Nx.Tensor</span><span class="p" data-group-id="3702695835-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3702695835-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3702695835-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3702695835-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3702695835-7">]</span><span class="w">
-</span><span class="p" data-group-id="3702695835-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3702695835-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3702695835-9">(</span><span class="p" data-group-id="3702695835-10">[</span><span class="p" data-group-id="3702695835-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3702695835-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3702695835-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3702695835-12">]</span><span class="p" data-group-id="3702695835-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3702695835-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3702695835-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3702695835-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3702695835-14">]</span><span class="p" data-group-id="3702695835-9">)</span><span class="p" data-group-id="3702695835-8">)</span><span class="w">
-</span><span class="p" data-group-id="3702695835-15">#</span><span class="nc" data-group-id="3702695835-15">Nx.Tensor</span><span class="p" data-group-id="3702695835-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="3702695835-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3702695835-16">]</span><span class="p" data-group-id="3702695835-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3702695835-17">]</span><span class="w">
-  </span><span class="p" data-group-id="3702695835-18">[</span><span class="w">
-    </span><span class="p" data-group-id="3702695835-19">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3702695835-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3702695835-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3702695835-20">]</span><span class="w">
-  </span><span class="p" data-group-id="3702695835-18">]</span><span class="w">
-</span><span class="p" data-group-id="3702695835-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8869242734-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8869242734-2">(</span><span class="p" data-group-id="8869242734-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8869242734-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8869242734-4">[</span><span class="ss">:data</span><span class="p" data-group-id="8869242734-4">]</span><span class="p" data-group-id="8869242734-2">)</span><span class="p" data-group-id="8869242734-1">)</span><span class="w">
+</span><span class="p" data-group-id="8869242734-5">#</span><span class="nc" data-group-id="8869242734-5">Nx.Tensor</span><span class="p" data-group-id="8869242734-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8869242734-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="8869242734-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8869242734-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8869242734-7">]</span><span class="w">
+</span><span class="p" data-group-id="8869242734-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8869242734-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8869242734-9">(</span><span class="p" data-group-id="8869242734-10">[</span><span class="p" data-group-id="8869242734-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8869242734-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8869242734-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8869242734-12">]</span><span class="p" data-group-id="8869242734-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8869242734-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8869242734-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8869242734-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="8869242734-14">]</span><span class="p" data-group-id="8869242734-9">)</span><span class="p" data-group-id="8869242734-8">)</span><span class="w">
+</span><span class="p" data-group-id="8869242734-15">#</span><span class="nc" data-group-id="8869242734-15">Nx.Tensor</span><span class="p" data-group-id="8869242734-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="8869242734-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8869242734-16">]</span><span class="p" data-group-id="8869242734-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8869242734-17">]</span><span class="w">
+  </span><span class="p" data-group-id="8869242734-18">[</span><span class="w">
+    </span><span class="p" data-group-id="8869242734-19">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8869242734-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8869242734-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8869242734-20">]</span><span class="w">
+  </span><span class="p" data-group-id="8869242734-18">]</span><span class="w">
+</span><span class="p" data-group-id="8869242734-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="selu/2">
@@ -1097,20 +1097,20 @@ <h1 class="signature" translate="no">selu(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="5836547759-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5836547759-2">(</span><span class="p" data-group-id="5836547759-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5836547759-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5836547759-4">[</span><span class="ss">:data</span><span class="p" data-group-id="5836547759-4">]</span><span class="p" data-group-id="5836547759-2">)</span><span class="p" data-group-id="5836547759-1">)</span><span class="w">
-</span><span class="p" data-group-id="5836547759-5">#</span><span class="nc" data-group-id="5836547759-5">Nx.Tensor</span><span class="p" data-group-id="5836547759-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5836547759-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="5836547759-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5836547759-7">[</span><span class="o">-</span><span class="mf">1.670568823814392</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5201665163040161</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.1113307476043701</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0507010221481323</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1014020442962646</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1521029472351074</span><span class="p" data-group-id="5836547759-7">]</span><span class="w">
-</span><span class="p" data-group-id="5836547759-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="5836547759-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5836547759-9">(</span><span class="p" data-group-id="5836547759-10">[</span><span class="p" data-group-id="5836547759-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="5836547759-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5836547759-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5836547759-12">]</span><span class="p" data-group-id="5836547759-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5836547759-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5836547759-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5836547759-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5836547759-14">]</span><span class="p" data-group-id="5836547759-9">)</span><span class="p" data-group-id="5836547759-8">)</span><span class="w">
-</span><span class="p" data-group-id="5836547759-15">#</span><span class="nc" data-group-id="5836547759-15">Nx.Tensor</span><span class="p" data-group-id="5836547759-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="5836547759-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5836547759-16">]</span><span class="p" data-group-id="5836547759-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5836547759-17">]</span><span class="w">
-  </span><span class="p" data-group-id="5836547759-18">[</span><span class="w">
-    </span><span class="p" data-group-id="5836547759-19">[</span><span class="o">-</span><span class="mf">1.09375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6640625</span><span class="p" data-group-id="5836547759-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5836547759-20">[</span><span class="mf">1.046875</span><span class="p">,</span><span class="w"> </span><span class="mf">2.09375</span><span class="p">,</span><span class="w"> </span><span class="mf">3.140625</span><span class="p" data-group-id="5836547759-20">]</span><span class="w">
-  </span><span class="p" data-group-id="5836547759-18">]</span><span class="w">
-</span><span class="p" data-group-id="5836547759-15">&gt;</span></code></pre><h2 id="selu/2-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="1254962429-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1254962429-2">(</span><span class="p" data-group-id="1254962429-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1254962429-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1254962429-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1254962429-4">]</span><span class="p" data-group-id="1254962429-2">)</span><span class="p" data-group-id="1254962429-1">)</span><span class="w">
+</span><span class="p" data-group-id="1254962429-5">#</span><span class="nc" data-group-id="1254962429-5">Nx.Tensor</span><span class="p" data-group-id="1254962429-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1254962429-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1254962429-6">]</span><span class="w">
+  </span><span class="p" data-group-id="1254962429-7">[</span><span class="o">-</span><span class="mf">1.670568823814392</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5201665163040161</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.1113307476043701</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0507010221481323</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1014020442962646</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1521029472351074</span><span class="p" data-group-id="1254962429-7">]</span><span class="w">
+</span><span class="p" data-group-id="1254962429-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="1254962429-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1254962429-9">(</span><span class="p" data-group-id="1254962429-10">[</span><span class="p" data-group-id="1254962429-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1254962429-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1254962429-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1254962429-12">]</span><span class="p" data-group-id="1254962429-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1254962429-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1254962429-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1254962429-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1254962429-14">]</span><span class="p" data-group-id="1254962429-9">)</span><span class="p" data-group-id="1254962429-8">)</span><span class="w">
+</span><span class="p" data-group-id="1254962429-15">#</span><span class="nc" data-group-id="1254962429-15">Nx.Tensor</span><span class="p" data-group-id="1254962429-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="1254962429-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1254962429-16">]</span><span class="p" data-group-id="1254962429-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1254962429-17">]</span><span class="w">
+  </span><span class="p" data-group-id="1254962429-18">[</span><span class="w">
+    </span><span class="p" data-group-id="1254962429-19">[</span><span class="o">-</span><span class="mf">1.09375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6640625</span><span class="p" data-group-id="1254962429-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1254962429-20">[</span><span class="mf">1.046875</span><span class="p">,</span><span class="w"> </span><span class="mf">2.09375</span><span class="p">,</span><span class="w"> </span><span class="mf">3.140625</span><span class="p" data-group-id="1254962429-20">]</span><span class="w">
+  </span><span class="p" data-group-id="1254962429-18">]</span><span class="w">
+</span><span class="p" data-group-id="1254962429-15">&gt;</span></code></pre><h2 id="selu/2-references" class="section-heading">
   <a href="#selu/2-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -1147,20 +1147,20 @@ <h1 class="signature" translate="no">sigmoid(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="4035515551-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4035515551-2">(</span><span class="p" data-group-id="4035515551-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4035515551-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4035515551-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4035515551-4">]</span><span class="p" data-group-id="4035515551-2">)</span><span class="p" data-group-id="4035515551-1">)</span><span class="w">
-</span><span class="p" data-group-id="4035515551-5">#</span><span class="nc" data-group-id="4035515551-5">Nx.Tensor</span><span class="p" data-group-id="4035515551-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4035515551-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4035515551-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4035515551-7">[</span><span class="mf">0.04742587357759476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11920291930437088</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8807970881462097</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9525741338729858</span><span class="p" data-group-id="4035515551-7">]</span><span class="w">
-</span><span class="p" data-group-id="4035515551-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="4035515551-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4035515551-9">(</span><span class="p" data-group-id="4035515551-10">[</span><span class="p" data-group-id="4035515551-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4035515551-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4035515551-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4035515551-12">]</span><span class="p" data-group-id="4035515551-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4035515551-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4035515551-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4035515551-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4035515551-14">]</span><span class="p" data-group-id="4035515551-9">)</span><span class="p" data-group-id="4035515551-8">)</span><span class="w">
-</span><span class="p" data-group-id="4035515551-15">#</span><span class="nc" data-group-id="4035515551-15">Nx.Tensor</span><span class="p" data-group-id="4035515551-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="4035515551-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4035515551-16">]</span><span class="p" data-group-id="4035515551-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4035515551-17">]</span><span class="w">
-  </span><span class="p" data-group-id="4035515551-18">[</span><span class="w">
-    </span><span class="p" data-group-id="4035515551-19">[</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.119140625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04736328125</span><span class="p" data-group-id="4035515551-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4035515551-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.87890625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.94921875</span><span class="p" data-group-id="4035515551-20">]</span><span class="w">
-  </span><span class="p" data-group-id="4035515551-18">]</span><span class="w">
-</span><span class="p" data-group-id="4035515551-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="6204363731-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6204363731-2">(</span><span class="p" data-group-id="6204363731-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6204363731-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6204363731-4">[</span><span class="ss">:data</span><span class="p" data-group-id="6204363731-4">]</span><span class="p" data-group-id="6204363731-2">)</span><span class="p" data-group-id="6204363731-1">)</span><span class="w">
+</span><span class="p" data-group-id="6204363731-5">#</span><span class="nc" data-group-id="6204363731-5">Nx.Tensor</span><span class="p" data-group-id="6204363731-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6204363731-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="6204363731-6">]</span><span class="w">
+  </span><span class="p" data-group-id="6204363731-7">[</span><span class="mf">0.04742587357759476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11920291930437088</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8807970881462097</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9525741338729858</span><span class="p" data-group-id="6204363731-7">]</span><span class="w">
+</span><span class="p" data-group-id="6204363731-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="6204363731-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6204363731-9">(</span><span class="p" data-group-id="6204363731-10">[</span><span class="p" data-group-id="6204363731-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6204363731-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6204363731-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6204363731-12">]</span><span class="p" data-group-id="6204363731-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6204363731-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6204363731-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6204363731-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6204363731-14">]</span><span class="p" data-group-id="6204363731-9">)</span><span class="p" data-group-id="6204363731-8">)</span><span class="w">
+</span><span class="p" data-group-id="6204363731-15">#</span><span class="nc" data-group-id="6204363731-15">Nx.Tensor</span><span class="p" data-group-id="6204363731-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="6204363731-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6204363731-16">]</span><span class="p" data-group-id="6204363731-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6204363731-17">]</span><span class="w">
+  </span><span class="p" data-group-id="6204363731-18">[</span><span class="w">
+    </span><span class="p" data-group-id="6204363731-19">[</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.119140625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04736328125</span><span class="p" data-group-id="6204363731-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6204363731-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.87890625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.94921875</span><span class="p" data-group-id="6204363731-20">]</span><span class="w">
+  </span><span class="p" data-group-id="6204363731-18">]</span><span class="w">
+</span><span class="p" data-group-id="6204363731-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="silu/1">
@@ -1188,20 +1188,20 @@ <h1 class="signature" translate="no">silu(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="7924009838-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7924009838-2">(</span><span class="p" data-group-id="7924009838-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7924009838-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7924009838-4">[</span><span class="ss">:data</span><span class="p" data-group-id="7924009838-4">]</span><span class="p" data-group-id="7924009838-2">)</span><span class="p" data-group-id="7924009838-1">)</span><span class="w">
-</span><span class="p" data-group-id="7924009838-5">#</span><span class="nc" data-group-id="7924009838-5">Nx.Tensor</span><span class="p" data-group-id="7924009838-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7924009838-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="7924009838-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7924009838-7">[</span><span class="o">-</span><span class="mf">0.14227762818336487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23840583860874176</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">2.857722282409668</span><span class="p" data-group-id="7924009838-7">]</span><span class="w">
-</span><span class="p" data-group-id="7924009838-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="7924009838-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7924009838-9">(</span><span class="p" data-group-id="7924009838-10">[</span><span class="p" data-group-id="7924009838-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="7924009838-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7924009838-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7924009838-12">]</span><span class="p" data-group-id="7924009838-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7924009838-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7924009838-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7924009838-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="7924009838-14">]</span><span class="p" data-group-id="7924009838-9">)</span><span class="p" data-group-id="7924009838-8">)</span><span class="w">
-</span><span class="p" data-group-id="7924009838-15">#</span><span class="nc" data-group-id="7924009838-15">Nx.Tensor</span><span class="p" data-group-id="7924009838-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="7924009838-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7924009838-16">]</span><span class="p" data-group-id="7924009838-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7924009838-17">]</span><span class="w">
-  </span><span class="p" data-group-id="7924009838-18">[</span><span class="w">
-    </span><span class="p" data-group-id="7924009838-19">[</span><span class="o">-</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23828125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1416015625</span><span class="p" data-group-id="7924009838-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7924009838-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.84375</span><span class="p" data-group-id="7924009838-20">]</span><span class="w">
-  </span><span class="p" data-group-id="7924009838-18">]</span><span class="w">
-</span><span class="p" data-group-id="7924009838-15">&gt;</span></code></pre><h2 id="silu/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="9642355236-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9642355236-2">(</span><span class="p" data-group-id="9642355236-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="9642355236-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9642355236-4">[</span><span class="ss">:data</span><span class="p" data-group-id="9642355236-4">]</span><span class="p" data-group-id="9642355236-2">)</span><span class="p" data-group-id="9642355236-1">)</span><span class="w">
+</span><span class="p" data-group-id="9642355236-5">#</span><span class="nc" data-group-id="9642355236-5">Nx.Tensor</span><span class="p" data-group-id="9642355236-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9642355236-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="9642355236-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9642355236-7">[</span><span class="o">-</span><span class="mf">0.14227762818336487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23840583860874176</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">2.857722282409668</span><span class="p" data-group-id="9642355236-7">]</span><span class="w">
+</span><span class="p" data-group-id="9642355236-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="9642355236-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9642355236-9">(</span><span class="p" data-group-id="9642355236-10">[</span><span class="p" data-group-id="9642355236-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="9642355236-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9642355236-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="9642355236-12">]</span><span class="p" data-group-id="9642355236-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9642355236-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9642355236-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9642355236-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="9642355236-14">]</span><span class="p" data-group-id="9642355236-9">)</span><span class="p" data-group-id="9642355236-8">)</span><span class="w">
+</span><span class="p" data-group-id="9642355236-15">#</span><span class="nc" data-group-id="9642355236-15">Nx.Tensor</span><span class="p" data-group-id="9642355236-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="9642355236-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9642355236-16">]</span><span class="p" data-group-id="9642355236-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9642355236-17">]</span><span class="w">
+  </span><span class="p" data-group-id="9642355236-18">[</span><span class="w">
+    </span><span class="p" data-group-id="9642355236-19">[</span><span class="o">-</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23828125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1416015625</span><span class="p" data-group-id="9642355236-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9642355236-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.84375</span><span class="p" data-group-id="9642355236-20">]</span><span class="w">
+  </span><span class="p" data-group-id="9642355236-18">]</span><span class="w">
+</span><span class="p" data-group-id="9642355236-15">&gt;</span></code></pre><h2 id="silu/1-references" class="section-heading">
   <a href="#silu/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -1247,22 +1247,22 @@ <h1 class="signature" translate="no">softmax(x, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="2558909301-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2558909301-2">(</span><span class="p" data-group-id="2558909301-3">[</span><span class="p" data-group-id="2558909301-4">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2558909301-4">]</span><span class="p" data-group-id="2558909301-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2558909301-5">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2558909301-5">]</span><span class="p" data-group-id="2558909301-2">)</span><span class="p" data-group-id="2558909301-1">)</span><span class="w">
-</span><span class="p" data-group-id="2558909301-6">#</span><span class="nc" data-group-id="2558909301-6">Nx.Tensor</span><span class="p" data-group-id="2558909301-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2558909301-7">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2558909301-7">]</span><span class="p" data-group-id="2558909301-8">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="2558909301-8">]</span><span class="w">
-  </span><span class="p" data-group-id="2558909301-9">[</span><span class="w">
-    </span><span class="p" data-group-id="2558909301-10">[</span><span class="mf">0.0015683004166930914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004263082519173622</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011588259600102901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03150015324354172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08562629669904709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23275642096996307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6326975226402283</span><span class="p" data-group-id="2558909301-10">]</span><span class="w">
-  </span><span class="p" data-group-id="2558909301-9">]</span><span class="w">
-</span><span class="p" data-group-id="2558909301-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="2558909301-11">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2558909301-12">(</span><span class="p" data-group-id="2558909301-13">[</span><span class="p" data-group-id="2558909301-14">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2558909301-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2558909301-15">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2558909301-15">]</span><span class="p" data-group-id="2558909301-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2558909301-16">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2558909301-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2558909301-17">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2558909301-17">]</span><span class="p" data-group-id="2558909301-12">)</span><span class="p" data-group-id="2558909301-11">)</span><span class="w">
-</span><span class="p" data-group-id="2558909301-18">#</span><span class="nc" data-group-id="2558909301-18">Nx.Tensor</span><span class="p" data-group-id="2558909301-18">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="2558909301-19">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2558909301-19">]</span><span class="p" data-group-id="2558909301-20">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2558909301-20">]</span><span class="w">
-  </span><span class="p" data-group-id="2558909301-21">[</span><span class="w">
-    </span><span class="p" data-group-id="2558909301-22">[</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08935546875</span><span class="p" data-group-id="2558909301-22">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2558909301-23">[</span><span class="mf">0.08935546875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p" data-group-id="2558909301-23">]</span><span class="w">
-  </span><span class="p" data-group-id="2558909301-21">]</span><span class="w">
-</span><span class="p" data-group-id="2558909301-18">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="5077901593-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5077901593-2">(</span><span class="p" data-group-id="5077901593-3">[</span><span class="p" data-group-id="5077901593-4">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5077901593-4">]</span><span class="p" data-group-id="5077901593-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5077901593-5">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5077901593-5">]</span><span class="p" data-group-id="5077901593-2">)</span><span class="p" data-group-id="5077901593-1">)</span><span class="w">
+</span><span class="p" data-group-id="5077901593-6">#</span><span class="nc" data-group-id="5077901593-6">Nx.Tensor</span><span class="p" data-group-id="5077901593-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5077901593-7">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5077901593-7">]</span><span class="p" data-group-id="5077901593-8">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="5077901593-8">]</span><span class="w">
+  </span><span class="p" data-group-id="5077901593-9">[</span><span class="w">
+    </span><span class="p" data-group-id="5077901593-10">[</span><span class="mf">0.0015683004166930914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004263082519173622</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011588259600102901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03150015324354172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08562629669904709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23275642096996307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6326975226402283</span><span class="p" data-group-id="5077901593-10">]</span><span class="w">
+  </span><span class="p" data-group-id="5077901593-9">]</span><span class="w">
+</span><span class="p" data-group-id="5077901593-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="5077901593-11">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5077901593-12">(</span><span class="p" data-group-id="5077901593-13">[</span><span class="p" data-group-id="5077901593-14">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="5077901593-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5077901593-15">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5077901593-15">]</span><span class="p" data-group-id="5077901593-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5077901593-16">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5077901593-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5077901593-17">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5077901593-17">]</span><span class="p" data-group-id="5077901593-12">)</span><span class="p" data-group-id="5077901593-11">)</span><span class="w">
+</span><span class="p" data-group-id="5077901593-18">#</span><span class="nc" data-group-id="5077901593-18">Nx.Tensor</span><span class="p" data-group-id="5077901593-18">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="5077901593-19">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5077901593-19">]</span><span class="p" data-group-id="5077901593-20">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5077901593-20">]</span><span class="w">
+  </span><span class="p" data-group-id="5077901593-21">[</span><span class="w">
+    </span><span class="p" data-group-id="5077901593-22">[</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08935546875</span><span class="p" data-group-id="5077901593-22">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5077901593-23">[</span><span class="mf">0.08935546875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p" data-group-id="5077901593-23">]</span><span class="w">
+  </span><span class="p" data-group-id="5077901593-21">]</span><span class="w">
+</span><span class="p" data-group-id="5077901593-18">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="softplus/1">
@@ -1290,20 +1290,20 @@ <h1 class="signature" translate="no">softplus(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="5471042411-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5471042411-2">(</span><span class="p" data-group-id="5471042411-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5471042411-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5471042411-4">[</span><span class="ss">:data</span><span class="p" data-group-id="5471042411-4">]</span><span class="p" data-group-id="5471042411-2">)</span><span class="p" data-group-id="5471042411-1">)</span><span class="w">
-</span><span class="p" data-group-id="5471042411-5">#</span><span class="nc" data-group-id="5471042411-5">Nx.Tensor</span><span class="p" data-group-id="5471042411-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5471042411-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="5471042411-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5471042411-7">[</span><span class="mf">0.04858734831213951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0485873222351074</span><span class="p" data-group-id="5471042411-7">]</span><span class="w">
-</span><span class="p" data-group-id="5471042411-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="5471042411-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5471042411-9">(</span><span class="p" data-group-id="5471042411-10">[</span><span class="p" data-group-id="5471042411-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="5471042411-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5471042411-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5471042411-12">]</span><span class="p" data-group-id="5471042411-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5471042411-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5471042411-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5471042411-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5471042411-14">]</span><span class="p" data-group-id="5471042411-9">)</span><span class="p" data-group-id="5471042411-8">)</span><span class="w">
-</span><span class="p" data-group-id="5471042411-15">#</span><span class="nc" data-group-id="5471042411-15">Nx.Tensor</span><span class="p" data-group-id="5471042411-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="5471042411-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5471042411-16">]</span><span class="p" data-group-id="5471042411-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5471042411-17">]</span><span class="w">
-  </span><span class="p" data-group-id="5471042411-18">[</span><span class="w">
-    </span><span class="p" data-group-id="5471042411-19">[</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04833984375</span><span class="p" data-group-id="5471042411-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5471042411-20">[</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="mf">3.046875</span><span class="p" data-group-id="5471042411-20">]</span><span class="w">
-  </span><span class="p" data-group-id="5471042411-18">]</span><span class="w">
-</span><span class="p" data-group-id="5471042411-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="3734049064-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3734049064-2">(</span><span class="p" data-group-id="3734049064-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3734049064-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3734049064-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3734049064-4">]</span><span class="p" data-group-id="3734049064-2">)</span><span class="p" data-group-id="3734049064-1">)</span><span class="w">
+</span><span class="p" data-group-id="3734049064-5">#</span><span class="nc" data-group-id="3734049064-5">Nx.Tensor</span><span class="p" data-group-id="3734049064-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3734049064-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3734049064-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3734049064-7">[</span><span class="mf">0.04858734831213951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0485873222351074</span><span class="p" data-group-id="3734049064-7">]</span><span class="w">
+</span><span class="p" data-group-id="3734049064-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="3734049064-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3734049064-9">(</span><span class="p" data-group-id="3734049064-10">[</span><span class="p" data-group-id="3734049064-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3734049064-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3734049064-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3734049064-12">]</span><span class="p" data-group-id="3734049064-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3734049064-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3734049064-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3734049064-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3734049064-14">]</span><span class="p" data-group-id="3734049064-9">)</span><span class="p" data-group-id="3734049064-8">)</span><span class="w">
+</span><span class="p" data-group-id="3734049064-15">#</span><span class="nc" data-group-id="3734049064-15">Nx.Tensor</span><span class="p" data-group-id="3734049064-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3734049064-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3734049064-16">]</span><span class="p" data-group-id="3734049064-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3734049064-17">]</span><span class="w">
+  </span><span class="p" data-group-id="3734049064-18">[</span><span class="w">
+    </span><span class="p" data-group-id="3734049064-19">[</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04833984375</span><span class="p" data-group-id="3734049064-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3734049064-20">[</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="mf">3.046875</span><span class="p" data-group-id="3734049064-20">]</span><span class="w">
+  </span><span class="p" data-group-id="3734049064-18">]</span><span class="w">
+</span><span class="p" data-group-id="3734049064-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="softsign/1">
@@ -1331,20 +1331,20 @@ <h1 class="signature" translate="no">softsign(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="3397715416-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3397715416-2">(</span><span class="p" data-group-id="3397715416-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3397715416-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3397715416-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3397715416-4">]</span><span class="p" data-group-id="3397715416-2">)</span><span class="p" data-group-id="3397715416-1">)</span><span class="w">
-</span><span class="p" data-group-id="3397715416-5">#</span><span class="nc" data-group-id="3397715416-5">Nx.Tensor</span><span class="p" data-group-id="3397715416-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3397715416-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3397715416-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3397715416-7">[</span><span class="o">-</span><span class="mf">0.75</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="3397715416-7">]</span><span class="w">
-</span><span class="p" data-group-id="3397715416-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="3397715416-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3397715416-9">(</span><span class="p" data-group-id="3397715416-10">[</span><span class="p" data-group-id="3397715416-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3397715416-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3397715416-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3397715416-12">]</span><span class="p" data-group-id="3397715416-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3397715416-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3397715416-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3397715416-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3397715416-14">]</span><span class="p" data-group-id="3397715416-9">)</span><span class="p" data-group-id="3397715416-8">)</span><span class="w">
-</span><span class="p" data-group-id="3397715416-15">#</span><span class="nc" data-group-id="3397715416-15">Nx.Tensor</span><span class="p" data-group-id="3397715416-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="3397715416-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3397715416-16">]</span><span class="p" data-group-id="3397715416-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3397715416-17">]</span><span class="w">
-  </span><span class="p" data-group-id="3397715416-18">[</span><span class="w">
-    </span><span class="p" data-group-id="3397715416-19">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.75</span><span class="p" data-group-id="3397715416-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3397715416-20">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="3397715416-20">]</span><span class="w">
-  </span><span class="p" data-group-id="3397715416-18">]</span><span class="w">
-</span><span class="p" data-group-id="3397715416-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="3701152541-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3701152541-2">(</span><span class="p" data-group-id="3701152541-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3701152541-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3701152541-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3701152541-4">]</span><span class="p" data-group-id="3701152541-2">)</span><span class="p" data-group-id="3701152541-1">)</span><span class="w">
+</span><span class="p" data-group-id="3701152541-5">#</span><span class="nc" data-group-id="3701152541-5">Nx.Tensor</span><span class="p" data-group-id="3701152541-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3701152541-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3701152541-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3701152541-7">[</span><span class="o">-</span><span class="mf">0.75</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="3701152541-7">]</span><span class="w">
+</span><span class="p" data-group-id="3701152541-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="3701152541-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3701152541-9">(</span><span class="p" data-group-id="3701152541-10">[</span><span class="p" data-group-id="3701152541-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3701152541-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3701152541-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3701152541-12">]</span><span class="p" data-group-id="3701152541-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3701152541-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3701152541-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3701152541-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3701152541-14">]</span><span class="p" data-group-id="3701152541-9">)</span><span class="p" data-group-id="3701152541-8">)</span><span class="w">
+</span><span class="p" data-group-id="3701152541-15">#</span><span class="nc" data-group-id="3701152541-15">Nx.Tensor</span><span class="p" data-group-id="3701152541-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3701152541-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3701152541-16">]</span><span class="p" data-group-id="3701152541-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3701152541-17">]</span><span class="w">
+  </span><span class="p" data-group-id="3701152541-18">[</span><span class="w">
+    </span><span class="p" data-group-id="3701152541-19">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.75</span><span class="p" data-group-id="3701152541-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3701152541-20">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="3701152541-20">]</span><span class="w">
+  </span><span class="p" data-group-id="3701152541-18">]</span><span class="w">
+</span><span class="p" data-group-id="3701152541-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="tanh/1">
@@ -1372,20 +1372,20 @@ <h1 class="signature" translate="no">tanh(x)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="3213903552-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3213903552-2">(</span><span class="p" data-group-id="3213903552-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3213903552-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3213903552-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3213903552-4">]</span><span class="p" data-group-id="3213903552-2">)</span><span class="p" data-group-id="3213903552-1">)</span><span class="w">
-</span><span class="p" data-group-id="3213903552-5">#</span><span class="nc" data-group-id="3213903552-5">Nx.Tensor</span><span class="p" data-group-id="3213903552-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3213903552-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3213903552-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3213903552-7">[</span><span class="o">-</span><span class="mf">0.9950547814369202</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9950547814369202</span><span class="p" data-group-id="3213903552-7">]</span><span class="w">
-</span><span class="p" data-group-id="3213903552-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="3213903552-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3213903552-9">(</span><span class="p" data-group-id="3213903552-10">[</span><span class="p" data-group-id="3213903552-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3213903552-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3213903552-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3213903552-12">]</span><span class="p" data-group-id="3213903552-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3213903552-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3213903552-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3213903552-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3213903552-14">]</span><span class="p" data-group-id="3213903552-9">)</span><span class="p" data-group-id="3213903552-8">)</span><span class="w">
-</span><span class="p" data-group-id="3213903552-15">#</span><span class="nc" data-group-id="3213903552-15">Nx.Tensor</span><span class="p" data-group-id="3213903552-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="3213903552-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3213903552-16">]</span><span class="p" data-group-id="3213903552-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3213903552-17">]</span><span class="w">
-  </span><span class="p" data-group-id="3213903552-18">[</span><span class="w">
-    </span><span class="p" data-group-id="3213903552-19">[</span><span class="o">-</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9921875</span><span class="p" data-group-id="3213903552-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3213903552-20">[</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921875</span><span class="p" data-group-id="3213903552-20">]</span><span class="w">
-  </span><span class="p" data-group-id="3213903552-18">]</span><span class="w">
-</span><span class="p" data-group-id="3213903552-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="8848172987-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8848172987-2">(</span><span class="p" data-group-id="8848172987-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8848172987-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8848172987-4">[</span><span class="ss">:data</span><span class="p" data-group-id="8848172987-4">]</span><span class="p" data-group-id="8848172987-2">)</span><span class="p" data-group-id="8848172987-1">)</span><span class="w">
+</span><span class="p" data-group-id="8848172987-5">#</span><span class="nc" data-group-id="8848172987-5">Nx.Tensor</span><span class="p" data-group-id="8848172987-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8848172987-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="8848172987-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8848172987-7">[</span><span class="o">-</span><span class="mf">0.9950547814369202</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9950547814369202</span><span class="p" data-group-id="8848172987-7">]</span><span class="w">
+</span><span class="p" data-group-id="8848172987-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="8848172987-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8848172987-9">(</span><span class="p" data-group-id="8848172987-10">[</span><span class="p" data-group-id="8848172987-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8848172987-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8848172987-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8848172987-12">]</span><span class="p" data-group-id="8848172987-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8848172987-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8848172987-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8848172987-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="8848172987-14">]</span><span class="p" data-group-id="8848172987-9">)</span><span class="p" data-group-id="8848172987-8">)</span><span class="w">
+</span><span class="p" data-group-id="8848172987-15">#</span><span class="nc" data-group-id="8848172987-15">Nx.Tensor</span><span class="p" data-group-id="8848172987-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="8848172987-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8848172987-16">]</span><span class="p" data-group-id="8848172987-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8848172987-17">]</span><span class="w">
+  </span><span class="p" data-group-id="8848172987-18">[</span><span class="w">
+    </span><span class="p" data-group-id="8848172987-19">[</span><span class="o">-</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9921875</span><span class="p" data-group-id="8848172987-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8848172987-20">[</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921875</span><span class="p" data-group-id="8848172987-20">]</span><span class="w">
+  </span><span class="p" data-group-id="8848172987-18">]</span><span class="w">
+</span><span class="p" data-group-id="8848172987-15">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Display.html b/Axon.Display.html
index 7e2c930c..072a7c11 100644
--- a/Axon.Display.html
+++ b/Axon.Display.html
@@ -201,7 +201,7 @@ <h1 class="signature" translate="no">as_graph(axon, input_templates, opts \\ [])
   </a>
   Examples
 </h2>
-<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0080557808-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="0080557808-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0080557808-2">(</span><span class="mi">32</span><span class="p" data-group-id="0080557808-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="2631469501-1">(</span><span class="p" data-group-id="2631469501-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2631469501-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="2631469501-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="3883482058-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="ss">direction</span><span class="p">:</span><span class="w"> </span><span class="ss">:top_down</span><span class="p" data-group-id="3883482058-1">)</span></code></pre>
+<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5774193009-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="5774193009-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5774193009-2">(</span><span class="mi">32</span><span class="p" data-group-id="5774193009-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="6077101126-1">(</span><span class="p" data-group-id="6077101126-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6077101126-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6077101126-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="7452166378-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="ss">direction</span><span class="p">:</span><span class="w"> </span><span class="ss">:top_down</span><span class="p" data-group-id="7452166378-1">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="as_table/2">
@@ -231,7 +231,7 @@ <h1 class="signature" translate="no">as_table(axon, input_templates)</h1>
   </a>
   Examples
 </h2>
-<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4815088086-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="4815088086-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4815088086-2">(</span><span class="mi">32</span><span class="p" data-group-id="4815088086-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8842129319-1">(</span><span class="p" data-group-id="8842129319-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8842129319-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8842129319-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="8558458179-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8558458179-1">)</span></code></pre>
+<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7450848492-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="7450848492-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7450848492-2">(</span><span class="mi">32</span><span class="p" data-group-id="7450848492-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="2892429471-1">(</span><span class="p" data-group-id="2892429471-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2892429471-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="2892429471-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="5005926786-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="5005926786-1">)</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Initializers.html b/Axon.Initializers.html
index 6f1760c6..2f1a6204 100644
--- a/Axon.Initializers.html
+++ b/Axon.Initializers.html
@@ -132,8 +132,8 @@ <h1>
 small enough to avoid exploding values. The initializers in
 this module have a default scale known to work well with
 the initialization strategy.</p><p>The functions in this module return initialization functions which
-take shapes and types and return tensors:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="1055504626-1">(</span><span class="p" data-group-id="1055504626-1">)</span><span class="w">
-</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1055504626-2">(</span><span class="p" data-group-id="1055504626-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1055504626-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1055504626-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1055504626-4">}</span><span class="p" data-group-id="1055504626-2">)</span></code></pre><p>You may use these functions from within <code class="inline">defn</code> or outside.</p>
+take shapes and types and return tensors:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="2855129329-1">(</span><span class="p" data-group-id="2855129329-1">)</span><span class="w">
+</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2855129329-2">(</span><span class="p" data-group-id="2855129329-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2855129329-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2855129329-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2855129329-4">}</span><span class="p" data-group-id="2855129329-2">)</span></code></pre><p>You may use these functions from within <code class="inline">defn</code> or outside.</p>
   </section>
 
 
@@ -330,16 +330,16 @@ <h1 class="signature" translate="no">full(value)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">full</span><span class="p" data-group-id="7883741967-1">(</span><span class="mf">1.00</span><span class="p" data-group-id="7883741967-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7883741967-2">(</span><span class="p" data-group-id="7883741967-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7883741967-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7883741967-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7883741967-4">}</span><span class="p" data-group-id="7883741967-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">full</span><span class="p" data-group-id="1014664651-1">(</span><span class="mf">1.00</span><span class="p" data-group-id="1014664651-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1014664651-2">(</span><span class="p" data-group-id="1014664651-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1014664651-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1014664651-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1014664651-4">}</span><span class="p" data-group-id="1014664651-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="7883741967-5">#</span><span class="nc" data-group-id="7883741967-5">Nx.Tensor</span><span class="p" data-group-id="7883741967-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7883741967-6">[</span><span class="mi">2</span><span class="p" data-group-id="7883741967-6">]</span><span class="p" data-group-id="7883741967-7">[</span><span class="mi">2</span><span class="p" data-group-id="7883741967-7">]</span><span class="w">
-  </span><span class="p" data-group-id="7883741967-8">[</span><span class="w">
-    </span><span class="p" data-group-id="7883741967-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7883741967-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7883741967-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7883741967-10">]</span><span class="w">
-  </span><span class="p" data-group-id="7883741967-8">]</span><span class="w">
-</span><span class="p" data-group-id="7883741967-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1014664651-5">#</span><span class="nc" data-group-id="1014664651-5">Nx.Tensor</span><span class="p" data-group-id="1014664651-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1014664651-6">[</span><span class="mi">2</span><span class="p" data-group-id="1014664651-6">]</span><span class="p" data-group-id="1014664651-7">[</span><span class="mi">2</span><span class="p" data-group-id="1014664651-7">]</span><span class="w">
+  </span><span class="p" data-group-id="1014664651-8">[</span><span class="w">
+    </span><span class="p" data-group-id="1014664651-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1014664651-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1014664651-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1014664651-10">]</span><span class="w">
+  </span><span class="p" data-group-id="1014664651-8">]</span><span class="w">
+</span><span class="p" data-group-id="1014664651-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="glorot_normal/1">
@@ -378,19 +378,19 @@ <h1 class="signature" translate="no">glorot_normal(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="5485924089-1">(</span><span class="p" data-group-id="5485924089-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5485924089-2">(</span><span class="p" data-group-id="5485924089-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5485924089-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5485924089-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5485924089-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5485924089-5">(</span><span class="mi">1</span><span class="p" data-group-id="5485924089-5">)</span><span class="p" data-group-id="5485924089-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5485924089-6">(</span><span class="n">t</span><span class="p" data-group-id="5485924089-6">)</span><span class="w">
-</span><span class="p" data-group-id="5485924089-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5485924089-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="5485924089-8">(</span><span class="n">t</span><span class="p" data-group-id="5485924089-8">)</span><span class="w">
-</span><span class="p" data-group-id="5485924089-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5485924089-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="5485924089-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="5485924089-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5485924089-11">(</span><span class="p" data-group-id="5485924089-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5485924089-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5485924089-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5485924089-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5485924089-14">(</span><span class="mi">1</span><span class="p" data-group-id="5485924089-14">)</span><span class="p" data-group-id="5485924089-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5485924089-15">(</span><span class="n">t</span><span class="p" data-group-id="5485924089-15">)</span><span class="w">
-</span><span class="p" data-group-id="5485924089-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5485924089-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="5485924089-17">(</span><span class="n">t</span><span class="p" data-group-id="5485924089-17">)</span><span class="w">
-</span><span class="p" data-group-id="5485924089-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5485924089-18">}</span></code></pre><h2 id="glorot_normal/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="9025176411-1">(</span><span class="p" data-group-id="9025176411-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9025176411-2">(</span><span class="p" data-group-id="9025176411-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9025176411-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9025176411-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9025176411-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9025176411-5">(</span><span class="mi">1</span><span class="p" data-group-id="9025176411-5">)</span><span class="p" data-group-id="9025176411-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9025176411-6">(</span><span class="n">t</span><span class="p" data-group-id="9025176411-6">)</span><span class="w">
+</span><span class="p" data-group-id="9025176411-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9025176411-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="9025176411-8">(</span><span class="n">t</span><span class="p" data-group-id="9025176411-8">)</span><span class="w">
+</span><span class="p" data-group-id="9025176411-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9025176411-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="9025176411-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="9025176411-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9025176411-11">(</span><span class="p" data-group-id="9025176411-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9025176411-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9025176411-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9025176411-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9025176411-14">(</span><span class="mi">1</span><span class="p" data-group-id="9025176411-14">)</span><span class="p" data-group-id="9025176411-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9025176411-15">(</span><span class="n">t</span><span class="p" data-group-id="9025176411-15">)</span><span class="w">
+</span><span class="p" data-group-id="9025176411-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9025176411-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="9025176411-17">(</span><span class="n">t</span><span class="p" data-group-id="9025176411-17">)</span><span class="w">
+</span><span class="p" data-group-id="9025176411-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9025176411-18">}</span></code></pre><h2 id="glorot_normal/1-references" class="section-heading">
   <a href="#glorot_normal/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -435,19 +435,19 @@ <h1 class="signature" translate="no">glorot_uniform(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="3156397252-1">(</span><span class="p" data-group-id="3156397252-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3156397252-2">(</span><span class="p" data-group-id="3156397252-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3156397252-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3156397252-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3156397252-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3156397252-5">(</span><span class="mi">1</span><span class="p" data-group-id="3156397252-5">)</span><span class="p" data-group-id="3156397252-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3156397252-6">(</span><span class="n">t</span><span class="p" data-group-id="3156397252-6">)</span><span class="w">
-</span><span class="p" data-group-id="3156397252-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3156397252-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3156397252-8">(</span><span class="n">t</span><span class="p" data-group-id="3156397252-8">)</span><span class="w">
-</span><span class="p" data-group-id="3156397252-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3156397252-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="3156397252-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="3156397252-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3156397252-11">(</span><span class="p" data-group-id="3156397252-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3156397252-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3156397252-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3156397252-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3156397252-14">(</span><span class="mi">1</span><span class="p" data-group-id="3156397252-14">)</span><span class="p" data-group-id="3156397252-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3156397252-15">(</span><span class="n">t</span><span class="p" data-group-id="3156397252-15">)</span><span class="w">
-</span><span class="p" data-group-id="3156397252-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3156397252-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3156397252-17">(</span><span class="n">t</span><span class="p" data-group-id="3156397252-17">)</span><span class="w">
-</span><span class="p" data-group-id="3156397252-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3156397252-18">}</span></code></pre><h2 id="glorot_uniform/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="4713507942-1">(</span><span class="p" data-group-id="4713507942-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4713507942-2">(</span><span class="p" data-group-id="4713507942-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4713507942-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4713507942-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4713507942-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4713507942-5">(</span><span class="mi">1</span><span class="p" data-group-id="4713507942-5">)</span><span class="p" data-group-id="4713507942-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4713507942-6">(</span><span class="n">t</span><span class="p" data-group-id="4713507942-6">)</span><span class="w">
+</span><span class="p" data-group-id="4713507942-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4713507942-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4713507942-8">(</span><span class="n">t</span><span class="p" data-group-id="4713507942-8">)</span><span class="w">
+</span><span class="p" data-group-id="4713507942-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4713507942-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="4713507942-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="4713507942-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4713507942-11">(</span><span class="p" data-group-id="4713507942-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4713507942-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4713507942-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4713507942-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4713507942-14">(</span><span class="mi">1</span><span class="p" data-group-id="4713507942-14">)</span><span class="p" data-group-id="4713507942-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4713507942-15">(</span><span class="n">t</span><span class="p" data-group-id="4713507942-15">)</span><span class="w">
+</span><span class="p" data-group-id="4713507942-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4713507942-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4713507942-17">(</span><span class="n">t</span><span class="p" data-group-id="4713507942-17">)</span><span class="w">
+</span><span class="p" data-group-id="4713507942-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4713507942-18">}</span></code></pre><h2 id="glorot_uniform/1-references" class="section-heading">
   <a href="#glorot_uniform/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -491,19 +491,19 @@ <h1 class="signature" translate="no">he_normal(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="2835738426-1">(</span><span class="p" data-group-id="2835738426-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2835738426-2">(</span><span class="p" data-group-id="2835738426-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2835738426-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2835738426-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2835738426-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2835738426-5">(</span><span class="mi">1</span><span class="p" data-group-id="2835738426-5">)</span><span class="p" data-group-id="2835738426-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2835738426-6">(</span><span class="n">t</span><span class="p" data-group-id="2835738426-6">)</span><span class="w">
-</span><span class="p" data-group-id="2835738426-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2835738426-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2835738426-8">(</span><span class="n">t</span><span class="p" data-group-id="2835738426-8">)</span><span class="w">
-</span><span class="p" data-group-id="2835738426-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2835738426-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="2835738426-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="2835738426-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2835738426-11">(</span><span class="p" data-group-id="2835738426-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2835738426-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2835738426-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2835738426-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2835738426-14">(</span><span class="mi">1</span><span class="p" data-group-id="2835738426-14">)</span><span class="p" data-group-id="2835738426-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2835738426-15">(</span><span class="n">t</span><span class="p" data-group-id="2835738426-15">)</span><span class="w">
-</span><span class="p" data-group-id="2835738426-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2835738426-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2835738426-17">(</span><span class="n">t</span><span class="p" data-group-id="2835738426-17">)</span><span class="w">
-</span><span class="p" data-group-id="2835738426-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2835738426-18">}</span></code></pre><h2 id="he_normal/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="7495827690-1">(</span><span class="p" data-group-id="7495827690-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7495827690-2">(</span><span class="p" data-group-id="7495827690-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7495827690-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7495827690-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7495827690-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7495827690-5">(</span><span class="mi">1</span><span class="p" data-group-id="7495827690-5">)</span><span class="p" data-group-id="7495827690-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="7495827690-6">(</span><span class="n">t</span><span class="p" data-group-id="7495827690-6">)</span><span class="w">
+</span><span class="p" data-group-id="7495827690-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7495827690-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="7495827690-8">(</span><span class="n">t</span><span class="p" data-group-id="7495827690-8">)</span><span class="w">
+</span><span class="p" data-group-id="7495827690-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7495827690-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="7495827690-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="7495827690-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7495827690-11">(</span><span class="p" data-group-id="7495827690-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7495827690-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7495827690-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7495827690-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7495827690-14">(</span><span class="mi">1</span><span class="p" data-group-id="7495827690-14">)</span><span class="p" data-group-id="7495827690-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="7495827690-15">(</span><span class="n">t</span><span class="p" data-group-id="7495827690-15">)</span><span class="w">
+</span><span class="p" data-group-id="7495827690-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7495827690-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="7495827690-17">(</span><span class="n">t</span><span class="p" data-group-id="7495827690-17">)</span><span class="w">
+</span><span class="p" data-group-id="7495827690-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7495827690-18">}</span></code></pre><h2 id="he_normal/1-references" class="section-heading">
   <a href="#he_normal/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -547,19 +547,19 @@ <h1 class="signature" translate="no">he_uniform(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="3141199383-1">(</span><span class="p" data-group-id="3141199383-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3141199383-2">(</span><span class="p" data-group-id="3141199383-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3141199383-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3141199383-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3141199383-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3141199383-5">(</span><span class="mi">1</span><span class="p" data-group-id="3141199383-5">)</span><span class="p" data-group-id="3141199383-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3141199383-6">(</span><span class="n">t</span><span class="p" data-group-id="3141199383-6">)</span><span class="w">
-</span><span class="p" data-group-id="3141199383-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3141199383-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3141199383-8">(</span><span class="n">t</span><span class="p" data-group-id="3141199383-8">)</span><span class="w">
-</span><span class="p" data-group-id="3141199383-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3141199383-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="3141199383-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="3141199383-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3141199383-11">(</span><span class="p" data-group-id="3141199383-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3141199383-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3141199383-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3141199383-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3141199383-14">(</span><span class="mi">1</span><span class="p" data-group-id="3141199383-14">)</span><span class="p" data-group-id="3141199383-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3141199383-15">(</span><span class="n">t</span><span class="p" data-group-id="3141199383-15">)</span><span class="w">
-</span><span class="p" data-group-id="3141199383-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3141199383-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3141199383-17">(</span><span class="n">t</span><span class="p" data-group-id="3141199383-17">)</span><span class="w">
-</span><span class="p" data-group-id="3141199383-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3141199383-18">}</span></code></pre><h2 id="he_uniform/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="3155244116-1">(</span><span class="p" data-group-id="3155244116-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3155244116-2">(</span><span class="p" data-group-id="3155244116-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3155244116-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3155244116-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3155244116-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3155244116-5">(</span><span class="mi">1</span><span class="p" data-group-id="3155244116-5">)</span><span class="p" data-group-id="3155244116-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3155244116-6">(</span><span class="n">t</span><span class="p" data-group-id="3155244116-6">)</span><span class="w">
+</span><span class="p" data-group-id="3155244116-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3155244116-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3155244116-8">(</span><span class="n">t</span><span class="p" data-group-id="3155244116-8">)</span><span class="w">
+</span><span class="p" data-group-id="3155244116-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3155244116-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="3155244116-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="3155244116-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3155244116-11">(</span><span class="p" data-group-id="3155244116-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3155244116-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3155244116-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3155244116-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3155244116-14">(</span><span class="mi">1</span><span class="p" data-group-id="3155244116-14">)</span><span class="p" data-group-id="3155244116-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3155244116-15">(</span><span class="n">t</span><span class="p" data-group-id="3155244116-15">)</span><span class="w">
+</span><span class="p" data-group-id="3155244116-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3155244116-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3155244116-17">(</span><span class="n">t</span><span class="p" data-group-id="3155244116-17">)</span><span class="w">
+</span><span class="p" data-group-id="3155244116-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3155244116-18">}</span></code></pre><h2 id="he_uniform/1-references" class="section-heading">
   <a href="#he_uniform/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -593,16 +593,16 @@ <h1 class="signature" translate="no">identity()</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">identity</span><span class="p" data-group-id="6433365282-1">(</span><span class="p" data-group-id="6433365282-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6433365282-2">(</span><span class="p" data-group-id="6433365282-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6433365282-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6433365282-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6433365282-4">}</span><span class="p" data-group-id="6433365282-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">identity</span><span class="p" data-group-id="0699352846-1">(</span><span class="p" data-group-id="0699352846-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0699352846-2">(</span><span class="p" data-group-id="0699352846-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0699352846-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0699352846-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0699352846-4">}</span><span class="p" data-group-id="0699352846-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="6433365282-5">#</span><span class="nc" data-group-id="6433365282-5">Nx.Tensor</span><span class="p" data-group-id="6433365282-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6433365282-6">[</span><span class="mi">2</span><span class="p" data-group-id="6433365282-6">]</span><span class="p" data-group-id="6433365282-7">[</span><span class="mi">2</span><span class="p" data-group-id="6433365282-7">]</span><span class="w">
-  </span><span class="p" data-group-id="6433365282-8">[</span><span class="w">
-    </span><span class="p" data-group-id="6433365282-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6433365282-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6433365282-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6433365282-10">]</span><span class="w">
-  </span><span class="p" data-group-id="6433365282-8">]</span><span class="w">
-</span><span class="p" data-group-id="6433365282-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="0699352846-5">#</span><span class="nc" data-group-id="0699352846-5">Nx.Tensor</span><span class="p" data-group-id="0699352846-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0699352846-6">[</span><span class="mi">2</span><span class="p" data-group-id="0699352846-6">]</span><span class="p" data-group-id="0699352846-7">[</span><span class="mi">2</span><span class="p" data-group-id="0699352846-7">]</span><span class="w">
+  </span><span class="p" data-group-id="0699352846-8">[</span><span class="w">
+    </span><span class="p" data-group-id="0699352846-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0699352846-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0699352846-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0699352846-10">]</span><span class="w">
+  </span><span class="p" data-group-id="0699352846-8">]</span><span class="w">
+</span><span class="p" data-group-id="0699352846-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="lecun_normal/1">
@@ -640,19 +640,19 @@ <h1 class="signature" translate="no">lecun_normal(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="2494018662-1">(</span><span class="p" data-group-id="2494018662-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2494018662-2">(</span><span class="p" data-group-id="2494018662-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2494018662-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2494018662-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2494018662-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2494018662-5">(</span><span class="mi">1</span><span class="p" data-group-id="2494018662-5">)</span><span class="p" data-group-id="2494018662-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2494018662-6">(</span><span class="n">t</span><span class="p" data-group-id="2494018662-6">)</span><span class="w">
-</span><span class="p" data-group-id="2494018662-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2494018662-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2494018662-8">(</span><span class="n">t</span><span class="p" data-group-id="2494018662-8">)</span><span class="w">
-</span><span class="p" data-group-id="2494018662-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2494018662-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="2494018662-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="2494018662-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2494018662-11">(</span><span class="p" data-group-id="2494018662-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2494018662-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2494018662-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2494018662-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2494018662-14">(</span><span class="mi">1</span><span class="p" data-group-id="2494018662-14">)</span><span class="p" data-group-id="2494018662-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2494018662-15">(</span><span class="n">t</span><span class="p" data-group-id="2494018662-15">)</span><span class="w">
-</span><span class="p" data-group-id="2494018662-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2494018662-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2494018662-17">(</span><span class="n">t</span><span class="p" data-group-id="2494018662-17">)</span><span class="w">
-</span><span class="p" data-group-id="2494018662-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2494018662-18">}</span></code></pre><h2 id="lecun_normal/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="6551523403-1">(</span><span class="p" data-group-id="6551523403-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6551523403-2">(</span><span class="p" data-group-id="6551523403-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6551523403-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6551523403-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6551523403-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6551523403-5">(</span><span class="mi">1</span><span class="p" data-group-id="6551523403-5">)</span><span class="p" data-group-id="6551523403-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6551523403-6">(</span><span class="n">t</span><span class="p" data-group-id="6551523403-6">)</span><span class="w">
+</span><span class="p" data-group-id="6551523403-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6551523403-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="6551523403-8">(</span><span class="n">t</span><span class="p" data-group-id="6551523403-8">)</span><span class="w">
+</span><span class="p" data-group-id="6551523403-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6551523403-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="6551523403-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="6551523403-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6551523403-11">(</span><span class="p" data-group-id="6551523403-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6551523403-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6551523403-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6551523403-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6551523403-14">(</span><span class="mi">1</span><span class="p" data-group-id="6551523403-14">)</span><span class="p" data-group-id="6551523403-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6551523403-15">(</span><span class="n">t</span><span class="p" data-group-id="6551523403-15">)</span><span class="w">
+</span><span class="p" data-group-id="6551523403-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6551523403-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="6551523403-17">(</span><span class="n">t</span><span class="p" data-group-id="6551523403-17">)</span><span class="w">
+</span><span class="p" data-group-id="6551523403-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6551523403-18">}</span></code></pre><h2 id="lecun_normal/1-references" class="section-heading">
   <a href="#lecun_normal/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -696,19 +696,19 @@ <h1 class="signature" translate="no">lecun_uniform(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="4114420856-1">(</span><span class="p" data-group-id="4114420856-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4114420856-2">(</span><span class="p" data-group-id="4114420856-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4114420856-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4114420856-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4114420856-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4114420856-5">(</span><span class="mi">1</span><span class="p" data-group-id="4114420856-5">)</span><span class="p" data-group-id="4114420856-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4114420856-6">(</span><span class="n">t</span><span class="p" data-group-id="4114420856-6">)</span><span class="w">
-</span><span class="p" data-group-id="4114420856-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4114420856-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4114420856-8">(</span><span class="n">t</span><span class="p" data-group-id="4114420856-8">)</span><span class="w">
-</span><span class="p" data-group-id="4114420856-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4114420856-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="4114420856-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="4114420856-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4114420856-11">(</span><span class="p" data-group-id="4114420856-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4114420856-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4114420856-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4114420856-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4114420856-14">(</span><span class="mi">1</span><span class="p" data-group-id="4114420856-14">)</span><span class="p" data-group-id="4114420856-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4114420856-15">(</span><span class="n">t</span><span class="p" data-group-id="4114420856-15">)</span><span class="w">
-</span><span class="p" data-group-id="4114420856-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4114420856-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4114420856-17">(</span><span class="n">t</span><span class="p" data-group-id="4114420856-17">)</span><span class="w">
-</span><span class="p" data-group-id="4114420856-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4114420856-18">}</span></code></pre><h2 id="lecun_uniform/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="8981391263-1">(</span><span class="p" data-group-id="8981391263-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8981391263-2">(</span><span class="p" data-group-id="8981391263-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8981391263-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8981391263-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8981391263-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8981391263-5">(</span><span class="mi">1</span><span class="p" data-group-id="8981391263-5">)</span><span class="p" data-group-id="8981391263-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="8981391263-6">(</span><span class="n">t</span><span class="p" data-group-id="8981391263-6">)</span><span class="w">
+</span><span class="p" data-group-id="8981391263-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8981391263-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="8981391263-8">(</span><span class="n">t</span><span class="p" data-group-id="8981391263-8">)</span><span class="w">
+</span><span class="p" data-group-id="8981391263-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8981391263-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="8981391263-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="8981391263-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8981391263-11">(</span><span class="p" data-group-id="8981391263-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8981391263-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8981391263-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8981391263-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8981391263-14">(</span><span class="mi">1</span><span class="p" data-group-id="8981391263-14">)</span><span class="p" data-group-id="8981391263-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="8981391263-15">(</span><span class="n">t</span><span class="p" data-group-id="8981391263-15">)</span><span class="w">
+</span><span class="p" data-group-id="8981391263-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8981391263-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="8981391263-17">(</span><span class="n">t</span><span class="p" data-group-id="8981391263-17">)</span><span class="w">
+</span><span class="p" data-group-id="8981391263-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8981391263-18">}</span></code></pre><h2 id="lecun_uniform/1-references" class="section-heading">
   <a href="#lecun_uniform/1-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
@@ -750,19 +750,19 @@ <h1 class="signature" translate="no">normal(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="2904104726-1">(</span><span class="p" data-group-id="2904104726-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2904104726-2">(</span><span class="p" data-group-id="2904104726-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2904104726-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2904104726-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2904104726-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2904104726-5">(</span><span class="mi">1</span><span class="p" data-group-id="2904104726-5">)</span><span class="p" data-group-id="2904104726-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2904104726-6">(</span><span class="n">t</span><span class="p" data-group-id="2904104726-6">)</span><span class="w">
-</span><span class="p" data-group-id="2904104726-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2904104726-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2904104726-8">(</span><span class="n">t</span><span class="p" data-group-id="2904104726-8">)</span><span class="w">
-</span><span class="p" data-group-id="2904104726-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2904104726-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="2904104726-10">(</span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2904104726-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2904104726-11">(</span><span class="p" data-group-id="2904104726-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2904104726-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2904104726-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2904104726-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2904104726-14">(</span><span class="mi">1</span><span class="p" data-group-id="2904104726-14">)</span><span class="p" data-group-id="2904104726-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2904104726-15">(</span><span class="n">t</span><span class="p" data-group-id="2904104726-15">)</span><span class="w">
-</span><span class="p" data-group-id="2904104726-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2904104726-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2904104726-17">(</span><span class="n">t</span><span class="p" data-group-id="2904104726-17">)</span><span class="w">
-</span><span class="p" data-group-id="2904104726-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2904104726-18">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="1470799345-1">(</span><span class="p" data-group-id="1470799345-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1470799345-2">(</span><span class="p" data-group-id="1470799345-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1470799345-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1470799345-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1470799345-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1470799345-5">(</span><span class="mi">1</span><span class="p" data-group-id="1470799345-5">)</span><span class="p" data-group-id="1470799345-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1470799345-6">(</span><span class="n">t</span><span class="p" data-group-id="1470799345-6">)</span><span class="w">
+</span><span class="p" data-group-id="1470799345-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1470799345-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1470799345-8">(</span><span class="n">t</span><span class="p" data-group-id="1470799345-8">)</span><span class="w">
+</span><span class="p" data-group-id="1470799345-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1470799345-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="1470799345-10">(</span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1470799345-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1470799345-11">(</span><span class="p" data-group-id="1470799345-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1470799345-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1470799345-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1470799345-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1470799345-14">(</span><span class="mi">1</span><span class="p" data-group-id="1470799345-14">)</span><span class="p" data-group-id="1470799345-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1470799345-15">(</span><span class="n">t</span><span class="p" data-group-id="1470799345-15">)</span><span class="w">
+</span><span class="p" data-group-id="1470799345-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1470799345-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1470799345-17">(</span><span class="n">t</span><span class="p" data-group-id="1470799345-17">)</span><span class="w">
+</span><span class="p" data-group-id="1470799345-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1470799345-18">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="ones/0">
@@ -790,16 +790,16 @@ <h1 class="signature" translate="no">ones()</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">ones</span><span class="p" data-group-id="9720740036-1">(</span><span class="p" data-group-id="9720740036-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9720740036-2">(</span><span class="p" data-group-id="9720740036-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9720740036-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9720740036-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9720740036-4">}</span><span class="p" data-group-id="9720740036-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">ones</span><span class="p" data-group-id="0664094465-1">(</span><span class="p" data-group-id="0664094465-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0664094465-2">(</span><span class="p" data-group-id="0664094465-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0664094465-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0664094465-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0664094465-4">}</span><span class="p" data-group-id="0664094465-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="9720740036-5">#</span><span class="nc" data-group-id="9720740036-5">Nx.Tensor</span><span class="p" data-group-id="9720740036-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9720740036-6">[</span><span class="mi">2</span><span class="p" data-group-id="9720740036-6">]</span><span class="p" data-group-id="9720740036-7">[</span><span class="mi">2</span><span class="p" data-group-id="9720740036-7">]</span><span class="w">
-  </span><span class="p" data-group-id="9720740036-8">[</span><span class="w">
-    </span><span class="p" data-group-id="9720740036-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9720740036-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9720740036-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9720740036-10">]</span><span class="w">
-  </span><span class="p" data-group-id="9720740036-8">]</span><span class="w">
-</span><span class="p" data-group-id="9720740036-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="0664094465-5">#</span><span class="nc" data-group-id="0664094465-5">Nx.Tensor</span><span class="p" data-group-id="0664094465-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0664094465-6">[</span><span class="mi">2</span><span class="p" data-group-id="0664094465-6">]</span><span class="p" data-group-id="0664094465-7">[</span><span class="mi">2</span><span class="p" data-group-id="0664094465-7">]</span><span class="w">
+  </span><span class="p" data-group-id="0664094465-8">[</span><span class="w">
+    </span><span class="p" data-group-id="0664094465-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0664094465-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0664094465-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0664094465-10">]</span><span class="w">
+  </span><span class="p" data-group-id="0664094465-8">]</span><span class="w">
+</span><span class="p" data-group-id="0664094465-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="orthogonal/1">
@@ -838,19 +838,19 @@ <h1 class="signature" translate="no">orthogonal(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="4379993257-1">(</span><span class="p" data-group-id="4379993257-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4379993257-2">(</span><span class="p" data-group-id="4379993257-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4379993257-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4379993257-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4379993257-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4379993257-5">(</span><span class="mi">1</span><span class="p" data-group-id="4379993257-5">)</span><span class="p" data-group-id="4379993257-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4379993257-6">(</span><span class="n">t</span><span class="p" data-group-id="4379993257-6">)</span><span class="w">
-</span><span class="p" data-group-id="4379993257-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4379993257-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4379993257-8">(</span><span class="n">t</span><span class="p" data-group-id="4379993257-8">)</span><span class="w">
-</span><span class="p" data-group-id="4379993257-9">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4379993257-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="4379993257-10">(</span><span class="p" data-group-id="4379993257-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4379993257-11">(</span><span class="p" data-group-id="4379993257-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="4379993257-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4379993257-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="4379993257-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4379993257-14">(</span><span class="mi">1</span><span class="p" data-group-id="4379993257-14">)</span><span class="p" data-group-id="4379993257-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4379993257-15">(</span><span class="n">t</span><span class="p" data-group-id="4379993257-15">)</span><span class="w">
-</span><span class="p" data-group-id="4379993257-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="4379993257-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4379993257-17">(</span><span class="n">t</span><span class="p" data-group-id="4379993257-17">)</span><span class="w">
-</span><span class="p" data-group-id="4379993257-18">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="4379993257-18">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="4982866039-1">(</span><span class="p" data-group-id="4982866039-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4982866039-2">(</span><span class="p" data-group-id="4982866039-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4982866039-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4982866039-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4982866039-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4982866039-5">(</span><span class="mi">1</span><span class="p" data-group-id="4982866039-5">)</span><span class="p" data-group-id="4982866039-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4982866039-6">(</span><span class="n">t</span><span class="p" data-group-id="4982866039-6">)</span><span class="w">
+</span><span class="p" data-group-id="4982866039-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4982866039-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4982866039-8">(</span><span class="n">t</span><span class="p" data-group-id="4982866039-8">)</span><span class="w">
+</span><span class="p" data-group-id="4982866039-9">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4982866039-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="4982866039-10">(</span><span class="p" data-group-id="4982866039-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4982866039-11">(</span><span class="p" data-group-id="4982866039-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="4982866039-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4982866039-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="4982866039-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4982866039-14">(</span><span class="mi">1</span><span class="p" data-group-id="4982866039-14">)</span><span class="p" data-group-id="4982866039-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4982866039-15">(</span><span class="n">t</span><span class="p" data-group-id="4982866039-15">)</span><span class="w">
+</span><span class="p" data-group-id="4982866039-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="4982866039-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4982866039-17">(</span><span class="n">t</span><span class="p" data-group-id="4982866039-17">)</span><span class="w">
+</span><span class="p" data-group-id="4982866039-18">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="4982866039-18">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="uniform/1">
@@ -886,19 +886,19 @@ <h1 class="signature" translate="no">uniform(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="0192052260-1">(</span><span class="p" data-group-id="0192052260-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0192052260-2">(</span><span class="p" data-group-id="0192052260-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0192052260-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0192052260-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0192052260-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="0192052260-5">(</span><span class="mi">1</span><span class="p" data-group-id="0192052260-5">)</span><span class="p" data-group-id="0192052260-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="0192052260-6">(</span><span class="n">t</span><span class="p" data-group-id="0192052260-6">)</span><span class="w">
-</span><span class="p" data-group-id="0192052260-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0192052260-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="0192052260-8">(</span><span class="n">t</span><span class="p" data-group-id="0192052260-8">)</span><span class="w">
-</span><span class="p" data-group-id="0192052260-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0192052260-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="0192052260-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="0192052260-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0192052260-11">(</span><span class="p" data-group-id="0192052260-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0192052260-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0192052260-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0192052260-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="0192052260-14">(</span><span class="mi">1</span><span class="p" data-group-id="0192052260-14">)</span><span class="p" data-group-id="0192052260-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="0192052260-15">(</span><span class="n">t</span><span class="p" data-group-id="0192052260-15">)</span><span class="w">
-</span><span class="p" data-group-id="0192052260-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0192052260-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="0192052260-17">(</span><span class="n">t</span><span class="p" data-group-id="0192052260-17">)</span><span class="w">
-</span><span class="p" data-group-id="0192052260-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0192052260-18">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="2013907766-1">(</span><span class="p" data-group-id="2013907766-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2013907766-2">(</span><span class="p" data-group-id="2013907766-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2013907766-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2013907766-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2013907766-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2013907766-5">(</span><span class="mi">1</span><span class="p" data-group-id="2013907766-5">)</span><span class="p" data-group-id="2013907766-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2013907766-6">(</span><span class="n">t</span><span class="p" data-group-id="2013907766-6">)</span><span class="w">
+</span><span class="p" data-group-id="2013907766-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2013907766-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2013907766-8">(</span><span class="n">t</span><span class="p" data-group-id="2013907766-8">)</span><span class="w">
+</span><span class="p" data-group-id="2013907766-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2013907766-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="2013907766-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="2013907766-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2013907766-11">(</span><span class="p" data-group-id="2013907766-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2013907766-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2013907766-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2013907766-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2013907766-14">(</span><span class="mi">1</span><span class="p" data-group-id="2013907766-14">)</span><span class="p" data-group-id="2013907766-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2013907766-15">(</span><span class="n">t</span><span class="p" data-group-id="2013907766-15">)</span><span class="w">
+</span><span class="p" data-group-id="2013907766-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2013907766-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="2013907766-17">(</span><span class="n">t</span><span class="p" data-group-id="2013907766-17">)</span><span class="w">
+</span><span class="p" data-group-id="2013907766-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2013907766-18">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="variance_scaling/1">
@@ -938,26 +938,26 @@ <h1 class="signature" translate="no">variance_scaling(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="1677719983-1">(</span><span class="p" data-group-id="1677719983-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1677719983-2">(</span><span class="p" data-group-id="1677719983-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1677719983-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1677719983-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1677719983-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1677719983-5">(</span><span class="mi">1</span><span class="p" data-group-id="1677719983-5">)</span><span class="p" data-group-id="1677719983-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1677719983-6">(</span><span class="n">t</span><span class="p" data-group-id="1677719983-6">)</span><span class="w">
-</span><span class="p" data-group-id="1677719983-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1677719983-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1677719983-8">(</span><span class="n">t</span><span class="p" data-group-id="1677719983-8">)</span><span class="w">
-</span><span class="p" data-group-id="1677719983-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1677719983-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="1677719983-10">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:truncated_normal</span><span class="p" data-group-id="1677719983-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1677719983-11">(</span><span class="p" data-group-id="1677719983-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1677719983-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1677719983-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1677719983-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1677719983-14">(</span><span class="mi">1</span><span class="p" data-group-id="1677719983-14">)</span><span class="p" data-group-id="1677719983-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1677719983-15">(</span><span class="n">t</span><span class="p" data-group-id="1677719983-15">)</span><span class="w">
-</span><span class="p" data-group-id="1677719983-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1677719983-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1677719983-17">(</span><span class="n">t</span><span class="p" data-group-id="1677719983-17">)</span><span class="w">
-</span><span class="p" data-group-id="1677719983-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1677719983-18">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="1677719983-19">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:normal</span><span class="p" data-group-id="1677719983-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1677719983-20">(</span><span class="p" data-group-id="1677719983-21">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1677719983-21">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1677719983-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1677719983-22">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1677719983-23">(</span><span class="mi">1</span><span class="p" data-group-id="1677719983-23">)</span><span class="p" data-group-id="1677719983-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1677719983-24">(</span><span class="n">t</span><span class="p" data-group-id="1677719983-24">)</span><span class="w">
-</span><span class="p" data-group-id="1677719983-25">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1677719983-25">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1677719983-26">(</span><span class="n">t</span><span class="p" data-group-id="1677719983-26">)</span><span class="w">
-</span><span class="p" data-group-id="1677719983-27">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1677719983-27">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="1129520662-1">(</span><span class="p" data-group-id="1129520662-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1129520662-2">(</span><span class="p" data-group-id="1129520662-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1129520662-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1129520662-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1129520662-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1129520662-5">(</span><span class="mi">1</span><span class="p" data-group-id="1129520662-5">)</span><span class="p" data-group-id="1129520662-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1129520662-6">(</span><span class="n">t</span><span class="p" data-group-id="1129520662-6">)</span><span class="w">
+</span><span class="p" data-group-id="1129520662-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1129520662-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1129520662-8">(</span><span class="n">t</span><span class="p" data-group-id="1129520662-8">)</span><span class="w">
+</span><span class="p" data-group-id="1129520662-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1129520662-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="1129520662-10">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:truncated_normal</span><span class="p" data-group-id="1129520662-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1129520662-11">(</span><span class="p" data-group-id="1129520662-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1129520662-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1129520662-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1129520662-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1129520662-14">(</span><span class="mi">1</span><span class="p" data-group-id="1129520662-14">)</span><span class="p" data-group-id="1129520662-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1129520662-15">(</span><span class="n">t</span><span class="p" data-group-id="1129520662-15">)</span><span class="w">
+</span><span class="p" data-group-id="1129520662-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1129520662-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1129520662-17">(</span><span class="n">t</span><span class="p" data-group-id="1129520662-17">)</span><span class="w">
+</span><span class="p" data-group-id="1129520662-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1129520662-18">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="1129520662-19">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:normal</span><span class="p" data-group-id="1129520662-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1129520662-20">(</span><span class="p" data-group-id="1129520662-21">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1129520662-21">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1129520662-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1129520662-22">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1129520662-23">(</span><span class="mi">1</span><span class="p" data-group-id="1129520662-23">)</span><span class="p" data-group-id="1129520662-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1129520662-24">(</span><span class="n">t</span><span class="p" data-group-id="1129520662-24">)</span><span class="w">
+</span><span class="p" data-group-id="1129520662-25">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1129520662-25">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1129520662-26">(</span><span class="n">t</span><span class="p" data-group-id="1129520662-26">)</span><span class="w">
+</span><span class="p" data-group-id="1129520662-27">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1129520662-27">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="zeros/0">
@@ -985,16 +985,16 @@ <h1 class="signature" translate="no">zeros()</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="2255195579-1">(</span><span class="p" data-group-id="2255195579-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2255195579-2">(</span><span class="p" data-group-id="2255195579-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2255195579-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2255195579-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2255195579-4">}</span><span class="p" data-group-id="2255195579-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="9613662374-1">(</span><span class="p" data-group-id="9613662374-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9613662374-2">(</span><span class="p" data-group-id="9613662374-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9613662374-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9613662374-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9613662374-4">}</span><span class="p" data-group-id="9613662374-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="2255195579-5">#</span><span class="nc" data-group-id="2255195579-5">Nx.Tensor</span><span class="p" data-group-id="2255195579-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2255195579-6">[</span><span class="mi">2</span><span class="p" data-group-id="2255195579-6">]</span><span class="p" data-group-id="2255195579-7">[</span><span class="mi">2</span><span class="p" data-group-id="2255195579-7">]</span><span class="w">
-  </span><span class="p" data-group-id="2255195579-8">[</span><span class="w">
-    </span><span class="p" data-group-id="2255195579-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2255195579-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2255195579-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2255195579-10">]</span><span class="w">
-  </span><span class="p" data-group-id="2255195579-8">]</span><span class="w">
-</span><span class="p" data-group-id="2255195579-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="9613662374-5">#</span><span class="nc" data-group-id="9613662374-5">Nx.Tensor</span><span class="p" data-group-id="9613662374-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9613662374-6">[</span><span class="mi">2</span><span class="p" data-group-id="9613662374-6">]</span><span class="p" data-group-id="9613662374-7">[</span><span class="mi">2</span><span class="p" data-group-id="9613662374-7">]</span><span class="w">
+  </span><span class="p" data-group-id="9613662374-8">[</span><span class="w">
+    </span><span class="p" data-group-id="9613662374-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9613662374-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9613662374-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9613662374-10">]</span><span class="w">
+  </span><span class="p" data-group-id="9613662374-8">]</span><span class="w">
+</span><span class="p" data-group-id="9613662374-5">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Layers.html b/Axon.Layers.html
index db33840d..fd1c45a0 100644
--- a/Axon.Layers.html
+++ b/Axon.Layers.html
@@ -120,20 +120,20 @@ <h1>
 These implementations do not assume the responsibility of
 managing state - instead opting to delegate this responsibility
 to the caller.</p><p>Basic neural networks can be seen as a composition of functions:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="9780232590-1">(</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="9780232590-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="9780232590-2">(</span><span class="p" data-group-id="9780232590-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="9780232590-3">(</span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="9780232590-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="9780232590-4">(</span><span class="p" data-group-id="9780232590-4">)</span></code></pre><p>These kinds of models are often referred to as deep feedforward networks
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="2816033764-1">(</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="2816033764-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="2816033764-2">(</span><span class="p" data-group-id="2816033764-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="2816033764-3">(</span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="2816033764-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="2816033764-4">(</span><span class="p" data-group-id="2816033764-4">)</span></code></pre><p>These kinds of models are often referred to as deep feedforward networks
 or multilayer perceptrons (MLPs) because information flows forward
 through the network with no feedback connections. Mathematically,
 a feedforward network can be represented as:</p><p>  $$f(x) = f^{(3)}(f^{(2)}(f^{(1)}(x)))$$</p><p>You can see a similar pattern emerge if we condense the call stack
-in the previous example:</p><pre><code class="makeup elixir" translate="no"><span class="n">softmax</span><span class="p" data-group-id="2512472967-1">(</span><span class="n">dense</span><span class="p" data-group-id="2512472967-2">(</span><span class="n">relu</span><span class="p" data-group-id="2512472967-3">(</span><span class="n">dense</span><span class="p" data-group-id="2512472967-4">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="2512472967-4">)</span><span class="p" data-group-id="2512472967-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="2512472967-2">)</span><span class="p" data-group-id="2512472967-1">)</span></code></pre><p>The chain structure shown here is the most common structure used
+in the previous example:</p><pre><code class="makeup elixir" translate="no"><span class="n">softmax</span><span class="p" data-group-id="7309437407-1">(</span><span class="n">dense</span><span class="p" data-group-id="7309437407-2">(</span><span class="n">relu</span><span class="p" data-group-id="7309437407-3">(</span><span class="n">dense</span><span class="p" data-group-id="7309437407-4">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="7309437407-4">)</span><span class="p" data-group-id="7309437407-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="7309437407-2">)</span><span class="p" data-group-id="7309437407-1">)</span></code></pre><p>The chain structure shown here is the most common structure used
 in neural networks. You can consider each function $f^{(n)}$ as a
 <em>layer</em> in the neural network - for example $f^{(2)} is the 2nd
 layer in the network. The number of function calls in the
 structure is the <em>depth</em> of the network. This is where the term
 <em>deep learning</em> comes from.</p><p>Neural networks are often written as the mapping:</p><p>  $$y = f(x; \theta)$$</p><p>Where $x$ is the input to the neural network and $\theta$ are the
-set of learned parameters. In Elixir, you would write this:</p><pre><code class="makeup elixir" translate="no"><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="7857906717-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="7857906717-1">)</span></code></pre><p>From the previous example, <code class="inline">params</code> would represent the collection:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6579514466-1">{</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="6579514466-1">}</span></code></pre><p>where <code class="inline">w1</code> and <code class="inline">w2</code> are layer <em>kernels</em>, and <code class="inline">b1</code> and <code class="inline">b2</code> are layer
+set of learned parameters. In Elixir, you would write this:</p><pre><code class="makeup elixir" translate="no"><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="7997538110-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="7997538110-1">)</span></code></pre><p>From the previous example, <code class="inline">params</code> would represent the collection:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1584960159-1">{</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="1584960159-1">}</span></code></pre><p>where <code class="inline">w1</code> and <code class="inline">w2</code> are layer <em>kernels</em>, and <code class="inline">b1</code> and <code class="inline">b2</code> are layer
 <em>biases</em>.</p>
   </section>
 
@@ -710,19 +710,19 @@ <h1 class="signature" translate="no">bilinear(input1, input2, kernel, bias \\ 0,
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5539575967-1">(</span><span class="p" data-group-id="5539575967-2">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5539575967-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5539575967-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5539575967-3">}</span><span class="p" data-group-id="5539575967-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5539575967-4">(</span><span class="p" data-group-id="5539575967-5">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="5539575967-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5539575967-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5539575967-6">}</span><span class="p" data-group-id="5539575967-4">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5539575967-7">(</span><span class="p" data-group-id="5539575967-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="5539575967-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5539575967-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5539575967-9">}</span><span class="p" data-group-id="5539575967-7">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5539575967-10">(</span><span class="mf">1.0</span><span class="p" data-group-id="5539575967-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">bilinear</span><span class="p" data-group-id="5539575967-11">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="5539575967-11">)</span><span class="w">
-</span><span class="p" data-group-id="5539575967-12">#</span><span class="nc" data-group-id="5539575967-12">Nx.Tensor</span><span class="p" data-group-id="5539575967-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5539575967-13">[</span><span class="mi">3</span><span class="p" data-group-id="5539575967-13">]</span><span class="p" data-group-id="5539575967-14">[</span><span class="mi">1</span><span class="p" data-group-id="5539575967-14">]</span><span class="w">
-  </span><span class="p" data-group-id="5539575967-15">[</span><span class="w">
-    </span><span class="p" data-group-id="5539575967-16">[</span><span class="mf">39.0</span><span class="p" data-group-id="5539575967-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5539575967-17">[</span><span class="mf">455.0</span><span class="p" data-group-id="5539575967-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5539575967-18">[</span><span class="mf">1319.0</span><span class="p" data-group-id="5539575967-18">]</span><span class="w">
-  </span><span class="p" data-group-id="5539575967-15">]</span><span class="w">
-</span><span class="p" data-group-id="5539575967-12">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9986933375-1">(</span><span class="p" data-group-id="9986933375-2">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9986933375-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9986933375-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9986933375-3">}</span><span class="p" data-group-id="9986933375-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9986933375-4">(</span><span class="p" data-group-id="9986933375-5">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="9986933375-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9986933375-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9986933375-6">}</span><span class="p" data-group-id="9986933375-4">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9986933375-7">(</span><span class="p" data-group-id="9986933375-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="9986933375-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9986933375-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9986933375-9">}</span><span class="p" data-group-id="9986933375-7">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9986933375-10">(</span><span class="mf">1.0</span><span class="p" data-group-id="9986933375-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">bilinear</span><span class="p" data-group-id="9986933375-11">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="9986933375-11">)</span><span class="w">
+</span><span class="p" data-group-id="9986933375-12">#</span><span class="nc" data-group-id="9986933375-12">Nx.Tensor</span><span class="p" data-group-id="9986933375-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9986933375-13">[</span><span class="mi">3</span><span class="p" data-group-id="9986933375-13">]</span><span class="p" data-group-id="9986933375-14">[</span><span class="mi">1</span><span class="p" data-group-id="9986933375-14">]</span><span class="w">
+  </span><span class="p" data-group-id="9986933375-15">[</span><span class="w">
+    </span><span class="p" data-group-id="9986933375-16">[</span><span class="mf">39.0</span><span class="p" data-group-id="9986933375-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9986933375-17">[</span><span class="mf">455.0</span><span class="p" data-group-id="9986933375-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9986933375-18">[</span><span class="mf">1319.0</span><span class="p" data-group-id="9986933375-18">]</span><span class="w">
+  </span><span class="p" data-group-id="9986933375-15">]</span><span class="w">
+</span><span class="p" data-group-id="9986933375-12">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="dense/4">
@@ -750,7 +750,7 @@ <h1 class="signature" translate="no">dense(input, kernel, bias \\ 0, opts \\ [])
 
 <p>Functional implementation of a dense layer.</p><p>Linear transformation of the input such that:</p><p>$$y = xW^T + b$$</p><p>A dense layer or fully connected layer transforms
 the input using the given kernel matrix and bias
-to compute:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">dot</span><span class="p" data-group-id="4451347260-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="4451347260-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span></code></pre><p>Typically, both <code class="inline">kernel</code> and <code class="inline">bias</code> are learnable
+to compute:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">dot</span><span class="p" data-group-id="7936775749-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="7936775749-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span></code></pre><p>Typically, both <code class="inline">kernel</code> and <code class="inline">bias</code> are learnable
 parameters trained using gradient-based optimization.</p><h2 id="dense/4-parameter-shapes" class="section-heading">
   <a href="#dense/4-parameter-shapes" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">parameter-shapes</p>
@@ -769,17 +769,17 @@ <h1 class="signature" translate="no">dense(input, kernel, bias \\ 0, opts \\ [])
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9037344526-1">(</span><span class="p" data-group-id="9037344526-2">[</span><span class="p" data-group-id="9037344526-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9037344526-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9037344526-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9037344526-4">]</span><span class="p" data-group-id="9037344526-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9037344526-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9037344526-5">}</span><span class="p" data-group-id="9037344526-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9037344526-6">(</span><span class="p" data-group-id="9037344526-7">[</span><span class="p" data-group-id="9037344526-8">[</span><span class="mf">0.2</span><span class="p" data-group-id="9037344526-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9037344526-9">[</span><span class="mf">0.3</span><span class="p" data-group-id="9037344526-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9037344526-10">[</span><span class="mf">0.5</span><span class="p" data-group-id="9037344526-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9037344526-11">[</span><span class="mf">0.8</span><span class="p" data-group-id="9037344526-11">]</span><span class="p" data-group-id="9037344526-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9037344526-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9037344526-12">}</span><span class="p" data-group-id="9037344526-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9037344526-13">(</span><span class="p" data-group-id="9037344526-14">[</span><span class="mf">1.0</span><span class="p" data-group-id="9037344526-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9037344526-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9037344526-15">}</span><span class="p" data-group-id="9037344526-13">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9037344526-16">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="9037344526-16">)</span><span class="w">
-</span><span class="p" data-group-id="9037344526-17">#</span><span class="nc" data-group-id="9037344526-17">Nx.Tensor</span><span class="p" data-group-id="9037344526-17">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9037344526-18">[</span><span class="mi">2</span><span class="p" data-group-id="9037344526-18">]</span><span class="p" data-group-id="9037344526-19">[</span><span class="mi">1</span><span class="p" data-group-id="9037344526-19">]</span><span class="w">
-  </span><span class="p" data-group-id="9037344526-20">[</span><span class="w">
-    </span><span class="p" data-group-id="9037344526-21">[</span><span class="mf">2.25</span><span class="p" data-group-id="9037344526-21">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9037344526-22">[</span><span class="mf">1.0</span><span class="p" data-group-id="9037344526-22">]</span><span class="w">
-  </span><span class="p" data-group-id="9037344526-20">]</span><span class="w">
-</span><span class="p" data-group-id="9037344526-17">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7875736674-1">(</span><span class="p" data-group-id="7875736674-2">[</span><span class="p" data-group-id="7875736674-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="7875736674-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7875736674-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7875736674-4">]</span><span class="p" data-group-id="7875736674-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7875736674-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7875736674-5">}</span><span class="p" data-group-id="7875736674-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7875736674-6">(</span><span class="p" data-group-id="7875736674-7">[</span><span class="p" data-group-id="7875736674-8">[</span><span class="mf">0.2</span><span class="p" data-group-id="7875736674-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7875736674-9">[</span><span class="mf">0.3</span><span class="p" data-group-id="7875736674-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7875736674-10">[</span><span class="mf">0.5</span><span class="p" data-group-id="7875736674-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7875736674-11">[</span><span class="mf">0.8</span><span class="p" data-group-id="7875736674-11">]</span><span class="p" data-group-id="7875736674-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7875736674-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7875736674-12">}</span><span class="p" data-group-id="7875736674-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7875736674-13">(</span><span class="p" data-group-id="7875736674-14">[</span><span class="mf">1.0</span><span class="p" data-group-id="7875736674-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7875736674-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7875736674-15">}</span><span class="p" data-group-id="7875736674-13">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7875736674-16">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="7875736674-16">)</span><span class="w">
+</span><span class="p" data-group-id="7875736674-17">#</span><span class="nc" data-group-id="7875736674-17">Nx.Tensor</span><span class="p" data-group-id="7875736674-17">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7875736674-18">[</span><span class="mi">2</span><span class="p" data-group-id="7875736674-18">]</span><span class="p" data-group-id="7875736674-19">[</span><span class="mi">1</span><span class="p" data-group-id="7875736674-19">]</span><span class="w">
+  </span><span class="p" data-group-id="7875736674-20">[</span><span class="w">
+    </span><span class="p" data-group-id="7875736674-21">[</span><span class="mf">2.25</span><span class="p" data-group-id="7875736674-21">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7875736674-22">[</span><span class="mf">1.0</span><span class="p" data-group-id="7875736674-22">]</span><span class="w">
+  </span><span class="p" data-group-id="7875736674-20">]</span><span class="w">
+</span><span class="p" data-group-id="7875736674-17">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="embedding/3">
@@ -819,37 +819,37 @@ <h1 class="signature" translate="no">embedding(input, kernel, arg3 \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9575568109-1">(</span><span class="p" data-group-id="9575568109-2">[</span><span class="p" data-group-id="9575568109-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">5</span><span class="p" data-group-id="9575568109-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9575568109-4">[</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p" data-group-id="9575568109-4">]</span><span class="p" data-group-id="9575568109-2">]</span><span class="p" data-group-id="9575568109-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernels</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9575568109-5">(</span><span class="p" data-group-id="9575568109-6">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-7">[</span><span class="mf">0.46299999952316284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5562999844551086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18170000612735748</span><span class="p" data-group-id="9575568109-7">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-8">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="9575568109-8">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-9">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="9575568109-9">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-10">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="9575568109-10">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-11">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="9575568109-11">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-12">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="9575568109-12">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-13">[</span><span class="mf">0.6383000016212463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8794000148773193</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5282999873161316</span><span class="p" data-group-id="9575568109-13">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-14">[</span><span class="mf">0.9523000121116638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7597000002861023</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08250000327825546</span><span class="p" data-group-id="9575568109-14">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-15">[</span><span class="mf">0.6622999906539917</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02329999953508377</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8205999732017517</span><span class="p" data-group-id="9575568109-15">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9575568109-16">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="9575568109-16">]</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="9575568109-6">]</span><span class="p" data-group-id="9575568109-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">embedding</span><span class="p" data-group-id="9575568109-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernels</span><span class="p" data-group-id="9575568109-17">)</span><span class="w">
-</span><span class="p" data-group-id="9575568109-18">#</span><span class="nc" data-group-id="9575568109-18">Nx.Tensor</span><span class="p" data-group-id="9575568109-18">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9575568109-19">[</span><span class="mi">2</span><span class="p" data-group-id="9575568109-19">]</span><span class="p" data-group-id="9575568109-20">[</span><span class="mi">4</span><span class="p" data-group-id="9575568109-20">]</span><span class="p" data-group-id="9575568109-21">[</span><span class="mi">3</span><span class="p" data-group-id="9575568109-21">]</span><span class="w">
-  </span><span class="p" data-group-id="9575568109-22">[</span><span class="w">
-    </span><span class="p" data-group-id="9575568109-23">[</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-24">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="9575568109-24">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-25">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="9575568109-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-26">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="9575568109-26">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-27">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="9575568109-27">]</span><span class="w">
-    </span><span class="p" data-group-id="9575568109-23">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9575568109-28">[</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-29">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="9575568109-29">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-30">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="9575568109-30">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-31">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="9575568109-31">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9575568109-32">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="9575568109-32">]</span><span class="w">
-    </span><span class="p" data-group-id="9575568109-28">]</span><span class="w">
-  </span><span class="p" data-group-id="9575568109-22">]</span><span class="w">
-</span><span class="p" data-group-id="9575568109-18">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3769893265-1">(</span><span class="p" data-group-id="3769893265-2">[</span><span class="p" data-group-id="3769893265-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">5</span><span class="p" data-group-id="3769893265-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3769893265-4">[</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p" data-group-id="3769893265-4">]</span><span class="p" data-group-id="3769893265-2">]</span><span class="p" data-group-id="3769893265-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernels</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3769893265-5">(</span><span class="p" data-group-id="3769893265-6">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-7">[</span><span class="mf">0.46299999952316284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5562999844551086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18170000612735748</span><span class="p" data-group-id="3769893265-7">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-8">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="3769893265-8">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-9">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="3769893265-9">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-10">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="3769893265-10">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-11">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="3769893265-11">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-12">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="3769893265-12">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-13">[</span><span class="mf">0.6383000016212463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8794000148773193</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5282999873161316</span><span class="p" data-group-id="3769893265-13">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-14">[</span><span class="mf">0.9523000121116638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7597000002861023</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08250000327825546</span><span class="p" data-group-id="3769893265-14">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-15">[</span><span class="mf">0.6622999906539917</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02329999953508377</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8205999732017517</span><span class="p" data-group-id="3769893265-15">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3769893265-16">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="3769893265-16">]</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3769893265-6">]</span><span class="p" data-group-id="3769893265-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">embedding</span><span class="p" data-group-id="3769893265-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernels</span><span class="p" data-group-id="3769893265-17">)</span><span class="w">
+</span><span class="p" data-group-id="3769893265-18">#</span><span class="nc" data-group-id="3769893265-18">Nx.Tensor</span><span class="p" data-group-id="3769893265-18">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3769893265-19">[</span><span class="mi">2</span><span class="p" data-group-id="3769893265-19">]</span><span class="p" data-group-id="3769893265-20">[</span><span class="mi">4</span><span class="p" data-group-id="3769893265-20">]</span><span class="p" data-group-id="3769893265-21">[</span><span class="mi">3</span><span class="p" data-group-id="3769893265-21">]</span><span class="w">
+  </span><span class="p" data-group-id="3769893265-22">[</span><span class="w">
+    </span><span class="p" data-group-id="3769893265-23">[</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-24">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="3769893265-24">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-25">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="3769893265-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-26">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="3769893265-26">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-27">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="3769893265-27">]</span><span class="w">
+    </span><span class="p" data-group-id="3769893265-23">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3769893265-28">[</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-29">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="3769893265-29">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-30">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="3769893265-30">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-31">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="3769893265-31">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3769893265-32">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="3769893265-32">]</span><span class="w">
+    </span><span class="p" data-group-id="3769893265-28">]</span><span class="w">
+  </span><span class="p" data-group-id="3769893265-22">]</span><span class="w">
+</span><span class="p" data-group-id="3769893265-18">&gt;</span></code></pre>
   </section>
 </section>
 
@@ -1273,33 +1273,33 @@ <h1 class="signature" translate="no">global_avg_pool(input, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="2131996677-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2131996677-2">(</span><span class="p" data-group-id="2131996677-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2131996677-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2131996677-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2131996677-4">}</span><span class="p" data-group-id="2131996677-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="2131996677-1">)</span><span class="w">
-</span><span class="p" data-group-id="2131996677-5">#</span><span class="nc" data-group-id="2131996677-5">Nx.Tensor</span><span class="p" data-group-id="2131996677-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2131996677-6">[</span><span class="mi">3</span><span class="p" data-group-id="2131996677-6">]</span><span class="p" data-group-id="2131996677-7">[</span><span class="mi">2</span><span class="p" data-group-id="2131996677-7">]</span><span class="w">
-  </span><span class="p" data-group-id="2131996677-8">[</span><span class="w">
-    </span><span class="p" data-group-id="2131996677-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p" data-group-id="2131996677-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2131996677-10">[</span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p" data-group-id="2131996677-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2131996677-11">[</span><span class="mf">13.0</span><span class="p">,</span><span class="w"> </span><span class="mf">16.0</span><span class="p" data-group-id="2131996677-11">]</span><span class="w">
-  </span><span class="p" data-group-id="2131996677-8">]</span><span class="w">
-</span><span class="p" data-group-id="2131996677-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="2131996677-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2131996677-13">(</span><span class="p" data-group-id="2131996677-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2131996677-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2131996677-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2131996677-15">}</span><span class="p" data-group-id="2131996677-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2131996677-12">)</span><span class="w">
-</span><span class="p" data-group-id="2131996677-16">#</span><span class="nc" data-group-id="2131996677-16">Nx.Tensor</span><span class="p" data-group-id="2131996677-16">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2131996677-17">[</span><span class="mi">1</span><span class="p" data-group-id="2131996677-17">]</span><span class="p" data-group-id="2131996677-18">[</span><span class="mi">3</span><span class="p" data-group-id="2131996677-18">]</span><span class="p" data-group-id="2131996677-19">[</span><span class="mi">1</span><span class="p" data-group-id="2131996677-19">]</span><span class="p" data-group-id="2131996677-20">[</span><span class="mi">1</span><span class="p" data-group-id="2131996677-20">]</span><span class="w">
-  </span><span class="p" data-group-id="2131996677-21">[</span><span class="w">
-    </span><span class="p" data-group-id="2131996677-22">[</span><span class="w">
-      </span><span class="p" data-group-id="2131996677-23">[</span><span class="w">
-        </span><span class="p" data-group-id="2131996677-24">[</span><span class="mf">1.5</span><span class="p" data-group-id="2131996677-24">]</span><span class="w">
-      </span><span class="p" data-group-id="2131996677-23">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="2131996677-25">[</span><span class="w">
-        </span><span class="p" data-group-id="2131996677-26">[</span><span class="mf">5.5</span><span class="p" data-group-id="2131996677-26">]</span><span class="w">
-      </span><span class="p" data-group-id="2131996677-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="2131996677-27">[</span><span class="w">
-        </span><span class="p" data-group-id="2131996677-28">[</span><span class="mf">9.5</span><span class="p" data-group-id="2131996677-28">]</span><span class="w">
-      </span><span class="p" data-group-id="2131996677-27">]</span><span class="w">
-    </span><span class="p" data-group-id="2131996677-22">]</span><span class="w">
-  </span><span class="p" data-group-id="2131996677-21">]</span><span class="w">
-</span><span class="p" data-group-id="2131996677-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="7320827125-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7320827125-2">(</span><span class="p" data-group-id="7320827125-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7320827125-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7320827125-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7320827125-4">}</span><span class="p" data-group-id="7320827125-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="7320827125-1">)</span><span class="w">
+</span><span class="p" data-group-id="7320827125-5">#</span><span class="nc" data-group-id="7320827125-5">Nx.Tensor</span><span class="p" data-group-id="7320827125-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7320827125-6">[</span><span class="mi">3</span><span class="p" data-group-id="7320827125-6">]</span><span class="p" data-group-id="7320827125-7">[</span><span class="mi">2</span><span class="p" data-group-id="7320827125-7">]</span><span class="w">
+  </span><span class="p" data-group-id="7320827125-8">[</span><span class="w">
+    </span><span class="p" data-group-id="7320827125-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p" data-group-id="7320827125-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7320827125-10">[</span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p" data-group-id="7320827125-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7320827125-11">[</span><span class="mf">13.0</span><span class="p">,</span><span class="w"> </span><span class="mf">16.0</span><span class="p" data-group-id="7320827125-11">]</span><span class="w">
+  </span><span class="p" data-group-id="7320827125-8">]</span><span class="w">
+</span><span class="p" data-group-id="7320827125-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="7320827125-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7320827125-13">(</span><span class="p" data-group-id="7320827125-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7320827125-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7320827125-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7320827125-15">}</span><span class="p" data-group-id="7320827125-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7320827125-12">)</span><span class="w">
+</span><span class="p" data-group-id="7320827125-16">#</span><span class="nc" data-group-id="7320827125-16">Nx.Tensor</span><span class="p" data-group-id="7320827125-16">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7320827125-17">[</span><span class="mi">1</span><span class="p" data-group-id="7320827125-17">]</span><span class="p" data-group-id="7320827125-18">[</span><span class="mi">3</span><span class="p" data-group-id="7320827125-18">]</span><span class="p" data-group-id="7320827125-19">[</span><span class="mi">1</span><span class="p" data-group-id="7320827125-19">]</span><span class="p" data-group-id="7320827125-20">[</span><span class="mi">1</span><span class="p" data-group-id="7320827125-20">]</span><span class="w">
+  </span><span class="p" data-group-id="7320827125-21">[</span><span class="w">
+    </span><span class="p" data-group-id="7320827125-22">[</span><span class="w">
+      </span><span class="p" data-group-id="7320827125-23">[</span><span class="w">
+        </span><span class="p" data-group-id="7320827125-24">[</span><span class="mf">1.5</span><span class="p" data-group-id="7320827125-24">]</span><span class="w">
+      </span><span class="p" data-group-id="7320827125-23">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="7320827125-25">[</span><span class="w">
+        </span><span class="p" data-group-id="7320827125-26">[</span><span class="mf">5.5</span><span class="p" data-group-id="7320827125-26">]</span><span class="w">
+      </span><span class="p" data-group-id="7320827125-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="7320827125-27">[</span><span class="w">
+        </span><span class="p" data-group-id="7320827125-28">[</span><span class="mf">9.5</span><span class="p" data-group-id="7320827125-28">]</span><span class="w">
+      </span><span class="p" data-group-id="7320827125-27">]</span><span class="w">
+    </span><span class="p" data-group-id="7320827125-22">]</span><span class="w">
+  </span><span class="p" data-group-id="7320827125-21">]</span><span class="w">
+</span><span class="p" data-group-id="7320827125-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="global_lp_pool/2">
@@ -1344,33 +1344,33 @@ <h1 class="signature" translate="no">global_lp_pool(input, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="7684586833-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7684586833-2">(</span><span class="p" data-group-id="7684586833-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7684586833-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7684586833-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7684586833-4">}</span><span class="p" data-group-id="7684586833-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="7684586833-1">)</span><span class="w">
-</span><span class="p" data-group-id="7684586833-5">#</span><span class="nc" data-group-id="7684586833-5">Nx.Tensor</span><span class="p" data-group-id="7684586833-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7684586833-6">[</span><span class="mi">3</span><span class="p" data-group-id="7684586833-6">]</span><span class="p" data-group-id="7684586833-7">[</span><span class="mi">2</span><span class="p" data-group-id="7684586833-7">]</span><span class="w">
-  </span><span class="p" data-group-id="7684586833-8">[</span><span class="w">
-    </span><span class="p" data-group-id="7684586833-9">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p" data-group-id="7684586833-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7684586833-10">[</span><span class="mf">21.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="7684586833-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7684586833-11">[</span><span class="mf">39.0</span><span class="p">,</span><span class="w"> </span><span class="mf">48.0</span><span class="p" data-group-id="7684586833-11">]</span><span class="w">
-  </span><span class="p" data-group-id="7684586833-8">]</span><span class="w">
-</span><span class="p" data-group-id="7684586833-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="7684586833-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7684586833-13">(</span><span class="p" data-group-id="7684586833-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7684586833-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7684586833-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7684586833-15">}</span><span class="p" data-group-id="7684586833-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="7684586833-12">)</span><span class="w">
-</span><span class="p" data-group-id="7684586833-16">#</span><span class="nc" data-group-id="7684586833-16">Nx.Tensor</span><span class="p" data-group-id="7684586833-16">&lt;</span><span class="w">
-  </span><span class="n">f16</span><span class="p" data-group-id="7684586833-17">[</span><span class="mi">1</span><span class="p" data-group-id="7684586833-17">]</span><span class="p" data-group-id="7684586833-18">[</span><span class="mi">3</span><span class="p" data-group-id="7684586833-18">]</span><span class="p" data-group-id="7684586833-19">[</span><span class="mi">1</span><span class="p" data-group-id="7684586833-19">]</span><span class="p" data-group-id="7684586833-20">[</span><span class="mi">1</span><span class="p" data-group-id="7684586833-20">]</span><span class="w">
-  </span><span class="p" data-group-id="7684586833-21">[</span><span class="w">
-    </span><span class="p" data-group-id="7684586833-22">[</span><span class="w">
-      </span><span class="p" data-group-id="7684586833-23">[</span><span class="w">
-        </span><span class="p" data-group-id="7684586833-24">[</span><span class="mf">3.7421875</span><span class="p" data-group-id="7684586833-24">]</span><span class="w">
-      </span><span class="p" data-group-id="7684586833-23">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="7684586833-25">[</span><span class="w">
-        </span><span class="p" data-group-id="7684586833-26">[</span><span class="mf">11.2265625</span><span class="p" data-group-id="7684586833-26">]</span><span class="w">
-      </span><span class="p" data-group-id="7684586833-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="7684586833-27">[</span><span class="w">
-        </span><span class="p" data-group-id="7684586833-28">[</span><span class="mf">19.125</span><span class="p" data-group-id="7684586833-28">]</span><span class="w">
-      </span><span class="p" data-group-id="7684586833-27">]</span><span class="w">
-    </span><span class="p" data-group-id="7684586833-22">]</span><span class="w">
-  </span><span class="p" data-group-id="7684586833-21">]</span><span class="w">
-</span><span class="p" data-group-id="7684586833-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="3930868471-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3930868471-2">(</span><span class="p" data-group-id="3930868471-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3930868471-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3930868471-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3930868471-4">}</span><span class="p" data-group-id="3930868471-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3930868471-1">)</span><span class="w">
+</span><span class="p" data-group-id="3930868471-5">#</span><span class="nc" data-group-id="3930868471-5">Nx.Tensor</span><span class="p" data-group-id="3930868471-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3930868471-6">[</span><span class="mi">3</span><span class="p" data-group-id="3930868471-6">]</span><span class="p" data-group-id="3930868471-7">[</span><span class="mi">2</span><span class="p" data-group-id="3930868471-7">]</span><span class="w">
+  </span><span class="p" data-group-id="3930868471-8">[</span><span class="w">
+    </span><span class="p" data-group-id="3930868471-9">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p" data-group-id="3930868471-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3930868471-10">[</span><span class="mf">21.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="3930868471-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3930868471-11">[</span><span class="mf">39.0</span><span class="p">,</span><span class="w"> </span><span class="mf">48.0</span><span class="p" data-group-id="3930868471-11">]</span><span class="w">
+  </span><span class="p" data-group-id="3930868471-8">]</span><span class="w">
+</span><span class="p" data-group-id="3930868471-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="3930868471-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3930868471-13">(</span><span class="p" data-group-id="3930868471-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3930868471-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3930868471-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3930868471-15">}</span><span class="p" data-group-id="3930868471-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3930868471-12">)</span><span class="w">
+</span><span class="p" data-group-id="3930868471-16">#</span><span class="nc" data-group-id="3930868471-16">Nx.Tensor</span><span class="p" data-group-id="3930868471-16">&lt;</span><span class="w">
+  </span><span class="n">f16</span><span class="p" data-group-id="3930868471-17">[</span><span class="mi">1</span><span class="p" data-group-id="3930868471-17">]</span><span class="p" data-group-id="3930868471-18">[</span><span class="mi">3</span><span class="p" data-group-id="3930868471-18">]</span><span class="p" data-group-id="3930868471-19">[</span><span class="mi">1</span><span class="p" data-group-id="3930868471-19">]</span><span class="p" data-group-id="3930868471-20">[</span><span class="mi">1</span><span class="p" data-group-id="3930868471-20">]</span><span class="w">
+  </span><span class="p" data-group-id="3930868471-21">[</span><span class="w">
+    </span><span class="p" data-group-id="3930868471-22">[</span><span class="w">
+      </span><span class="p" data-group-id="3930868471-23">[</span><span class="w">
+        </span><span class="p" data-group-id="3930868471-24">[</span><span class="mf">3.7421875</span><span class="p" data-group-id="3930868471-24">]</span><span class="w">
+      </span><span class="p" data-group-id="3930868471-23">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3930868471-25">[</span><span class="w">
+        </span><span class="p" data-group-id="3930868471-26">[</span><span class="mf">11.2265625</span><span class="p" data-group-id="3930868471-26">]</span><span class="w">
+      </span><span class="p" data-group-id="3930868471-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3930868471-27">[</span><span class="w">
+        </span><span class="p" data-group-id="3930868471-28">[</span><span class="mf">19.125</span><span class="p" data-group-id="3930868471-28">]</span><span class="w">
+      </span><span class="p" data-group-id="3930868471-27">]</span><span class="w">
+    </span><span class="p" data-group-id="3930868471-22">]</span><span class="w">
+  </span><span class="p" data-group-id="3930868471-21">]</span><span class="w">
+</span><span class="p" data-group-id="3930868471-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="global_max_pool/2">
@@ -1415,33 +1415,33 @@ <h1 class="signature" translate="no">global_max_pool(input, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="5775056959-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5775056959-2">(</span><span class="p" data-group-id="5775056959-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5775056959-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5775056959-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5775056959-4">}</span><span class="p" data-group-id="5775056959-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="5775056959-1">)</span><span class="w">
-</span><span class="p" data-group-id="5775056959-5">#</span><span class="nc" data-group-id="5775056959-5">Nx.Tensor</span><span class="p" data-group-id="5775056959-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5775056959-6">[</span><span class="mi">3</span><span class="p" data-group-id="5775056959-6">]</span><span class="p" data-group-id="5775056959-7">[</span><span class="mi">2</span><span class="p" data-group-id="5775056959-7">]</span><span class="w">
-  </span><span class="p" data-group-id="5775056959-8">[</span><span class="w">
-    </span><span class="p" data-group-id="5775056959-9">[</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="5775056959-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5775056959-10">[</span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">11.0</span><span class="p" data-group-id="5775056959-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5775056959-11">[</span><span class="mf">14.0</span><span class="p">,</span><span class="w"> </span><span class="mf">17.0</span><span class="p" data-group-id="5775056959-11">]</span><span class="w">
-  </span><span class="p" data-group-id="5775056959-8">]</span><span class="w">
-</span><span class="p" data-group-id="5775056959-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="5775056959-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5775056959-13">(</span><span class="p" data-group-id="5775056959-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5775056959-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5775056959-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5775056959-15">}</span><span class="p" data-group-id="5775056959-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="5775056959-12">)</span><span class="w">
-</span><span class="p" data-group-id="5775056959-16">#</span><span class="nc" data-group-id="5775056959-16">Nx.Tensor</span><span class="p" data-group-id="5775056959-16">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5775056959-17">[</span><span class="mi">1</span><span class="p" data-group-id="5775056959-17">]</span><span class="p" data-group-id="5775056959-18">[</span><span class="mi">3</span><span class="p" data-group-id="5775056959-18">]</span><span class="p" data-group-id="5775056959-19">[</span><span class="mi">1</span><span class="p" data-group-id="5775056959-19">]</span><span class="p" data-group-id="5775056959-20">[</span><span class="mi">1</span><span class="p" data-group-id="5775056959-20">]</span><span class="w">
-  </span><span class="p" data-group-id="5775056959-21">[</span><span class="w">
-    </span><span class="p" data-group-id="5775056959-22">[</span><span class="w">
-      </span><span class="p" data-group-id="5775056959-23">[</span><span class="w">
-        </span><span class="p" data-group-id="5775056959-24">[</span><span class="mf">3.0</span><span class="p" data-group-id="5775056959-24">]</span><span class="w">
-      </span><span class="p" data-group-id="5775056959-23">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5775056959-25">[</span><span class="w">
-        </span><span class="p" data-group-id="5775056959-26">[</span><span class="mf">7.0</span><span class="p" data-group-id="5775056959-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5775056959-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5775056959-27">[</span><span class="w">
-        </span><span class="p" data-group-id="5775056959-28">[</span><span class="mf">11.0</span><span class="p" data-group-id="5775056959-28">]</span><span class="w">
-      </span><span class="p" data-group-id="5775056959-27">]</span><span class="w">
-    </span><span class="p" data-group-id="5775056959-22">]</span><span class="w">
-  </span><span class="p" data-group-id="5775056959-21">]</span><span class="w">
-</span><span class="p" data-group-id="5775056959-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="5209096875-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5209096875-2">(</span><span class="p" data-group-id="5209096875-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5209096875-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5209096875-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5209096875-4">}</span><span class="p" data-group-id="5209096875-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="5209096875-1">)</span><span class="w">
+</span><span class="p" data-group-id="5209096875-5">#</span><span class="nc" data-group-id="5209096875-5">Nx.Tensor</span><span class="p" data-group-id="5209096875-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5209096875-6">[</span><span class="mi">3</span><span class="p" data-group-id="5209096875-6">]</span><span class="p" data-group-id="5209096875-7">[</span><span class="mi">2</span><span class="p" data-group-id="5209096875-7">]</span><span class="w">
+  </span><span class="p" data-group-id="5209096875-8">[</span><span class="w">
+    </span><span class="p" data-group-id="5209096875-9">[</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="5209096875-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5209096875-10">[</span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">11.0</span><span class="p" data-group-id="5209096875-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5209096875-11">[</span><span class="mf">14.0</span><span class="p">,</span><span class="w"> </span><span class="mf">17.0</span><span class="p" data-group-id="5209096875-11">]</span><span class="w">
+  </span><span class="p" data-group-id="5209096875-8">]</span><span class="w">
+</span><span class="p" data-group-id="5209096875-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="5209096875-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5209096875-13">(</span><span class="p" data-group-id="5209096875-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5209096875-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5209096875-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5209096875-15">}</span><span class="p" data-group-id="5209096875-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="5209096875-12">)</span><span class="w">
+</span><span class="p" data-group-id="5209096875-16">#</span><span class="nc" data-group-id="5209096875-16">Nx.Tensor</span><span class="p" data-group-id="5209096875-16">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5209096875-17">[</span><span class="mi">1</span><span class="p" data-group-id="5209096875-17">]</span><span class="p" data-group-id="5209096875-18">[</span><span class="mi">3</span><span class="p" data-group-id="5209096875-18">]</span><span class="p" data-group-id="5209096875-19">[</span><span class="mi">1</span><span class="p" data-group-id="5209096875-19">]</span><span class="p" data-group-id="5209096875-20">[</span><span class="mi">1</span><span class="p" data-group-id="5209096875-20">]</span><span class="w">
+  </span><span class="p" data-group-id="5209096875-21">[</span><span class="w">
+    </span><span class="p" data-group-id="5209096875-22">[</span><span class="w">
+      </span><span class="p" data-group-id="5209096875-23">[</span><span class="w">
+        </span><span class="p" data-group-id="5209096875-24">[</span><span class="mf">3.0</span><span class="p" data-group-id="5209096875-24">]</span><span class="w">
+      </span><span class="p" data-group-id="5209096875-23">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5209096875-25">[</span><span class="w">
+        </span><span class="p" data-group-id="5209096875-26">[</span><span class="mf">7.0</span><span class="p" data-group-id="5209096875-26">]</span><span class="w">
+      </span><span class="p" data-group-id="5209096875-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5209096875-27">[</span><span class="w">
+        </span><span class="p" data-group-id="5209096875-28">[</span><span class="mf">11.0</span><span class="p" data-group-id="5209096875-28">]</span><span class="w">
+      </span><span class="p" data-group-id="5209096875-27">]</span><span class="w">
+    </span><span class="p" data-group-id="5209096875-22">]</span><span class="w">
+  </span><span class="p" data-group-id="5209096875-21">]</span><span class="w">
+</span><span class="p" data-group-id="5209096875-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="lp_pool/2">
@@ -1493,18 +1493,18 @@ <h1 class="signature" translate="no">lp_pool(input, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8912254505-1">(</span><span class="p" data-group-id="8912254505-2">[</span><span class="p" data-group-id="8912254505-3">[</span><span class="p" data-group-id="8912254505-4">[</span><span class="mf">0.9450</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4684</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8146</span><span class="p" data-group-id="8912254505-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8912254505-5">[</span><span class="mf">1.2663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4354</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0781</span><span class="p" data-group-id="8912254505-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8912254505-6">[</span><span class="o">-</span><span class="mf">0.4759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8742</span><span class="p" data-group-id="8912254505-6">]</span><span class="p" data-group-id="8912254505-3">]</span><span class="p" data-group-id="8912254505-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8912254505-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8912254505-7">}</span><span class="p" data-group-id="8912254505-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">lp_pool</span><span class="p" data-group-id="8912254505-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="8912254505-8">)</span><span class="w">
-</span><span class="p" data-group-id="8912254505-9">#</span><span class="nc" data-group-id="8912254505-9">Nx.Tensor</span><span class="p" data-group-id="8912254505-9">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8912254505-10">[</span><span class="mi">1</span><span class="p" data-group-id="8912254505-10">]</span><span class="p" data-group-id="8912254505-11">[</span><span class="mi">3</span><span class="p" data-group-id="8912254505-11">]</span><span class="p" data-group-id="8912254505-12">[</span><span class="mi">1</span><span class="p" data-group-id="8912254505-12">]</span><span class="w">
-  </span><span class="p" data-group-id="8912254505-13">[</span><span class="w">
-    </span><span class="p" data-group-id="8912254505-14">[</span><span class="w">
-      </span><span class="p" data-group-id="8912254505-15">[</span><span class="mf">1.0547149181365967</span><span class="p" data-group-id="8912254505-15">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8912254505-16">[</span><span class="mf">1.3390626907348633</span><span class="p" data-group-id="8912254505-16">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8912254505-17">[</span><span class="mf">0.5763426423072815</span><span class="p" data-group-id="8912254505-17">]</span><span class="w">
-    </span><span class="p" data-group-id="8912254505-14">]</span><span class="w">
-  </span><span class="p" data-group-id="8912254505-13">]</span><span class="w">
-</span><span class="p" data-group-id="8912254505-9">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1712197172-1">(</span><span class="p" data-group-id="1712197172-2">[</span><span class="p" data-group-id="1712197172-3">[</span><span class="p" data-group-id="1712197172-4">[</span><span class="mf">0.9450</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4684</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8146</span><span class="p" data-group-id="1712197172-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1712197172-5">[</span><span class="mf">1.2663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4354</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0781</span><span class="p" data-group-id="1712197172-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1712197172-6">[</span><span class="o">-</span><span class="mf">0.4759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8742</span><span class="p" data-group-id="1712197172-6">]</span><span class="p" data-group-id="1712197172-3">]</span><span class="p" data-group-id="1712197172-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1712197172-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1712197172-7">}</span><span class="p" data-group-id="1712197172-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">lp_pool</span><span class="p" data-group-id="1712197172-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="1712197172-8">)</span><span class="w">
+</span><span class="p" data-group-id="1712197172-9">#</span><span class="nc" data-group-id="1712197172-9">Nx.Tensor</span><span class="p" data-group-id="1712197172-9">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1712197172-10">[</span><span class="mi">1</span><span class="p" data-group-id="1712197172-10">]</span><span class="p" data-group-id="1712197172-11">[</span><span class="mi">3</span><span class="p" data-group-id="1712197172-11">]</span><span class="p" data-group-id="1712197172-12">[</span><span class="mi">1</span><span class="p" data-group-id="1712197172-12">]</span><span class="w">
+  </span><span class="p" data-group-id="1712197172-13">[</span><span class="w">
+    </span><span class="p" data-group-id="1712197172-14">[</span><span class="w">
+      </span><span class="p" data-group-id="1712197172-15">[</span><span class="mf">1.0547149181365967</span><span class="p" data-group-id="1712197172-15">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1712197172-16">[</span><span class="mf">1.3390626907348633</span><span class="p" data-group-id="1712197172-16">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1712197172-17">[</span><span class="mf">0.5763426423072815</span><span class="p" data-group-id="1712197172-17">]</span><span class="w">
+    </span><span class="p" data-group-id="1712197172-14">]</span><span class="w">
+  </span><span class="p" data-group-id="1712197172-13">]</span><span class="w">
+</span><span class="p" data-group-id="1712197172-9">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="max_pool/2">
@@ -1555,21 +1555,21 @@ <h1 class="signature" translate="no">max_pool(input, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5103463346-1">(</span><span class="p" data-group-id="5103463346-2">[</span><span class="p" data-group-id="5103463346-3">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="5103463346-4">[</span><span class="mf">0.051500000059604645</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7042999863624573</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32899999618530273</span><span class="p" data-group-id="5103463346-4">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="5103463346-5">[</span><span class="o">-</span><span class="mf">0.37130001187324524</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6191999912261963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11829999834299088</span><span class="p" data-group-id="5103463346-5">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="5103463346-6">[</span><span class="mf">0.7099999785423279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7282999753952026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18639999628067017</span><span class="p" data-group-id="5103463346-6">]</span><span class="p" data-group-id="5103463346-3">]</span><span class="p" data-group-id="5103463346-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5103463346-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5103463346-7">}</span><span class="p" data-group-id="5103463346-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="5103463346-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="5103463346-8">)</span><span class="w">
-</span><span class="p" data-group-id="5103463346-9">#</span><span class="nc" data-group-id="5103463346-9">Nx.Tensor</span><span class="p" data-group-id="5103463346-9">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5103463346-10">[</span><span class="mi">1</span><span class="p" data-group-id="5103463346-10">]</span><span class="p" data-group-id="5103463346-11">[</span><span class="mi">3</span><span class="p" data-group-id="5103463346-11">]</span><span class="p" data-group-id="5103463346-12">[</span><span class="mi">1</span><span class="p" data-group-id="5103463346-12">]</span><span class="w">
-  </span><span class="p" data-group-id="5103463346-13">[</span><span class="w">
-    </span><span class="p" data-group-id="5103463346-14">[</span><span class="w">
-      </span><span class="p" data-group-id="5103463346-15">[</span><span class="mf">0.051500000059604645</span><span class="p" data-group-id="5103463346-15">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5103463346-16">[</span><span class="mf">1.6191999912261963</span><span class="p" data-group-id="5103463346-16">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5103463346-17">[</span><span class="mf">0.7282999753952026</span><span class="p" data-group-id="5103463346-17">]</span><span class="w">
-    </span><span class="p" data-group-id="5103463346-14">]</span><span class="w">
-  </span><span class="p" data-group-id="5103463346-13">]</span><span class="w">
-</span><span class="p" data-group-id="5103463346-9">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3232252247-1">(</span><span class="p" data-group-id="3232252247-2">[</span><span class="p" data-group-id="3232252247-3">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3232252247-4">[</span><span class="mf">0.051500000059604645</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7042999863624573</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32899999618530273</span><span class="p" data-group-id="3232252247-4">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3232252247-5">[</span><span class="o">-</span><span class="mf">0.37130001187324524</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6191999912261963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11829999834299088</span><span class="p" data-group-id="3232252247-5">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3232252247-6">[</span><span class="mf">0.7099999785423279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7282999753952026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18639999628067017</span><span class="p" data-group-id="3232252247-6">]</span><span class="p" data-group-id="3232252247-3">]</span><span class="p" data-group-id="3232252247-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3232252247-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3232252247-7">}</span><span class="p" data-group-id="3232252247-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="3232252247-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3232252247-8">)</span><span class="w">
+</span><span class="p" data-group-id="3232252247-9">#</span><span class="nc" data-group-id="3232252247-9">Nx.Tensor</span><span class="p" data-group-id="3232252247-9">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3232252247-10">[</span><span class="mi">1</span><span class="p" data-group-id="3232252247-10">]</span><span class="p" data-group-id="3232252247-11">[</span><span class="mi">3</span><span class="p" data-group-id="3232252247-11">]</span><span class="p" data-group-id="3232252247-12">[</span><span class="mi">1</span><span class="p" data-group-id="3232252247-12">]</span><span class="w">
+  </span><span class="p" data-group-id="3232252247-13">[</span><span class="w">
+    </span><span class="p" data-group-id="3232252247-14">[</span><span class="w">
+      </span><span class="p" data-group-id="3232252247-15">[</span><span class="mf">0.051500000059604645</span><span class="p" data-group-id="3232252247-15">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3232252247-16">[</span><span class="mf">1.6191999912261963</span><span class="p" data-group-id="3232252247-16">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3232252247-17">[</span><span class="mf">0.7282999753952026</span><span class="p" data-group-id="3232252247-17">]</span><span class="w">
+    </span><span class="p" data-group-id="3232252247-14">]</span><span class="w">
+  </span><span class="p" data-group-id="3232252247-13">]</span><span class="w">
+</span><span class="p" data-group-id="3232252247-9">&gt;</span></code></pre>
   </section>
 </section>
 
@@ -1786,13 +1786,13 @@ <h1 class="signature" translate="no">flatten(input, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="0454841800-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0454841800-2">(</span><span class="p" data-group-id="0454841800-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0454841800-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0454841800-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0454841800-4">}</span><span class="p" data-group-id="0454841800-2">)</span><span class="p" data-group-id="0454841800-1">)</span><span class="w">
-</span><span class="p" data-group-id="0454841800-5">#</span><span class="nc" data-group-id="0454841800-5">Nx.Tensor</span><span class="p" data-group-id="0454841800-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0454841800-6">[</span><span class="mi">1</span><span class="p" data-group-id="0454841800-6">]</span><span class="p" data-group-id="0454841800-7">[</span><span class="mi">4</span><span class="p" data-group-id="0454841800-7">]</span><span class="w">
-  </span><span class="p" data-group-id="0454841800-8">[</span><span class="w">
-    </span><span class="p" data-group-id="0454841800-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0454841800-9">]</span><span class="w">
-  </span><span class="p" data-group-id="0454841800-8">]</span><span class="w">
-</span><span class="p" data-group-id="0454841800-5">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="1744334398-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1744334398-2">(</span><span class="p" data-group-id="1744334398-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1744334398-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1744334398-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1744334398-4">}</span><span class="p" data-group-id="1744334398-2">)</span><span class="p" data-group-id="1744334398-1">)</span><span class="w">
+</span><span class="p" data-group-id="1744334398-5">#</span><span class="nc" data-group-id="1744334398-5">Nx.Tensor</span><span class="p" data-group-id="1744334398-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1744334398-6">[</span><span class="mi">1</span><span class="p" data-group-id="1744334398-6">]</span><span class="p" data-group-id="1744334398-7">[</span><span class="mi">4</span><span class="p" data-group-id="1744334398-7">]</span><span class="w">
+  </span><span class="p" data-group-id="1744334398-8">[</span><span class="w">
+    </span><span class="p" data-group-id="1744334398-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1744334398-9">]</span><span class="w">
+  </span><span class="p" data-group-id="1744334398-8">]</span><span class="w">
+</span><span class="p" data-group-id="1744334398-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="resize/2">
@@ -1826,28 +1826,28 @@ <h1 class="signature" translate="no">resize(input, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="8256915910-1">(</span><span class="p" data-group-id="8256915910-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8256915910-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8256915910-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8256915910-3">}</span><span class="p" data-group-id="8256915910-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="8256915910-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8256915910-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="8256915910-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="8256915910-4">)</span><span class="w">
-</span><span class="p" data-group-id="8256915910-6">#</span><span class="nc" data-group-id="8256915910-6">Nx.Tensor</span><span class="p" data-group-id="8256915910-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8256915910-7">[</span><span class="mi">1</span><span class="p" data-group-id="8256915910-7">]</span><span class="p" data-group-id="8256915910-8">[</span><span class="mi">1</span><span class="p" data-group-id="8256915910-8">]</span><span class="p" data-group-id="8256915910-9">[</span><span class="mi">4</span><span class="p" data-group-id="8256915910-9">]</span><span class="p" data-group-id="8256915910-10">[</span><span class="mi">4</span><span class="p" data-group-id="8256915910-10">]</span><span class="w">
-  </span><span class="p" data-group-id="8256915910-11">[</span><span class="w">
-    </span><span class="p" data-group-id="8256915910-12">[</span><span class="w">
-      </span><span class="p" data-group-id="8256915910-13">[</span><span class="w">
-        </span><span class="p" data-group-id="8256915910-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="8256915910-14">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8256915910-15">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="8256915910-15">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8256915910-16">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="8256915910-16">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8256915910-17">[</span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p" data-group-id="8256915910-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8256915910-13">]</span><span class="w">
-    </span><span class="p" data-group-id="8256915910-12">]</span><span class="w">
-  </span><span class="p" data-group-id="8256915910-11">]</span><span class="w">
-</span><span class="p" data-group-id="8256915910-6">&gt;</span></code></pre><h3 id="resize/2-error-cases" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6916392335-1">(</span><span class="p" data-group-id="6916392335-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6916392335-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6916392335-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6916392335-3">}</span><span class="p" data-group-id="6916392335-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="6916392335-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6916392335-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="6916392335-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="6916392335-4">)</span><span class="w">
+</span><span class="p" data-group-id="6916392335-6">#</span><span class="nc" data-group-id="6916392335-6">Nx.Tensor</span><span class="p" data-group-id="6916392335-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6916392335-7">[</span><span class="mi">1</span><span class="p" data-group-id="6916392335-7">]</span><span class="p" data-group-id="6916392335-8">[</span><span class="mi">1</span><span class="p" data-group-id="6916392335-8">]</span><span class="p" data-group-id="6916392335-9">[</span><span class="mi">4</span><span class="p" data-group-id="6916392335-9">]</span><span class="p" data-group-id="6916392335-10">[</span><span class="mi">4</span><span class="p" data-group-id="6916392335-10">]</span><span class="w">
+  </span><span class="p" data-group-id="6916392335-11">[</span><span class="w">
+    </span><span class="p" data-group-id="6916392335-12">[</span><span class="w">
+      </span><span class="p" data-group-id="6916392335-13">[</span><span class="w">
+        </span><span class="p" data-group-id="6916392335-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="6916392335-14">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6916392335-15">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="6916392335-15">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6916392335-16">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="6916392335-16">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6916392335-17">[</span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p" data-group-id="6916392335-17">]</span><span class="w">
+      </span><span class="p" data-group-id="6916392335-13">]</span><span class="w">
+    </span><span class="p" data-group-id="6916392335-12">]</span><span class="w">
+  </span><span class="p" data-group-id="6916392335-11">]</span><span class="w">
+</span><span class="p" data-group-id="6916392335-6">&gt;</span></code></pre><h3 id="resize/2-error-cases" class="section-heading">
   <a href="#resize/2-error-cases" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">error-cases</p>
   </a>
   Error cases
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3961730722-1">(</span><span class="p" data-group-id="3961730722-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3961730722-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3961730722-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3961730722-3">}</span><span class="p" data-group-id="3961730722-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="3961730722-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3961730722-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="3961730722-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">method</span><span class="p">:</span><span class="w"> </span><span class="ss">:foo</span><span class="p" data-group-id="3961730722-4">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0928653569-1">(</span><span class="p" data-group-id="0928653569-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0928653569-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0928653569-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0928653569-3">}</span><span class="p" data-group-id="0928653569-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="0928653569-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0928653569-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="0928653569-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">method</span><span class="p">:</span><span class="w"> </span><span class="ss">:foo</span><span class="p" data-group-id="0928653569-4">)</span><span class="w">
 </span><span class="gt">** (ArgumentError) expected :method to be either of :nearest, :bilinear, :bicubic, :lanczos3, :lanczos5, got: :foo</span></code></pre>
   </section>
 </section>
@@ -1928,83 +1928,83 @@ <h3 id="conv/4-one-dimensional-convolution" class="section-heading">
   </a>
   One-dimensional convolution
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4933092633-1">(</span><span class="p" data-group-id="4933092633-2">[</span><span class="p" data-group-id="4933092633-3">[</span><span class="p" data-group-id="4933092633-4">[</span><span class="mf">0.1294</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6638</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0251</span><span class="p" data-group-id="4933092633-4">]</span><span class="p" data-group-id="4933092633-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4933092633-5">[</span><span class="p" data-group-id="4933092633-6">[</span><span class="w"> </span><span class="mf">0.9182</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6149</span><span class="p" data-group-id="4933092633-6">]</span><span class="p" data-group-id="4933092633-5">]</span><span class="p" data-group-id="4933092633-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4933092633-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4933092633-7">}</span><span class="p" data-group-id="4933092633-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4933092633-8">(</span><span class="p" data-group-id="4933092633-9">[</span><span class="p" data-group-id="4933092633-10">[</span><span class="p" data-group-id="4933092633-11">[</span><span class="o">-</span><span class="mf">1.5475</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2425</span><span class="p" data-group-id="4933092633-11">]</span><span class="p" data-group-id="4933092633-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4933092633-12">[</span><span class="p" data-group-id="4933092633-13">[</span><span class="mf">0.1871</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5458</span><span class="p" data-group-id="4933092633-13">]</span><span class="p" data-group-id="4933092633-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4933092633-14">[</span><span class="p" data-group-id="4933092633-15">[</span><span class="o">-</span><span class="mf">0.4488</span><span class="p">,</span><span class="w">  </span><span class="mf">0.8879</span><span class="p" data-group-id="4933092633-15">]</span><span class="p" data-group-id="4933092633-14">]</span><span class="p" data-group-id="4933092633-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4933092633-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4933092633-16">}</span><span class="p" data-group-id="4933092633-8">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4933092633-17">(</span><span class="p" data-group-id="4933092633-18">[</span><span class="mf">0.7791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1676</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5971</span><span class="p" data-group-id="4933092633-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4933092633-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4933092633-19">}</span><span class="p" data-group-id="4933092633-17">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="4933092633-20">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="4933092633-20">)</span><span class="w">
-</span><span class="p" data-group-id="4933092633-21">#</span><span class="nc" data-group-id="4933092633-21">Nx.Tensor</span><span class="p" data-group-id="4933092633-21">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4933092633-22">[</span><span class="mi">2</span><span class="p" data-group-id="4933092633-22">]</span><span class="p" data-group-id="4933092633-23">[</span><span class="mi">3</span><span class="p" data-group-id="4933092633-23">]</span><span class="p" data-group-id="4933092633-24">[</span><span class="mi">2</span><span class="p" data-group-id="4933092633-24">]</span><span class="w">
-  </span><span class="p" data-group-id="4933092633-25">[</span><span class="w">
-    </span><span class="p" data-group-id="4933092633-26">[</span><span class="w">
-      </span><span class="p" data-group-id="4933092633-27">[</span><span class="o">-</span><span class="mf">0.24591797590255737</span><span class="p">,</span><span class="w"> </span><span class="mf">3.08001708984375</span><span class="p" data-group-id="4933092633-27">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4933092633-28">[</span><span class="o">-</span><span class="mf">0.1704912781715393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6029025316238403</span><span class="p" data-group-id="4933092633-28">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4933092633-29">[</span><span class="mf">0.9496372938156128</span><span class="p">,</span><span class="w"> </span><span class="mf">2.80519962310791</span><span class="p" data-group-id="4933092633-29">]</span><span class="w">
-    </span><span class="p" data-group-id="4933092633-26">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4933092633-30">[</span><span class="w">
-      </span><span class="p" data-group-id="4933092633-31">[</span><span class="mf">0.7885514497756958</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0088953971862793</span><span class="p" data-group-id="4933092633-31">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4933092633-32">[</span><span class="mf">0.9677201509475708</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4984228312969208</span><span class="p" data-group-id="4933092633-32">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4933092633-33">[</span><span class="mf">2.207162380218506</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3534282445907593</span><span class="p" data-group-id="4933092633-33">]</span><span class="w">
-    </span><span class="p" data-group-id="4933092633-30">]</span><span class="w">
-  </span><span class="p" data-group-id="4933092633-25">]</span><span class="w">
-</span><span class="p" data-group-id="4933092633-21">&gt;</span></code></pre><h3 id="conv/4-two-dimensional-convolution" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3483584701-1">(</span><span class="p" data-group-id="3483584701-2">[</span><span class="p" data-group-id="3483584701-3">[</span><span class="p" data-group-id="3483584701-4">[</span><span class="mf">0.1294</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6638</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0251</span><span class="p" data-group-id="3483584701-4">]</span><span class="p" data-group-id="3483584701-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3483584701-5">[</span><span class="p" data-group-id="3483584701-6">[</span><span class="w"> </span><span class="mf">0.9182</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6149</span><span class="p" data-group-id="3483584701-6">]</span><span class="p" data-group-id="3483584701-5">]</span><span class="p" data-group-id="3483584701-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3483584701-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3483584701-7">}</span><span class="p" data-group-id="3483584701-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3483584701-8">(</span><span class="p" data-group-id="3483584701-9">[</span><span class="p" data-group-id="3483584701-10">[</span><span class="p" data-group-id="3483584701-11">[</span><span class="o">-</span><span class="mf">1.5475</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2425</span><span class="p" data-group-id="3483584701-11">]</span><span class="p" data-group-id="3483584701-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3483584701-12">[</span><span class="p" data-group-id="3483584701-13">[</span><span class="mf">0.1871</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5458</span><span class="p" data-group-id="3483584701-13">]</span><span class="p" data-group-id="3483584701-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3483584701-14">[</span><span class="p" data-group-id="3483584701-15">[</span><span class="o">-</span><span class="mf">0.4488</span><span class="p">,</span><span class="w">  </span><span class="mf">0.8879</span><span class="p" data-group-id="3483584701-15">]</span><span class="p" data-group-id="3483584701-14">]</span><span class="p" data-group-id="3483584701-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3483584701-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3483584701-16">}</span><span class="p" data-group-id="3483584701-8">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3483584701-17">(</span><span class="p" data-group-id="3483584701-18">[</span><span class="mf">0.7791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1676</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5971</span><span class="p" data-group-id="3483584701-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3483584701-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3483584701-19">}</span><span class="p" data-group-id="3483584701-17">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="3483584701-20">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3483584701-20">)</span><span class="w">
+</span><span class="p" data-group-id="3483584701-21">#</span><span class="nc" data-group-id="3483584701-21">Nx.Tensor</span><span class="p" data-group-id="3483584701-21">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3483584701-22">[</span><span class="mi">2</span><span class="p" data-group-id="3483584701-22">]</span><span class="p" data-group-id="3483584701-23">[</span><span class="mi">3</span><span class="p" data-group-id="3483584701-23">]</span><span class="p" data-group-id="3483584701-24">[</span><span class="mi">2</span><span class="p" data-group-id="3483584701-24">]</span><span class="w">
+  </span><span class="p" data-group-id="3483584701-25">[</span><span class="w">
+    </span><span class="p" data-group-id="3483584701-26">[</span><span class="w">
+      </span><span class="p" data-group-id="3483584701-27">[</span><span class="o">-</span><span class="mf">0.24591797590255737</span><span class="p">,</span><span class="w"> </span><span class="mf">3.08001708984375</span><span class="p" data-group-id="3483584701-27">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3483584701-28">[</span><span class="o">-</span><span class="mf">0.1704912781715393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6029025316238403</span><span class="p" data-group-id="3483584701-28">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3483584701-29">[</span><span class="mf">0.9496372938156128</span><span class="p">,</span><span class="w"> </span><span class="mf">2.80519962310791</span><span class="p" data-group-id="3483584701-29">]</span><span class="w">
+    </span><span class="p" data-group-id="3483584701-26">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3483584701-30">[</span><span class="w">
+      </span><span class="p" data-group-id="3483584701-31">[</span><span class="mf">0.7885514497756958</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0088953971862793</span><span class="p" data-group-id="3483584701-31">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3483584701-32">[</span><span class="mf">0.9677201509475708</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4984228312969208</span><span class="p" data-group-id="3483584701-32">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3483584701-33">[</span><span class="mf">2.207162380218506</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3534282445907593</span><span class="p" data-group-id="3483584701-33">]</span><span class="w">
+    </span><span class="p" data-group-id="3483584701-30">]</span><span class="w">
+  </span><span class="p" data-group-id="3483584701-25">]</span><span class="w">
+</span><span class="p" data-group-id="3483584701-21">&gt;</span></code></pre><h3 id="conv/4-two-dimensional-convolution" class="section-heading">
   <a href="#conv/4-two-dimensional-convolution" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">two-dimensional-convolution</p>
   </a>
   Two-dimensional convolution
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4981666063-1">(</span><span class="p" data-group-id="4981666063-2">[</span><span class="p" data-group-id="4981666063-3">[</span><span class="p" data-group-id="4981666063-4">[</span><span class="p" data-group-id="4981666063-5">[</span><span class="o">-</span><span class="mf">1.0476</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5041</span><span class="p" data-group-id="4981666063-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4981666063-6">[</span><span class="o">-</span><span class="mf">0.9336</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5907</span><span class="p" data-group-id="4981666063-6">]</span><span class="p" data-group-id="4981666063-4">]</span><span class="p" data-group-id="4981666063-3">]</span><span class="p" data-group-id="4981666063-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4981666063-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4981666063-7">}</span><span class="p" data-group-id="4981666063-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4981666063-8">(</span><span class="p" data-group-id="4981666063-9">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="4981666063-10">[</span><span class="p" data-group-id="4981666063-11">[</span><span class="p" data-group-id="4981666063-12">[</span><span class="mf">0.7514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7356</span><span class="p" data-group-id="4981666063-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4981666063-13">[</span><span class="mf">1.3909</span><span class="p">,</span><span class="w">  </span><span class="mf">0.6800</span><span class="p" data-group-id="4981666063-13">]</span><span class="p" data-group-id="4981666063-11">]</span><span class="p" data-group-id="4981666063-10">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="4981666063-14">[</span><span class="p" data-group-id="4981666063-15">[</span><span class="p" data-group-id="4981666063-16">[</span><span class="o">-</span><span class="mf">0.3450</span><span class="p">,</span><span class="w">  </span><span class="mf">0.4551</span><span class="p" data-group-id="4981666063-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4981666063-17">[</span><span class="o">-</span><span class="mf">0.6275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9875</span><span class="p" data-group-id="4981666063-17">]</span><span class="p" data-group-id="4981666063-15">]</span><span class="p" data-group-id="4981666063-14">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="4981666063-18">[</span><span class="p" data-group-id="4981666063-19">[</span><span class="p" data-group-id="4981666063-20">[</span><span class="mf">1.8587</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4722</span><span class="p" data-group-id="4981666063-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4981666063-21">[</span><span class="mf">0.6058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0301</span><span class="p" data-group-id="4981666063-21">]</span><span class="p" data-group-id="4981666063-19">]</span><span class="p" data-group-id="4981666063-18">]</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="4981666063-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4981666063-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4981666063-22">}</span><span class="p" data-group-id="4981666063-8">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4981666063-23">(</span><span class="p" data-group-id="4981666063-24">[</span><span class="mf">1.9564</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385</span><span class="p" data-group-id="4981666063-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4981666063-25">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4981666063-25">}</span><span class="p" data-group-id="4981666063-23">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="4981666063-26">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="4981666063-26">)</span><span class="w">
-</span><span class="p" data-group-id="4981666063-27">#</span><span class="nc" data-group-id="4981666063-27">Nx.Tensor</span><span class="p" data-group-id="4981666063-27">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4981666063-28">[</span><span class="mi">1</span><span class="p" data-group-id="4981666063-28">]</span><span class="p" data-group-id="4981666063-29">[</span><span class="mi">3</span><span class="p" data-group-id="4981666063-29">]</span><span class="p" data-group-id="4981666063-30">[</span><span class="mi">1</span><span class="p" data-group-id="4981666063-30">]</span><span class="p" data-group-id="4981666063-31">[</span><span class="mi">1</span><span class="p" data-group-id="4981666063-31">]</span><span class="w">
-  </span><span class="p" data-group-id="4981666063-32">[</span><span class="w">
-    </span><span class="p" data-group-id="4981666063-33">[</span><span class="w">
-      </span><span class="p" data-group-id="4981666063-34">[</span><span class="w">
-        </span><span class="p" data-group-id="4981666063-35">[</span><span class="mf">0.5815491676330566</span><span class="p" data-group-id="4981666063-35">]</span><span class="w">
-      </span><span class="p" data-group-id="4981666063-34">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4981666063-36">[</span><span class="w">
-        </span><span class="p" data-group-id="4981666063-37">[</span><span class="o">-</span><span class="mf">0.5707762241363525</span><span class="p" data-group-id="4981666063-37">]</span><span class="w">
-      </span><span class="p" data-group-id="4981666063-36">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4981666063-38">[</span><span class="w">
-        </span><span class="p" data-group-id="4981666063-39">[</span><span class="o">-</span><span class="mf">4.927865028381348</span><span class="p" data-group-id="4981666063-39">]</span><span class="w">
-      </span><span class="p" data-group-id="4981666063-38">]</span><span class="w">
-    </span><span class="p" data-group-id="4981666063-33">]</span><span class="w">
-  </span><span class="p" data-group-id="4981666063-32">]</span><span class="w">
-</span><span class="p" data-group-id="4981666063-27">&gt;</span></code></pre><h3 id="conv/4-three-dimensional-convolution" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2736766317-1">(</span><span class="p" data-group-id="2736766317-2">[</span><span class="p" data-group-id="2736766317-3">[</span><span class="p" data-group-id="2736766317-4">[</span><span class="p" data-group-id="2736766317-5">[</span><span class="o">-</span><span class="mf">1.0476</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5041</span><span class="p" data-group-id="2736766317-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2736766317-6">[</span><span class="o">-</span><span class="mf">0.9336</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5907</span><span class="p" data-group-id="2736766317-6">]</span><span class="p" data-group-id="2736766317-4">]</span><span class="p" data-group-id="2736766317-3">]</span><span class="p" data-group-id="2736766317-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2736766317-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2736766317-7">}</span><span class="p" data-group-id="2736766317-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2736766317-8">(</span><span class="p" data-group-id="2736766317-9">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="2736766317-10">[</span><span class="p" data-group-id="2736766317-11">[</span><span class="p" data-group-id="2736766317-12">[</span><span class="mf">0.7514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7356</span><span class="p" data-group-id="2736766317-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2736766317-13">[</span><span class="mf">1.3909</span><span class="p">,</span><span class="w">  </span><span class="mf">0.6800</span><span class="p" data-group-id="2736766317-13">]</span><span class="p" data-group-id="2736766317-11">]</span><span class="p" data-group-id="2736766317-10">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="2736766317-14">[</span><span class="p" data-group-id="2736766317-15">[</span><span class="p" data-group-id="2736766317-16">[</span><span class="o">-</span><span class="mf">0.3450</span><span class="p">,</span><span class="w">  </span><span class="mf">0.4551</span><span class="p" data-group-id="2736766317-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2736766317-17">[</span><span class="o">-</span><span class="mf">0.6275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9875</span><span class="p" data-group-id="2736766317-17">]</span><span class="p" data-group-id="2736766317-15">]</span><span class="p" data-group-id="2736766317-14">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="2736766317-18">[</span><span class="p" data-group-id="2736766317-19">[</span><span class="p" data-group-id="2736766317-20">[</span><span class="mf">1.8587</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4722</span><span class="p" data-group-id="2736766317-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2736766317-21">[</span><span class="mf">0.6058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0301</span><span class="p" data-group-id="2736766317-21">]</span><span class="p" data-group-id="2736766317-19">]</span><span class="p" data-group-id="2736766317-18">]</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="2736766317-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2736766317-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2736766317-22">}</span><span class="p" data-group-id="2736766317-8">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2736766317-23">(</span><span class="p" data-group-id="2736766317-24">[</span><span class="mf">1.9564</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385</span><span class="p" data-group-id="2736766317-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2736766317-25">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2736766317-25">}</span><span class="p" data-group-id="2736766317-23">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="2736766317-26">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="2736766317-26">)</span><span class="w">
+</span><span class="p" data-group-id="2736766317-27">#</span><span class="nc" data-group-id="2736766317-27">Nx.Tensor</span><span class="p" data-group-id="2736766317-27">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2736766317-28">[</span><span class="mi">1</span><span class="p" data-group-id="2736766317-28">]</span><span class="p" data-group-id="2736766317-29">[</span><span class="mi">3</span><span class="p" data-group-id="2736766317-29">]</span><span class="p" data-group-id="2736766317-30">[</span><span class="mi">1</span><span class="p" data-group-id="2736766317-30">]</span><span class="p" data-group-id="2736766317-31">[</span><span class="mi">1</span><span class="p" data-group-id="2736766317-31">]</span><span class="w">
+  </span><span class="p" data-group-id="2736766317-32">[</span><span class="w">
+    </span><span class="p" data-group-id="2736766317-33">[</span><span class="w">
+      </span><span class="p" data-group-id="2736766317-34">[</span><span class="w">
+        </span><span class="p" data-group-id="2736766317-35">[</span><span class="mf">0.5815491676330566</span><span class="p" data-group-id="2736766317-35">]</span><span class="w">
+      </span><span class="p" data-group-id="2736766317-34">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="2736766317-36">[</span><span class="w">
+        </span><span class="p" data-group-id="2736766317-37">[</span><span class="o">-</span><span class="mf">0.5707762241363525</span><span class="p" data-group-id="2736766317-37">]</span><span class="w">
+      </span><span class="p" data-group-id="2736766317-36">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="2736766317-38">[</span><span class="w">
+        </span><span class="p" data-group-id="2736766317-39">[</span><span class="o">-</span><span class="mf">4.927865028381348</span><span class="p" data-group-id="2736766317-39">]</span><span class="w">
+      </span><span class="p" data-group-id="2736766317-38">]</span><span class="w">
+    </span><span class="p" data-group-id="2736766317-33">]</span><span class="w">
+  </span><span class="p" data-group-id="2736766317-32">]</span><span class="w">
+</span><span class="p" data-group-id="2736766317-27">&gt;</span></code></pre><h3 id="conv/4-three-dimensional-convolution" class="section-heading">
   <a href="#conv/4-three-dimensional-convolution" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">three-dimensional-convolution</p>
   </a>
   Three-dimensional convolution
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1296342469-1">(</span><span class="p" data-group-id="1296342469-2">[</span><span class="p" data-group-id="1296342469-3">[</span><span class="p" data-group-id="1296342469-4">[</span><span class="p" data-group-id="1296342469-5">[</span><span class="p" data-group-id="1296342469-6">[</span><span class="o">-</span><span class="mf">0.6497</span><span class="p" data-group-id="1296342469-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-7">[</span><span class="mf">1.0939</span><span class="p" data-group-id="1296342469-7">]</span><span class="p" data-group-id="1296342469-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-8">[</span><span class="p" data-group-id="1296342469-9">[</span><span class="o">-</span><span class="mf">2.5465</span><span class="p" data-group-id="1296342469-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-10">[</span><span class="mf">0.7801</span><span class="p" data-group-id="1296342469-10">]</span><span class="p" data-group-id="1296342469-8">]</span><span class="p" data-group-id="1296342469-4">]</span><span class="p" data-group-id="1296342469-3">]</span><span class="p" data-group-id="1296342469-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1296342469-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1296342469-11">}</span><span class="p" data-group-id="1296342469-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1296342469-12">(</span><span class="p" data-group-id="1296342469-13">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="1296342469-14">[</span><span class="p" data-group-id="1296342469-15">[</span><span class="p" data-group-id="1296342469-16">[</span><span class="p" data-group-id="1296342469-17">[</span><span class="w"> </span><span class="mf">0.7390</span><span class="p" data-group-id="1296342469-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-18">[</span><span class="o">-</span><span class="mf">0.0927</span><span class="p" data-group-id="1296342469-18">]</span><span class="p" data-group-id="1296342469-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-19">[</span><span class="p" data-group-id="1296342469-20">[</span><span class="o">-</span><span class="mf">0.8675</span><span class="p" data-group-id="1296342469-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-21">[</span><span class="o">-</span><span class="mf">0.9209</span><span class="p" data-group-id="1296342469-21">]</span><span class="p" data-group-id="1296342469-19">]</span><span class="p" data-group-id="1296342469-15">]</span><span class="p" data-group-id="1296342469-14">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="1296342469-22">[</span><span class="p" data-group-id="1296342469-23">[</span><span class="p" data-group-id="1296342469-24">[</span><span class="p" data-group-id="1296342469-25">[</span><span class="o">-</span><span class="mf">0.6638</span><span class="p" data-group-id="1296342469-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-26">[</span><span class="mf">0.4341</span><span class="p" data-group-id="1296342469-26">]</span><span class="p" data-group-id="1296342469-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-27">[</span><span class="p" data-group-id="1296342469-28">[</span><span class="mf">0.6368</span><span class="p" data-group-id="1296342469-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1296342469-29">[</span><span class="mf">1.1846</span><span class="p" data-group-id="1296342469-29">]</span><span class="p" data-group-id="1296342469-27">]</span><span class="p" data-group-id="1296342469-23">]</span><span class="p" data-group-id="1296342469-22">]</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="1296342469-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1296342469-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1296342469-30">}</span><span class="p" data-group-id="1296342469-12">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1296342469-31">(</span><span class="p" data-group-id="1296342469-32">[</span><span class="o">-</span><span class="mf">0.4101</span><span class="p">,</span><span class="w">  </span><span class="mf">0.1776</span><span class="p" data-group-id="1296342469-32">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1296342469-33">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1296342469-33">}</span><span class="p" data-group-id="1296342469-31">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="1296342469-34">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="1296342469-34">)</span><span class="w">
-</span><span class="p" data-group-id="1296342469-35">#</span><span class="nc" data-group-id="1296342469-35">Nx.Tensor</span><span class="p" data-group-id="1296342469-35">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1296342469-36">[</span><span class="mi">1</span><span class="p" data-group-id="1296342469-36">]</span><span class="p" data-group-id="1296342469-37">[</span><span class="mi">2</span><span class="p" data-group-id="1296342469-37">]</span><span class="p" data-group-id="1296342469-38">[</span><span class="mi">1</span><span class="p" data-group-id="1296342469-38">]</span><span class="p" data-group-id="1296342469-39">[</span><span class="mi">1</span><span class="p" data-group-id="1296342469-39">]</span><span class="p" data-group-id="1296342469-40">[</span><span class="mi">1</span><span class="p" data-group-id="1296342469-40">]</span><span class="w">
-  </span><span class="p" data-group-id="1296342469-41">[</span><span class="w">
-    </span><span class="p" data-group-id="1296342469-42">[</span><span class="w">
-      </span><span class="p" data-group-id="1296342469-43">[</span><span class="w">
-        </span><span class="p" data-group-id="1296342469-44">[</span><span class="w">
-          </span><span class="p" data-group-id="1296342469-45">[</span><span class="mf">0.49906185269355774</span><span class="p" data-group-id="1296342469-45">]</span><span class="w">
-        </span><span class="p" data-group-id="1296342469-44">]</span><span class="w">
-      </span><span class="p" data-group-id="1296342469-43">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1296342469-46">[</span><span class="w">
-        </span><span class="p" data-group-id="1296342469-47">[</span><span class="w">
-          </span><span class="p" data-group-id="1296342469-48">[</span><span class="mf">0.38622811436653137</span><span class="p" data-group-id="1296342469-48">]</span><span class="w">
-        </span><span class="p" data-group-id="1296342469-47">]</span><span class="w">
-      </span><span class="p" data-group-id="1296342469-46">]</span><span class="w">
-    </span><span class="p" data-group-id="1296342469-42">]</span><span class="w">
-  </span><span class="p" data-group-id="1296342469-41">]</span><span class="w">
-</span><span class="p" data-group-id="1296342469-35">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1252438447-1">(</span><span class="p" data-group-id="1252438447-2">[</span><span class="p" data-group-id="1252438447-3">[</span><span class="p" data-group-id="1252438447-4">[</span><span class="p" data-group-id="1252438447-5">[</span><span class="p" data-group-id="1252438447-6">[</span><span class="o">-</span><span class="mf">0.6497</span><span class="p" data-group-id="1252438447-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-7">[</span><span class="mf">1.0939</span><span class="p" data-group-id="1252438447-7">]</span><span class="p" data-group-id="1252438447-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-8">[</span><span class="p" data-group-id="1252438447-9">[</span><span class="o">-</span><span class="mf">2.5465</span><span class="p" data-group-id="1252438447-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-10">[</span><span class="mf">0.7801</span><span class="p" data-group-id="1252438447-10">]</span><span class="p" data-group-id="1252438447-8">]</span><span class="p" data-group-id="1252438447-4">]</span><span class="p" data-group-id="1252438447-3">]</span><span class="p" data-group-id="1252438447-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1252438447-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1252438447-11">}</span><span class="p" data-group-id="1252438447-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1252438447-12">(</span><span class="p" data-group-id="1252438447-13">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="1252438447-14">[</span><span class="p" data-group-id="1252438447-15">[</span><span class="p" data-group-id="1252438447-16">[</span><span class="p" data-group-id="1252438447-17">[</span><span class="w"> </span><span class="mf">0.7390</span><span class="p" data-group-id="1252438447-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-18">[</span><span class="o">-</span><span class="mf">0.0927</span><span class="p" data-group-id="1252438447-18">]</span><span class="p" data-group-id="1252438447-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-19">[</span><span class="p" data-group-id="1252438447-20">[</span><span class="o">-</span><span class="mf">0.8675</span><span class="p" data-group-id="1252438447-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-21">[</span><span class="o">-</span><span class="mf">0.9209</span><span class="p" data-group-id="1252438447-21">]</span><span class="p" data-group-id="1252438447-19">]</span><span class="p" data-group-id="1252438447-15">]</span><span class="p" data-group-id="1252438447-14">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="1252438447-22">[</span><span class="p" data-group-id="1252438447-23">[</span><span class="p" data-group-id="1252438447-24">[</span><span class="p" data-group-id="1252438447-25">[</span><span class="o">-</span><span class="mf">0.6638</span><span class="p" data-group-id="1252438447-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-26">[</span><span class="mf">0.4341</span><span class="p" data-group-id="1252438447-26">]</span><span class="p" data-group-id="1252438447-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-27">[</span><span class="p" data-group-id="1252438447-28">[</span><span class="mf">0.6368</span><span class="p" data-group-id="1252438447-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1252438447-29">[</span><span class="mf">1.1846</span><span class="p" data-group-id="1252438447-29">]</span><span class="p" data-group-id="1252438447-27">]</span><span class="p" data-group-id="1252438447-23">]</span><span class="p" data-group-id="1252438447-22">]</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="1252438447-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1252438447-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1252438447-30">}</span><span class="p" data-group-id="1252438447-12">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1252438447-31">(</span><span class="p" data-group-id="1252438447-32">[</span><span class="o">-</span><span class="mf">0.4101</span><span class="p">,</span><span class="w">  </span><span class="mf">0.1776</span><span class="p" data-group-id="1252438447-32">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1252438447-33">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1252438447-33">}</span><span class="p" data-group-id="1252438447-31">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="1252438447-34">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="1252438447-34">)</span><span class="w">
+</span><span class="p" data-group-id="1252438447-35">#</span><span class="nc" data-group-id="1252438447-35">Nx.Tensor</span><span class="p" data-group-id="1252438447-35">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1252438447-36">[</span><span class="mi">1</span><span class="p" data-group-id="1252438447-36">]</span><span class="p" data-group-id="1252438447-37">[</span><span class="mi">2</span><span class="p" data-group-id="1252438447-37">]</span><span class="p" data-group-id="1252438447-38">[</span><span class="mi">1</span><span class="p" data-group-id="1252438447-38">]</span><span class="p" data-group-id="1252438447-39">[</span><span class="mi">1</span><span class="p" data-group-id="1252438447-39">]</span><span class="p" data-group-id="1252438447-40">[</span><span class="mi">1</span><span class="p" data-group-id="1252438447-40">]</span><span class="w">
+  </span><span class="p" data-group-id="1252438447-41">[</span><span class="w">
+    </span><span class="p" data-group-id="1252438447-42">[</span><span class="w">
+      </span><span class="p" data-group-id="1252438447-43">[</span><span class="w">
+        </span><span class="p" data-group-id="1252438447-44">[</span><span class="w">
+          </span><span class="p" data-group-id="1252438447-45">[</span><span class="mf">0.49906185269355774</span><span class="p" data-group-id="1252438447-45">]</span><span class="w">
+        </span><span class="p" data-group-id="1252438447-44">]</span><span class="w">
+      </span><span class="p" data-group-id="1252438447-43">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1252438447-46">[</span><span class="w">
+        </span><span class="p" data-group-id="1252438447-47">[</span><span class="w">
+          </span><span class="p" data-group-id="1252438447-48">[</span><span class="mf">0.38622811436653137</span><span class="p" data-group-id="1252438447-48">]</span><span class="w">
+        </span><span class="p" data-group-id="1252438447-47">]</span><span class="w">
+      </span><span class="p" data-group-id="1252438447-46">]</span><span class="w">
+    </span><span class="p" data-group-id="1252438447-42">]</span><span class="w">
+  </span><span class="p" data-group-id="1252438447-41">]</span><span class="w">
+</span><span class="p" data-group-id="1252438447-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="conv_transpose/4">
@@ -2062,23 +2062,23 @@ <h1 class="signature" translate="no">conv_transpose(input, kernel, bias \\ 0, op
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1289395408-1">(</span><span class="p" data-group-id="1289395408-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1289395408-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1289395408-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1289395408-3">}</span><span class="p" data-group-id="1289395408-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1289395408-4">(</span><span class="p" data-group-id="1289395408-5">{</span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1289395408-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1289395408-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1289395408-6">}</span><span class="p" data-group-id="1289395408-4">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1289395408-7">(</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1289395408-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1289395408-8">}</span><span class="p" data-group-id="1289395408-7">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv_transpose</span><span class="p" data-group-id="1289395408-9">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="1289395408-9">)</span><span class="w">
-</span><span class="p" data-group-id="1289395408-10">#</span><span class="nc" data-group-id="1289395408-10">Nx.Tensor</span><span class="p" data-group-id="1289395408-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1289395408-11">[</span><span class="mi">1</span><span class="p" data-group-id="1289395408-11">]</span><span class="p" data-group-id="1289395408-12">[</span><span class="mi">6</span><span class="p" data-group-id="1289395408-12">]</span><span class="p" data-group-id="1289395408-13">[</span><span class="mi">4</span><span class="p" data-group-id="1289395408-13">]</span><span class="w">
-  </span><span class="p" data-group-id="1289395408-14">[</span><span class="w">
-    </span><span class="p" data-group-id="1289395408-15">[</span><span class="w">
-      </span><span class="p" data-group-id="1289395408-16">[</span><span class="mf">40.0</span><span class="p">,</span><span class="w"> </span><span class="mf">79.0</span><span class="p">,</span><span class="w"> </span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">43.0</span><span class="p" data-group-id="1289395408-16">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1289395408-17">[</span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">205.0</span><span class="p">,</span><span class="w"> </span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">133.0</span><span class="p" data-group-id="1289395408-17">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1289395408-18">[</span><span class="mf">148.0</span><span class="p">,</span><span class="w"> </span><span class="mf">331.0</span><span class="p">,</span><span class="w"> </span><span class="mf">418.0</span><span class="p">,</span><span class="w"> </span><span class="mf">223.0</span><span class="p" data-group-id="1289395408-18">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1289395408-19">[</span><span class="mf">202.0</span><span class="p">,</span><span class="w"> </span><span class="mf">457.0</span><span class="p">,</span><span class="w"> </span><span class="mf">580.0</span><span class="p">,</span><span class="w"> </span><span class="mf">313.0</span><span class="p" data-group-id="1289395408-19">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1289395408-20">[</span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">583.0</span><span class="p">,</span><span class="w"> </span><span class="mf">742.0</span><span class="p">,</span><span class="w"> </span><span class="mf">403.0</span><span class="p" data-group-id="1289395408-20">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1289395408-21">[</span><span class="mf">310.0</span><span class="p">,</span><span class="w"> </span><span class="mf">709.0</span><span class="p">,</span><span class="w"> </span><span class="mf">904.0</span><span class="p">,</span><span class="w"> </span><span class="mf">493.0</span><span class="p" data-group-id="1289395408-21">]</span><span class="w">
-    </span><span class="p" data-group-id="1289395408-15">]</span><span class="w">
-  </span><span class="p" data-group-id="1289395408-14">]</span><span class="w">
-</span><span class="p" data-group-id="1289395408-10">&gt;</span></code></pre><h2 id="conv_transpose/4-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3875885312-1">(</span><span class="p" data-group-id="3875885312-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3875885312-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3875885312-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3875885312-3">}</span><span class="p" data-group-id="3875885312-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3875885312-4">(</span><span class="p" data-group-id="3875885312-5">{</span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3875885312-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3875885312-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3875885312-6">}</span><span class="p" data-group-id="3875885312-4">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3875885312-7">(</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3875885312-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3875885312-8">}</span><span class="p" data-group-id="3875885312-7">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv_transpose</span><span class="p" data-group-id="3875885312-9">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3875885312-9">)</span><span class="w">
+</span><span class="p" data-group-id="3875885312-10">#</span><span class="nc" data-group-id="3875885312-10">Nx.Tensor</span><span class="p" data-group-id="3875885312-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3875885312-11">[</span><span class="mi">1</span><span class="p" data-group-id="3875885312-11">]</span><span class="p" data-group-id="3875885312-12">[</span><span class="mi">6</span><span class="p" data-group-id="3875885312-12">]</span><span class="p" data-group-id="3875885312-13">[</span><span class="mi">4</span><span class="p" data-group-id="3875885312-13">]</span><span class="w">
+  </span><span class="p" data-group-id="3875885312-14">[</span><span class="w">
+    </span><span class="p" data-group-id="3875885312-15">[</span><span class="w">
+      </span><span class="p" data-group-id="3875885312-16">[</span><span class="mf">40.0</span><span class="p">,</span><span class="w"> </span><span class="mf">79.0</span><span class="p">,</span><span class="w"> </span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">43.0</span><span class="p" data-group-id="3875885312-16">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3875885312-17">[</span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">205.0</span><span class="p">,</span><span class="w"> </span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">133.0</span><span class="p" data-group-id="3875885312-17">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3875885312-18">[</span><span class="mf">148.0</span><span class="p">,</span><span class="w"> </span><span class="mf">331.0</span><span class="p">,</span><span class="w"> </span><span class="mf">418.0</span><span class="p">,</span><span class="w"> </span><span class="mf">223.0</span><span class="p" data-group-id="3875885312-18">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3875885312-19">[</span><span class="mf">202.0</span><span class="p">,</span><span class="w"> </span><span class="mf">457.0</span><span class="p">,</span><span class="w"> </span><span class="mf">580.0</span><span class="p">,</span><span class="w"> </span><span class="mf">313.0</span><span class="p" data-group-id="3875885312-19">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3875885312-20">[</span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">583.0</span><span class="p">,</span><span class="w"> </span><span class="mf">742.0</span><span class="p">,</span><span class="w"> </span><span class="mf">403.0</span><span class="p" data-group-id="3875885312-20">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3875885312-21">[</span><span class="mf">310.0</span><span class="p">,</span><span class="w"> </span><span class="mf">709.0</span><span class="p">,</span><span class="w"> </span><span class="mf">904.0</span><span class="p">,</span><span class="w"> </span><span class="mf">493.0</span><span class="p" data-group-id="3875885312-21">]</span><span class="w">
+    </span><span class="p" data-group-id="3875885312-15">]</span><span class="w">
+  </span><span class="p" data-group-id="3875885312-14">]</span><span class="w">
+</span><span class="p" data-group-id="3875885312-10">&gt;</span></code></pre><h2 id="conv_transpose/4-references" class="section-heading">
   <a href="#conv_transpose/4-references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
diff --git a/Axon.Loop.State.html b/Axon.Loop.State.html
index f7ff00b6..974fffdb 100644
--- a/Axon.Loop.State.html
+++ b/Axon.Loop.State.html
@@ -112,16 +112,16 @@ <h1>
 
 
   <section id="moduledoc">
-<p>Accumulated state in an Axon.Loop.</p><p>Loop state is a struct:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1759001847-1">%</span><span class="nc" data-group-id="1759001847-1">State</span><span class="p" data-group-id="1759001847-1">{</span><span class="w">
-  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1759001847-2">(</span><span class="p" data-group-id="1759001847-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1759001847-3">(</span><span class="p" data-group-id="1759001847-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1759001847-4">(</span><span class="p" data-group-id="1759001847-4">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1759001847-5">(</span><span class="p" data-group-id="1759001847-5">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="1759001847-6">(</span><span class="n">string</span><span class="p" data-group-id="1759001847-7">(</span><span class="p" data-group-id="1759001847-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="1759001847-8">(</span><span class="p" data-group-id="1759001847-8">)</span><span class="p" data-group-id="1759001847-6">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="1759001847-9">(</span><span class="n">integer</span><span class="p" data-group-id="1759001847-10">(</span><span class="p" data-group-id="1759001847-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1759001847-11">(</span><span class="p" data-group-id="1759001847-11">)</span><span class="p" data-group-id="1759001847-9">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="1759001847-12">(</span><span class="p" data-group-id="1759001847-12">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handler_metadata</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="1759001847-13">(</span><span class="p" data-group-id="1759001847-13">)</span><span class="w">
-</span><span class="p" data-group-id="1759001847-1">}</span></code></pre><p><code class="inline">epoch</code> is the current epoch, starting at 0, of the nested loop.
+<p>Accumulated state in an Axon.Loop.</p><p>Loop state is a struct:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0320527276-1">%</span><span class="nc" data-group-id="0320527276-1">State</span><span class="p" data-group-id="0320527276-1">{</span><span class="w">
+  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="0320527276-2">(</span><span class="p" data-group-id="0320527276-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="0320527276-3">(</span><span class="p" data-group-id="0320527276-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="0320527276-4">(</span><span class="p" data-group-id="0320527276-4">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="0320527276-5">(</span><span class="p" data-group-id="0320527276-5">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0320527276-6">(</span><span class="n">string</span><span class="p" data-group-id="0320527276-7">(</span><span class="p" data-group-id="0320527276-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="0320527276-8">(</span><span class="p" data-group-id="0320527276-8">)</span><span class="p" data-group-id="0320527276-6">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0320527276-9">(</span><span class="n">integer</span><span class="p" data-group-id="0320527276-10">(</span><span class="p" data-group-id="0320527276-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="0320527276-11">(</span><span class="p" data-group-id="0320527276-11">)</span><span class="p" data-group-id="0320527276-9">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="0320527276-12">(</span><span class="p" data-group-id="0320527276-12">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handler_metadata</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="0320527276-13">(</span><span class="p" data-group-id="0320527276-13">)</span><span class="w">
+</span><span class="p" data-group-id="0320527276-1">}</span></code></pre><p><code class="inline">epoch</code> is the current epoch, starting at 0, of the nested loop.
 Defaults to 0.</p><p><code class="inline">max_epoch</code> is the maximum number of epochs the loop should run
 for. Defaults to 1.</p><p><code class="inline">iteration</code> is the current iteration of the inner loop. In supervised
 settings, this will be the current batch. Defaults to 0.</p><p><code class="inline">max_iteration</code> is the maximum number of iterations the loop should
diff --git a/Axon.Loop.html b/Axon.Loop.html
index 0e34fe69..1a4403ba 100644
--- a/Axon.Loop.html
+++ b/Axon.Loop.html
@@ -114,66 +114,66 @@ <h1>
   <section id="moduledoc">
 <p>Abstraction for modeling a reduction of a dataset with an accumulated
 state for a number of epochs.</p><p>Inspired heavily by <a href="https://pytorch.org/ignite/index.html">PyTorch Ignite</a>.</p><p>The main abstraction is the <code class="inline">%Axon.Loop{}</code> struct, which controls a nested
-reduction of the form:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="4325204339-1">(</span><span class="mi">1</span><span class="o">..</span><span class="n">max_epochs</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4325204339-2">fn</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="4325204339-3">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4325204339-3">)</span><span class="w">
-</span><span class="k" data-group-id="4325204339-2">end</span><span class="p" data-group-id="4325204339-1">)</span></code></pre><p><code class="inline">data</code> is assumed to be an <a href="https://hexdocs.pm/elixir/Enumerable.html"><code class="inline">Enumerable</code></a> or <a href="https://hexdocs.pm/elixir/Stream.html"><code class="inline">Stream</code></a> of input data which is
+reduction of the form:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="9119378655-1">(</span><span class="mi">1</span><span class="o">..</span><span class="n">max_epochs</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="9119378655-2">fn</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="9119378655-3">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="9119378655-3">)</span><span class="w">
+</span><span class="k" data-group-id="9119378655-2">end</span><span class="p" data-group-id="9119378655-1">)</span></code></pre><p><code class="inline">data</code> is assumed to be an <a href="https://hexdocs.pm/elixir/Enumerable.html"><code class="inline">Enumerable</code></a> or <a href="https://hexdocs.pm/elixir/Stream.html"><code class="inline">Stream</code></a> of input data which is
 handled by a processing function, <code class="inline">batch_step</code>. The purpose of the loop
 abstraction is to take away much of the boilerplate code used in solving machine
 learning tasks. Tasks such as normalizing a dataset, hyperparameter optimization,
-or training machine learning models boil down to writing one function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="5616224173-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="5616224173-1">)</span><span class="w"> </span><span class="k" data-group-id="5616224173-2">do</span><span class="w">
+or training machine learning models boil down to writing one function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="3280132153-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="3280132153-1">)</span><span class="w"> </span><span class="k" data-group-id="3280132153-2">do</span><span class="w">
   </span><span class="c1"># ...do something with batch...</span><span class="w">
   </span><span class="n">updated_state</span><span class="w">
-</span><span class="k" data-group-id="5616224173-2">end</span></code></pre><p>For tasks such as training a neural network, <code class="inline">state</code> will encapsulate things
+</span><span class="k" data-group-id="3280132153-2">end</span></code></pre><p>For tasks such as training a neural network, <code class="inline">state</code> will encapsulate things
 such as model and optimizer state. For supervised learning tasks, <code class="inline">batch_step</code>
-might look something like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="8024162295-1">(</span><span class="p" data-group-id="8024162295-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="8024162295-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="8024162295-1">)</span><span class="w"> </span><span class="k" data-group-id="8024162295-3">do</span><span class="w">
-  </span><span class="p" data-group-id="8024162295-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="8024162295-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
+might look something like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="7125052391-1">(</span><span class="p" data-group-id="7125052391-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="7125052391-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7125052391-1">)</span><span class="w"> </span><span class="k" data-group-id="7125052391-3">do</span><span class="w">
+  </span><span class="p" data-group-id="7125052391-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="7125052391-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
 
-  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="8024162295-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="8024162295-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="8024162295-6">)</span><span class="p" data-group-id="8024162295-5">)</span><span class="w">
-  </span><span class="p" data-group-id="8024162295-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="8024162295-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="8024162295-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="8024162295-8">)</span><span class="w">
+  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="7125052391-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="7125052391-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="7125052391-6">)</span><span class="p" data-group-id="7125052391-5">)</span><span class="w">
+  </span><span class="p" data-group-id="7125052391-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="7125052391-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="7125052391-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="7125052391-8">)</span><span class="w">
 
-  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="8024162295-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="8024162295-9">)</span><span class="w">
+  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="7125052391-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="7125052391-9">)</span><span class="w">
 
-  </span><span class="p" data-group-id="8024162295-10">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="8024162295-10">}</span><span class="w">
-</span><span class="k" data-group-id="8024162295-3">end</span></code></pre><p><code class="inline">batch_step</code> takes a batch of <code class="inline">{input, target}</code> pairs and the current state,
+  </span><span class="p" data-group-id="7125052391-10">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="7125052391-10">}</span><span class="w">
+</span><span class="k" data-group-id="7125052391-3">end</span></code></pre><p><code class="inline">batch_step</code> takes a batch of <code class="inline">{input, target}</code> pairs and the current state,
 and updates the model parameters based on the gradients received from some arbitrary
 objective function. This function will run in a nested loop, iterating over the entire
 dataset for <code class="inline">N</code> epochs before finally returning the trained model state. By defining
 1 function, we've created a training loop that works for most machine learning models.</p><p>In actuality, the loop abstraction accumulates a struct, <code class="inline">%Axon.Loop.State{}</code>, which looks
-like (assuming <code class="inline">container</code> is a generic Elixir container of tensors, e.g. map, tuple, etc.):</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2850796237-1">%</span><span class="nc" data-group-id="2850796237-1">Axon.Loop.State</span><span class="p" data-group-id="2850796237-1">{</span><span class="w">
-  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="2850796237-2">(</span><span class="p" data-group-id="2850796237-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="2850796237-3">(</span><span class="p" data-group-id="2850796237-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="2850796237-4">(</span><span class="p" data-group-id="2850796237-4">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="2850796237-5">(</span><span class="p" data-group-id="2850796237-5">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="2850796237-6">(</span><span class="n">string</span><span class="p" data-group-id="2850796237-7">(</span><span class="p" data-group-id="2850796237-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="2850796237-8">(</span><span class="p" data-group-id="2850796237-8">)</span><span class="p" data-group-id="2850796237-6">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="2850796237-9">(</span><span class="n">integer</span><span class="p" data-group-id="2850796237-10">(</span><span class="p" data-group-id="2850796237-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="2850796237-11">(</span><span class="p" data-group-id="2850796237-11">)</span><span class="p" data-group-id="2850796237-9">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="2850796237-12">(</span><span class="p" data-group-id="2850796237-12">)</span><span class="w">
-</span><span class="p" data-group-id="2850796237-1">}</span></code></pre><p><code class="inline">batch_step</code> takes in the batch and the step state field and returns a <code class="inline">step_state</code>,
+like (assuming <code class="inline">container</code> is a generic Elixir container of tensors, e.g. map, tuple, etc.):</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6313979075-1">%</span><span class="nc" data-group-id="6313979075-1">Axon.Loop.State</span><span class="p" data-group-id="6313979075-1">{</span><span class="w">
+  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6313979075-2">(</span><span class="p" data-group-id="6313979075-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6313979075-3">(</span><span class="p" data-group-id="6313979075-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6313979075-4">(</span><span class="p" data-group-id="6313979075-4">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6313979075-5">(</span><span class="p" data-group-id="6313979075-5">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="6313979075-6">(</span><span class="n">string</span><span class="p" data-group-id="6313979075-7">(</span><span class="p" data-group-id="6313979075-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6313979075-8">(</span><span class="p" data-group-id="6313979075-8">)</span><span class="p" data-group-id="6313979075-6">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="6313979075-9">(</span><span class="n">integer</span><span class="p" data-group-id="6313979075-10">(</span><span class="p" data-group-id="6313979075-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6313979075-11">(</span><span class="p" data-group-id="6313979075-11">)</span><span class="p" data-group-id="6313979075-9">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6313979075-12">(</span><span class="p" data-group-id="6313979075-12">)</span><span class="w">
+</span><span class="p" data-group-id="6313979075-1">}</span></code></pre><p><code class="inline">batch_step</code> takes in the batch and the step state field and returns a <code class="inline">step_state</code>,
 which is a generic container of state accumulated at each iteration. The rest of the fields
 in the state struct are updated automatically behind the scenes.</p><p>The loop must start from some initial step state, thus most tasks must also provide
 an additional initialization function to provide some starting point for the step
 state. For machine learning tasks, the initialization function will return things like
 initial model parameters and optimizer state.</p><p>Typically, the final output of the loop is the accumulated final state; however, you
 may optionally apply an output transform to extract specific values at the end of the
-loop. For example, <a href="#trainer/4"><code class="inline">Axon.Loop.trainer/4</code></a> by default extracts trained model state:</p><pre><code class="makeup elixir" translate="no"><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2096203661-1">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="2096203661-2">[</span><span class="ss">:model_state</span><span class="p" data-group-id="2096203661-2">]</span><span class="w">
-</span><span class="k" data-group-id="2096203661-1">end</span></code></pre><h2 id="module-initialize-and-step" class="section-heading">
+loop. For example, <a href="#trainer/4"><code class="inline">Axon.Loop.trainer/4</code></a> by default extracts trained model state:</p><pre><code class="makeup elixir" translate="no"><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="1397110812-1">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="1397110812-2">[</span><span class="ss">:model_state</span><span class="p" data-group-id="1397110812-2">]</span><span class="w">
+</span><span class="k" data-group-id="1397110812-1">end</span></code></pre><h2 id="module-initialize-and-step" class="section-heading">
   <a href="#module-initialize-and-step" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">initialize-and-step</p>
   </a>
   Initialize and Step
 </h2>
 <p>The core of the Axon loop are the init and step functions. The initialization is an
-arity-0 function which provides an initial step state:</p><pre><code class="makeup elixir" translate="no"><span class="n">init</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9795844649-1">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9795844649-2">%{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">init</span><span class="p" data-group-id="9795844649-3">(</span><span class="n">model</span><span class="p" data-group-id="9795844649-3">)</span><span class="p" data-group-id="9795844649-2">}</span><span class="w">
-</span><span class="k" data-group-id="9795844649-1">end</span></code></pre><p>While the step function is the <code class="inline">batch_step</code> function mentioned earlier:</p><pre><code class="makeup elixir" translate="no"><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4571373469-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+arity-0 function which provides an initial step state:</p><pre><code class="makeup elixir" translate="no"><span class="n">init</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5362337096-1">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5362337096-2">%{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">init</span><span class="p" data-group-id="5362337096-3">(</span><span class="n">model</span><span class="p" data-group-id="5362337096-3">)</span><span class="p" data-group-id="5362337096-2">}</span><span class="w">
+</span><span class="k" data-group-id="5362337096-1">end</span></code></pre><p>While the step function is the <code class="inline">batch_step</code> function mentioned earlier:</p><pre><code class="makeup elixir" translate="no"><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="8152675903-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">new_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="c1"># ...do something...</span><span class="w">
   </span><span class="n">new_state</span><span class="w">
-</span><span class="k" data-group-id="4571373469-1">end</span></code></pre><p>Note that any optimization and training anonymous functions that need to be used in the
-<code class="inline">batch_step</code> function can be passed as extra arguments. For example:</p><pre><code class="makeup elixir" translate="no"><span class="n">step_with_training_arguments</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="0926889150-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">state_update_fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="k" data-group-id="8152675903-1">end</span></code></pre><p>Note that any optimization and training anonymous functions that need to be used in the
+<code class="inline">batch_step</code> function can be passed as extra arguments. For example:</p><pre><code class="makeup elixir" translate="no"><span class="n">step_with_training_arguments</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3082792270-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">state_update_fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># ...do something...</span><span class="w">
-</span><span class="k" data-group-id="0926889150-1">end</span><span class="w">
+</span><span class="k" data-group-id="3082792270-1">end</span><span class="w">
 
-</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="0926889150-2">(</span><span class="n">step_with_training_arguments</span><span class="o">.</span><span class="p" data-group-id="0926889150-3">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="n">actual_optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">actual_state_update_fn</span><span class="p" data-group-id="0926889150-3">)</span><span class="p" data-group-id="0926889150-2">)</span></code></pre><h2 id="module-metrics" class="section-heading">
+</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="3082792270-2">(</span><span class="n">step_with_training_arguments</span><span class="o">.</span><span class="p" data-group-id="3082792270-3">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="n">actual_optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">actual_state_update_fn</span><span class="p" data-group-id="3082792270-3">)</span><span class="p" data-group-id="3082792270-2">)</span></code></pre><h2 id="module-metrics" class="section-heading">
   <a href="#module-metrics" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">metrics</p>
   </a>
@@ -181,27 +181,27 @@ <h1>
 </h2>
 <p>Often times you want to compute metrics associated with your training iterations.
 To accomplish this, you can attach metrics to each <a href="Axon.Loop.html#content"><code class="inline">Axon.Loop</code></a>. Assuming a <code class="inline">batch_step</code>
-function which looks like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="3361023433-1">(</span><span class="p" data-group-id="3361023433-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="3361023433-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="3361023433-1">)</span><span class="w"> </span><span class="k" data-group-id="3361023433-3">do</span><span class="w">
-  </span><span class="p" data-group-id="3361023433-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="3361023433-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
+function which looks like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="5335850817-1">(</span><span class="p" data-group-id="5335850817-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="5335850817-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="5335850817-1">)</span><span class="w"> </span><span class="k" data-group-id="5335850817-3">do</span><span class="w">
+  </span><span class="p" data-group-id="5335850817-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="5335850817-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
 
-  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="3361023433-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="3361023433-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="3361023433-6">)</span><span class="p" data-group-id="3361023433-5">)</span><span class="w">
-  </span><span class="p" data-group-id="3361023433-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="3361023433-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="3361023433-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="3361023433-8">)</span><span class="w">
+  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="5335850817-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="5335850817-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="5335850817-6">)</span><span class="p" data-group-id="5335850817-5">)</span><span class="w">
+  </span><span class="p" data-group-id="5335850817-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="5335850817-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="5335850817-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="5335850817-8">)</span><span class="w">
 
-  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="3361023433-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="3361023433-9">)</span><span class="w">
+  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="5335850817-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="5335850817-9">)</span><span class="w">
 
   </span><span class="c1"># Shown for simplicity, you can optimize this by calculating preds</span><span class="w">
   </span><span class="c1"># along with the gradient calculation</span><span class="w">
-  </span><span class="n">preds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_fn</span><span class="o">.</span><span class="p" data-group-id="3361023433-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="3361023433-10">)</span><span class="w">
+  </span><span class="n">preds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_fn</span><span class="o">.</span><span class="p" data-group-id="5335850817-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="5335850817-10">)</span><span class="w">
 
-  </span><span class="p" data-group-id="3361023433-11">%{</span><span class="w">
+  </span><span class="p" data-group-id="5335850817-11">%{</span><span class="w">
     </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">targets</span><span class="p">,</span><span class="w">
     </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">preds</span><span class="p">,</span><span class="w">
     </span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w">
     </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="w">
-  </span><span class="p" data-group-id="3361023433-11">}</span><span class="w">
-</span><span class="k" data-group-id="3361023433-3">end</span></code></pre><p>You can attach metrics to this by using <a href="#metric/4"><code class="inline">Axon.Loop.metric/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">loop</span><span class="p" data-group-id="8940580140-1">(</span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="8940580140-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8940580140-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="8940580140-3">fn</span><span class="w"> </span><span class="p" data-group-id="8940580140-4">%{</span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="8940580140-4">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="8940580140-5">[</span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="8940580140-5">]</span><span class="w"> </span><span class="k" data-group-id="8940580140-3">end</span><span class="p" data-group-id="8940580140-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8940580140-6">(</span><span class="n">data</span><span class="p" data-group-id="8940580140-6">)</span></code></pre><p>Because metrics work directly on <code class="inline">step_state</code>, you typically need to provide an output
+  </span><span class="p" data-group-id="5335850817-11">}</span><span class="w">
+</span><span class="k" data-group-id="5335850817-3">end</span></code></pre><p>You can attach metrics to this by using <a href="#metric/4"><code class="inline">Axon.Loop.metric/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">loop</span><span class="p" data-group-id="7663021999-1">(</span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="7663021999-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7663021999-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="7663021999-3">fn</span><span class="w"> </span><span class="p" data-group-id="7663021999-4">%{</span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="7663021999-4">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="7663021999-5">[</span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="7663021999-5">]</span><span class="w"> </span><span class="k" data-group-id="7663021999-3">end</span><span class="p" data-group-id="7663021999-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7663021999-6">(</span><span class="n">data</span><span class="p" data-group-id="7663021999-6">)</span></code></pre><p>Because metrics work directly on <code class="inline">step_state</code>, you typically need to provide an output
 transform to indicate which values should be passed to your metric function. By default,
 Axon assumes a supervised training task with the fields <code class="inline">:y_true</code> and <code class="inline">:y_pred</code> present
 in the step state. See <a href="#metric/4"><code class="inline">Axon.Loop.metric/4</code></a> for more information.</p><p>Metrics will be tracked in the loop state using the user-provided key. Metrics integrate
@@ -213,24 +213,24 @@ <h1>
   Events and Handlers
 </h2>
 <p>You can instrument several points in the loop using event handlers. By default, several events
-are fired when running a loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="9258379852-1">[</span><span class="w">
+are fired when running a loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="4502589494-1">[</span><span class="w">
   </span><span class="ss">:started</span><span class="p">,</span><span class="w">             </span><span class="c1"># After loop state initialization</span><span class="w">
   </span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w">       </span><span class="c1"># On epoch start</span><span class="w">
   </span><span class="ss">:iteration_started</span><span class="p">,</span><span class="w">   </span><span class="c1"># On iteration start</span><span class="w">
   </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="c1"># On iteration complete</span><span class="w">
   </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w">     </span><span class="c1"># On epoch complete</span><span class="w">
   </span><span class="ss">:epoch_halted</span><span class="p">,</span><span class="w">        </span><span class="c1"># On epoch halt, if early halted</span><span class="w">
-</span><span class="p" data-group-id="9258379852-1">]</span></code></pre><p>You can attach event handlers to events using <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="8567790059-1">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_metrics</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="8567790059-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8567790059-2">(</span><span class="n">data</span><span class="p" data-group-id="8567790059-2">)</span></code></pre><p>The above will trigger <code class="inline">log_metrics/1</code> every 100 times the <code class="inline">:iteration_completed</code> event
+</span><span class="p" data-group-id="4502589494-1">]</span></code></pre><p>You can attach event handlers to events using <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="2947424137-1">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_metrics</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="2947424137-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2947424137-2">(</span><span class="n">data</span><span class="p" data-group-id="2947424137-2">)</span></code></pre><p>The above will trigger <code class="inline">log_metrics/1</code> every 100 times the <code class="inline">:iteration_completed</code> event
 is fired. Event handlers must return a tuple <code class="inline">{status, state}</code>, where <code class="inline">status</code> is an
 atom with one of the following values:</p><pre><code class="makeup elixir" translate="no"><span class="ss">:continue</span><span class="w">   </span><span class="c1"># Continue epoch, continue looping</span><span class="w">
 </span><span class="ss">:halt_epoch</span><span class="w"> </span><span class="c1"># Halt the epoch, continue looping</span><span class="w">
 </span><span class="ss">:halt_loop</span><span class="w">  </span><span class="c1"># Halt looping</span></code></pre><p>And <code class="inline">state</code> is an updated <a href="Axon.Loop.State.html"><code class="inline">Axon.Loop.State</code></a> struct. Handler functions take as input
 the current loop state.</p><p>It's important to note that event handlers are triggered in the order they are attached
 to the loop. If you have two handlers on the same event, they will trigger in order:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="6063215007-1">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6063215007-1">)</span><span class="w"> </span><span class="c1"># Runs first</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="6063215007-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6063215007-2">)</span><span class="w"> </span><span class="c1"># Runs second</span></code></pre><p>You may provide filters to filter when event handlers trigger. See <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="0945735757-1">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0945735757-1">)</span><span class="w"> </span><span class="c1"># Runs first</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="0945735757-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0945735757-2">)</span><span class="w"> </span><span class="c1"># Runs second</span></code></pre><p>You may provide filters to filter when event handlers trigger. See <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>
 for more details on valid filters.</p><h2 id="module-factories" class="section-heading">
   <a href="#module-factories" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">factories</p>
@@ -250,7 +250,7 @@ <h1>
   </a>
   Running loops
 </h2>
-<p>In order to execute a loop, you should use <a href="#run/3"><code class="inline">Axon.Loop.run/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2143380022-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="2143380022-1">)</span></code></pre><h2 id="module-resuming-loops" class="section-heading">
+<p>In order to execute a loop, you should use <a href="#run/3"><code class="inline">Axon.Loop.run/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5981330576-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5981330576-1">)</span></code></pre><h2 id="module-resuming-loops" class="section-heading">
   <a href="#module-resuming-loops" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">resuming-loops</p>
   </a>
@@ -258,8 +258,8 @@ <h1>
 </h2>
 <p>At times you may want to resume a loop from some previous state. You can accomplish this
 with <a href="#from_state/2"><code class="inline">Axon.Loop.from_state/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">from_state</span><span class="p" data-group-id="1482966948-1">(</span><span class="n">state</span><span class="p" data-group-id="1482966948-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1482966948-2">(</span><span class="n">data</span><span class="p" data-group-id="1482966948-2">)</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">from_state</span><span class="p" data-group-id="6346070904-1">(</span><span class="n">state</span><span class="p" data-group-id="6346070904-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6346070904-2">(</span><span class="n">data</span><span class="p" data-group-id="6346070904-2">)</span></code></pre>
   </section>
 
 
@@ -513,21 +513,21 @@ <h1 class="signature" translate="no">checkpoint(loop, opts \\ [])</h1>
 obtained from <a href="#serialize_state/2"><code class="inline">Axon.Loop.serialize_state/2</code></a>. Serialization
 options will be forwarded to <a href="#serialize_state/2"><code class="inline">Axon.Loop.serialize_state/2</code></a>.</p><p>You can customize checkpoint events by passing <code class="inline">:event</code> and <code class="inline">:filter</code>
 options:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="7085953652-1">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7085953652-2">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p" data-group-id="7085953652-2">]</span><span class="p" data-group-id="7085953652-1">)</span></code></pre><p>Checkpoints are saved under the <code class="inline">checkpoint/</code> directory with a pattern
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="8963199347-1">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8963199347-2">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p" data-group-id="8963199347-2">]</span><span class="p" data-group-id="8963199347-1">)</span></code></pre><p>Checkpoints are saved under the <code class="inline">checkpoint/</code> directory with a pattern
 of <code class="inline">checkpoint_{epoch}.ckpt</code>. You can customize the path and pattern
 with the <code class="inline">:path</code> and <code class="inline">:file_pattern</code> options:</p><pre><code class="makeup elixir" translate="no"><span class="n">my_file_pattern</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="k" data-group-id="0556506086-1">fn</span><span class="w"> </span><span class="p" data-group-id="0556506086-2">%</span><span class="nc" data-group-id="0556506086-2">Axon.Loop.State</span><span class="p" data-group-id="0556506086-2">{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">iter</span><span class="p" data-group-id="0556506086-2">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="s">&quot;checkpoint_</span><span class="si" data-group-id="0556506086-3">#{</span><span class="n">epoch</span><span class="si" data-group-id="0556506086-3">}</span><span class="s">_</span><span class="si" data-group-id="0556506086-4">#{</span><span class="n">iter</span><span class="si" data-group-id="0556506086-4">}</span><span class="s">&quot;</span><span class="w">
-  </span><span class="k" data-group-id="0556506086-1">end</span><span class="w">
+  </span><span class="k" data-group-id="2575465304-1">fn</span><span class="w"> </span><span class="p" data-group-id="2575465304-2">%</span><span class="nc" data-group-id="2575465304-2">Axon.Loop.State</span><span class="p" data-group-id="2575465304-2">{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">iter</span><span class="p" data-group-id="2575465304-2">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="s">&quot;checkpoint_</span><span class="si" data-group-id="2575465304-3">#{</span><span class="n">epoch</span><span class="si" data-group-id="2575465304-3">}</span><span class="s">_</span><span class="si" data-group-id="2575465304-4">#{</span><span class="n">iter</span><span class="si" data-group-id="2575465304-4">}</span><span class="s">&quot;</span><span class="w">
+  </span><span class="k" data-group-id="2575465304-1">end</span><span class="w">
 
 </span><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="0556506086-5">(</span><span class="ss">path</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;my_checkpoints&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">file_pattern</span><span class="p">:</span><span class="w"> </span><span class="n">my_file_pattern</span><span class="p" data-group-id="0556506086-5">)</span></code></pre><p>If you'd like to only save checkpoints based on some metric criteria,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="2575465304-5">(</span><span class="ss">path</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;my_checkpoints&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">file_pattern</span><span class="p">:</span><span class="w"> </span><span class="n">my_file_pattern</span><span class="p" data-group-id="2575465304-5">)</span></code></pre><p>If you'd like to only save checkpoints based on some metric criteria,
 you can specify the <code class="inline">:criteria</code> option. <code class="inline">:criteria</code> must be a valid key
 in metrics:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="3906869035-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="3906869035-1">)</span></code></pre><p>The default criteria mode is <code class="inline">:min</code>, meaning the min score metric will
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="5857694297-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="5857694297-1">)</span></code></pre><p>The default criteria mode is <code class="inline">:min</code>, meaning the min score metric will
 be considered &quot;best&quot; when deciding to save on a given event. Valid modes
 are <code class="inline">:min</code> and <code class="inline">:max</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="9806387961-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="9806387961-1">)</span></code></pre><h2 id="checkpoint/2-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="8135069452-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="8135069452-1">)</span></code></pre><h2 id="checkpoint/2-options" class="section-heading">
   <a href="#checkpoint/2-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
   </a>
@@ -596,18 +596,18 @@ <h1 class="signature" translate="no">early_stop(loop, monitor, opts \\ [])</h1>
 improvement of a given metric.</p><p>You must specify a metric to monitor and the metric must
 be present in the loop state. Typically, this will be
 a validation metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4777284679-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="4777284679-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="4777284679-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="4777284679-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="4777284679-3">(</span><span class="n">val_data</span><span class="p" data-group-id="4777284679-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="4777284679-4">(</span><span class="s">&quot;validation_accuracy&quot;</span><span class="p" data-group-id="4777284679-4">)</span></code></pre><p>It's important to remember that handlers are executed in the
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3048392977-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="3048392977-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3048392977-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="3048392977-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="3048392977-3">(</span><span class="n">val_data</span><span class="p" data-group-id="3048392977-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="3048392977-4">(</span><span class="s">&quot;validation_accuracy&quot;</span><span class="p" data-group-id="3048392977-4">)</span></code></pre><p>It's important to remember that handlers are executed in the
 order they are added to the loop. For example, if you'd like
 to checkpoint a loop after every epoch and use early stopping,
 most likely you want to add the checkpoint handler before
 the early stopping handler:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7999048745-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="7999048745-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7999048745-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="7999048745-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="7999048745-3">(</span><span class="p" data-group-id="7999048745-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="7999048745-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p" data-group-id="7999048745-4">)</span></code></pre><p>That will ensure checkpoint is always fired, even if the loop
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0621675872-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="0621675872-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0621675872-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="0621675872-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="0621675872-3">(</span><span class="p" data-group-id="0621675872-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="0621675872-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p" data-group-id="0621675872-4">)</span></code></pre><p>That will ensure checkpoint is always fired, even if the loop
 exited early.</p>
   </section>
 </section>
@@ -658,18 +658,18 @@ <h1 class="signature" translate="no">evaluator(model)</h1>
 <p>Creates a supervised evaluator from a model.</p><p>An evaluator can be used for things such as testing and validation of models
 after or during training. It assumes <code class="inline">model</code> is an Axon struct, container of
 structs, or a tuple of <code class="inline">init</code> / <code class="inline">apply</code> functions. <code class="inline">model_state</code> must be a
-container usable from within <code class="inline">model</code>.</p><p>The evaluator returns a step state of the form:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8766538382-1">%{</span><span class="w">
+container usable from within <code class="inline">model</code>.</p><p>The evaluator returns a step state of the form:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0612868611-1">%{</span><span class="w">
   </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">labels</span><span class="p">,</span><span class="w">
   </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">predictions</span><span class="w">
-</span><span class="p" data-group-id="8766538382-1">}</span></code></pre><p>Such that you can attach any number of supervised metrics to the evaluation
+</span><span class="p" data-group-id="0612868611-1">}</span></code></pre><p>Such that you can attach any number of supervised metrics to the evaluation
 loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="9310067114-1">(</span><span class="p" data-group-id="9310067114-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9310067114-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p" data-group-id="9310067114-2">)</span></code></pre><p>You must pass a compatible trained model state to <a href="#run/4"><code class="inline">Axon.Loop.run/4</code></a> when using
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="1151723938-1">(</span><span class="p" data-group-id="1151723938-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1151723938-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p" data-group-id="1151723938-2">)</span></code></pre><p>You must pass a compatible trained model state to <a href="#run/4"><code class="inline">Axon.Loop.run/4</code></a> when using
 supervised evaluation loops. For example, if you've binded the result of a training
 run to <code class="inline">trained_model_state</code>, you can run the trained model through an evaluation
 run like this:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="6517945185-1">(</span><span class="p" data-group-id="6517945185-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6517945185-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6517945185-2">)</span></code></pre><p>This function applies an output transform which returns the map of metrics accumulated
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="8117707127-1">(</span><span class="p" data-group-id="8117707127-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8117707127-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8117707127-2">)</span></code></pre><p>This function applies an output transform which returns the map of metrics accumulated
 over the given loop.</p>
   </section>
 </section>
@@ -694,7 +694,7 @@ <h1 class="signature" translate="no">from_state(loop, state)</h1>
 
 <p>Attaches <code class="inline">state</code> to the given loop in order to resume looping
 from a previous state.</p><p>It's important to note that a loop's attached state takes precedence
-over defined initialization functions. Given initialization function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_state</span><span class="p" data-group-id="3643526874-1">(</span><span class="p" data-group-id="3643526874-1">)</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3643526874-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3643526874-2">}</span></code></pre><p>And an attached state:</p><pre><code class="makeup elixir" translate="no"><span class="n">state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1632845984-1">%</span><span class="nc" data-group-id="1632845984-1">State</span><span class="p" data-group-id="1632845984-1">{</span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1632845984-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1632845984-2">}</span><span class="p" data-group-id="1632845984-1">}</span></code></pre><p><code class="inline">init_state/0</code> will never execute, and instead the initial step state
+over defined initialization functions. Given initialization function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_state</span><span class="p" data-group-id="8415676186-1">(</span><span class="p" data-group-id="8415676186-1">)</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8415676186-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8415676186-2">}</span></code></pre><p>And an attached state:</p><pre><code class="makeup elixir" translate="no"><span class="n">state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="7841902581-1">%</span><span class="nc" data-group-id="7841902581-1">State</span><span class="p" data-group-id="7841902581-1">{</span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7841902581-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7841902581-2">}</span><span class="p" data-group-id="7841902581-1">}</span></code></pre><p><code class="inline">init_state/0</code> will never execute, and instead the initial step state
 of <code class="inline">%{foo: 2, bar: 3}</code> will be used.</p>
   </section>
 </section>
@@ -721,20 +721,20 @@ <h1 class="signature" translate="no">handle_event(loop, event, handler, filter \
 
 <p>Adds a handler function to the loop which will be triggered on <code class="inline">event</code>
 with an optional filter.</p><p>Events take place at different points during loop execution. The default
-events are:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5799467073-1">[</span><span class="w">
+events are:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8966024569-1">[</span><span class="w">
   </span><span class="ss">:started</span><span class="p">,</span><span class="w">             </span><span class="c1"># After loop state initialization</span><span class="w">
   </span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w">       </span><span class="c1"># On epoch start</span><span class="w">
   </span><span class="ss">:iteration_started</span><span class="p">,</span><span class="w">   </span><span class="c1"># On iteration start</span><span class="w">
   </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="c1"># On iteration complete</span><span class="w">
   </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w">     </span><span class="c1"># On epoch complete</span><span class="w">
   </span><span class="ss">:epoch_halted</span><span class="p">,</span><span class="w">        </span><span class="c1"># On epoch halt, if early halted</span><span class="w">
-</span><span class="p" data-group-id="5799467073-1">]</span></code></pre><p>Generally, event handlers are side-effecting operations which provide some
+</span><span class="p" data-group-id="8966024569-1">]</span></code></pre><p>Generally, event handlers are side-effecting operations which provide some
 sort of inspection into the loop's progress. It's important to note that
 if you define multiple handlers to be triggered on the same event, they
 will execute in order from when they were attached to the training
 loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="2147450870-1">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2147450870-1">)</span><span class="w"> </span><span class="c1"># executes first</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="2147450870-2">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2147450870-2">)</span><span class="w"> </span><span class="c1"># executes second</span></code></pre><p>Thus, if you have separate handlers which alter or depend on loop state,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="9336358855-1">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9336358855-1">)</span><span class="w"> </span><span class="c1"># executes first</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="9336358855-2">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9336358855-2">)</span><span class="w"> </span><span class="c1"># executes second</span></code></pre><p>Thus, if you have separate handlers which alter or depend on loop state,
 you need to ensure they are ordered correctly, or combined into a single
 event handler for maximum control over execution.</p><p><code class="inline">event</code> must be an atom representing the event to trigger <code class="inline">handler</code> or a
 list of atoms indicating <code class="inline">handler</code> should be triggered on multiple events.
@@ -775,16 +775,16 @@ <h1 class="signature" translate="no">kino_vega_lite_plot(loop, plot, metric, opt
   <section class="docstring">
 
 <p>Adds a handler function which updates a <a href="https://hexdocs.pm/kino_vega_lite/0.1.8/Kino.VegaLite.html"><code class="inline">Kino.VegaLite</code></a> plot.</p><p>By default, this will run after every iteration.</p><p>You must specify a plot to push to and a metric to track. The <code class="inline">:x</code> axis will be the iteration count, labeled <code class="inline">&quot;step&quot;</code>. The metric must match the name given to the <code class="inline">:y</code> axis in your <a href="https://hexdocs.pm/vega_lite/0.1.6/VegaLite.html"><code class="inline">VegaLite</code></a> plot:</p><pre><code class="makeup elixir" translate="no"><span class="n">plot</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="5684686150-1">(</span><span class="p" data-group-id="5684686150-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="5684686150-2">(</span><span class="ss">:line</span><span class="p" data-group-id="5684686150-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="5684686150-3">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;step&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="5684686150-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="5684686150-4">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="5684686150-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="5684686150-5">(</span><span class="p" data-group-id="5684686150-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5684686150-6">(</span><span class="p" data-group-id="5684686150-6">)</span><span class="w">
+  </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="7865086074-1">(</span><span class="p" data-group-id="7865086074-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="7865086074-2">(</span><span class="ss">:line</span><span class="p" data-group-id="7865086074-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="7865086074-3">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;step&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="7865086074-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="7865086074-4">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="7865086074-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="7865086074-5">(</span><span class="p" data-group-id="7865086074-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="7865086074-6">(</span><span class="p" data-group-id="7865086074-6">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5684686150-7">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="5684686150-7">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">kino_vega_lite_plot</span><span class="p" data-group-id="5684686150-8">(</span><span class="n">plot</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="5684686150-8">)</span></code></pre><h2 id="kino_vega_lite_plot/4-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7865086074-7">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="7865086074-7">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">kino_vega_lite_plot</span><span class="p" data-group-id="7865086074-8">(</span><span class="n">plot</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="7865086074-8">)</span></code></pre><h2 id="kino_vega_lite_plot/4-options" class="section-heading">
   <a href="#kino_vega_lite_plot/4-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
   </a>
@@ -849,13 +849,13 @@ <h1 class="signature" translate="no">loop(step_fn, init_fn \\ &amp;default_init/
 
 <p>Creates a loop from <code class="inline">step_fn</code>, an optional <code class="inline">init_fn</code>, and an
 optional <code class="inline">output_transform</code>.</p><p><code class="inline">step_fn</code> is an arity-2 function which takes a batch and state
-and returns an updated step state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="4174991781-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">step_state</span><span class="p" data-group-id="4174991781-1">)</span><span class="w"> </span><span class="k" data-group-id="4174991781-2">do</span><span class="w">
+and returns an updated step state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="6902624956-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">step_state</span><span class="p" data-group-id="6902624956-1">)</span><span class="w"> </span><span class="k" data-group-id="6902624956-2">do</span><span class="w">
   </span><span class="n">step_state</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w">
-</span><span class="k" data-group-id="4174991781-2">end</span></code></pre><p><code class="inline">init_fn</code> by default is an identity function which forwards its
+</span><span class="k" data-group-id="6902624956-2">end</span></code></pre><p><code class="inline">init_fn</code> by default is an identity function which forwards its
 initial arguments as the model state. You should define a custom
-initialization function if you require a different behavior:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_step_state</span><span class="p" data-group-id="9121703838-1">(</span><span class="n">state</span><span class="p" data-group-id="9121703838-1">)</span><span class="w"> </span><span class="k" data-group-id="9121703838-2">do</span><span class="w">
-  </span><span class="nc">Map</span><span class="o">.</span><span class="n">merge</span><span class="p" data-group-id="9121703838-3">(</span><span class="p" data-group-id="9121703838-4">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9121703838-4">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="9121703838-3">)</span><span class="w">
-</span><span class="k" data-group-id="9121703838-2">end</span></code></pre><p>You may use <code class="inline">state</code> in conjunction with initialization functions in
+initialization function if you require a different behavior:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_step_state</span><span class="p" data-group-id="9018920580-1">(</span><span class="n">state</span><span class="p" data-group-id="9018920580-1">)</span><span class="w"> </span><span class="k" data-group-id="9018920580-2">do</span><span class="w">
+  </span><span class="nc">Map</span><span class="o">.</span><span class="n">merge</span><span class="p" data-group-id="9018920580-3">(</span><span class="p" data-group-id="9018920580-4">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9018920580-4">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="9018920580-3">)</span><span class="w">
+</span><span class="k" data-group-id="9018920580-2">end</span></code></pre><p>You may use <code class="inline">state</code> in conjunction with initialization functions in
 <code class="inline">init_fn</code>. For example, <a href="#train_step/3"><code class="inline">train_step/3</code></a> uses initial state as initial
 model parameters to allow initializing models from partial parameterizations.</p><p><code class="inline">step_batch/2</code> and <code class="inline">init_step_state/1</code> are typically called from
 within <a href="https://hexdocs.pm/nx/0.5.1/Nx.Defn.html#jit/3"><code class="inline">Nx.Defn.jit/3</code></a>. While JIT-compilation will work with anonymous functions,
@@ -893,20 +893,20 @@ <h1 class="signature" translate="no">metric(loop, metric, name \\ nil, accumulat
 <p>Adds a metric of the given name to the loop.</p><p>A metric is a function which tracks or measures some value with respect
 to values in the step state. For example, when training classification
 models, it's common to track the model's accuracy during training:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1719420452-1">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="1719420452-1">)</span></code></pre><p>By default, metrics assume a supervised learning task and extract the fields
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5542006304-1">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="5542006304-1">)</span></code></pre><p>By default, metrics assume a supervised learning task and extract the fields
 <code class="inline">[:y_true, :y_pred]</code> from the step state. If you wish to work on a different
 value, you can use an output transform. An output transform is a list of keys
 to extract from the output state, or a function which returns a flattened list
 of values to pass to the given metric function. Values received from output
-transforms are passed to the given metric using:</p><pre><code class="makeup elixir" translate="no"><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">output_transform</span><span class="o">.</span><span class="p" data-group-id="2484048617-1">(</span><span class="n">step_state</span><span class="p" data-group-id="2484048617-1">)</span><span class="w">
-</span><span class="n">apply</span><span class="p" data-group-id="2484048617-2">(</span><span class="n">metric</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p" data-group-id="2484048617-2">)</span></code></pre><p>Thus, even if you want your metric to work on a container, your output transform
+transforms are passed to the given metric using:</p><pre><code class="makeup elixir" translate="no"><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">output_transform</span><span class="o">.</span><span class="p" data-group-id="4127929984-1">(</span><span class="n">step_state</span><span class="p" data-group-id="4127929984-1">)</span><span class="w">
+</span><span class="n">apply</span><span class="p" data-group-id="4127929984-2">(</span><span class="n">metric</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p" data-group-id="4127929984-2">)</span></code></pre><p>Thus, even if you want your metric to work on a container, your output transform
 must return a list.</p><p><code class="inline">metric</code> must be an atom which matches the name of a metric in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>, or
 an arbitrary function which returns a tensor or container.</p><p><code class="inline">name</code> must be a string or atom used to store the computed metric in the loop
 state. If names conflict, the last attached metric will take precedence:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3096857860-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="3096857860-1">)</span><span class="w"> </span><span class="c1"># Will be overwritten</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3096857860-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="3096857860-2">)</span><span class="w"> </span><span class="c1"># Will be used</span></code></pre><p>By default, metrics keep a running average of the metric calculation. You can
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7805605942-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="7805605942-1">)</span><span class="w"> </span><span class="c1"># Will be overwritten</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7805605942-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="7805605942-2">)</span><span class="w"> </span><span class="c1"># Will be used</span></code></pre><p>By default, metrics keep a running average of the metric calculation. You can
 override this behavior by changing <code class="inline">accumulate</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5719082390-1">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="5719082390-1">)</span></code></pre><p>Accumulation function can be one of the accumulation combinators in Axon.Metrics
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1737720312-1">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="1737720312-1">)</span></code></pre><p>Accumulation function can be one of the accumulation combinators in Axon.Metrics
 or an arity-3 function of the form: <code class="inline">accumulate(acc, obs, i) :: new_acc</code>.</p>
   </section>
 </section>
@@ -982,10 +982,10 @@ <h1 class="signature" translate="no">reduce_lr_on_plateau(loop, monitor, opts \\
 improvement of a given metric.</p><p>You must specify a metric to monitor and the metric must
 be present in the loop state. Typically, this will be
 a validation metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9290020213-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="9290020213-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9290020213-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="9290020213-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="9290020213-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">val_data</span><span class="p" data-group-id="9290020213-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">reduce_lr_on_plateau</span><span class="p" data-group-id="9290020213-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="9290020213-4">)</span></code></pre><h2 id="reduce_lr_on_plateau/3-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6308492046-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="6308492046-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6308492046-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="6308492046-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="6308492046-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">val_data</span><span class="p" data-group-id="6308492046-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">reduce_lr_on_plateau</span><span class="p" data-group-id="6308492046-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="6308492046-4">)</span></code></pre><h2 id="reduce_lr_on_plateau/3-options" class="section-heading">
   <a href="#reduce_lr_on_plateau/3-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
   </a>
@@ -1170,13 +1170,13 @@ <h1 class="signature" translate="no">trainer(model, loss, optimizer, opts \\ [])
 arity-3 function which scales gradient updates with respect to input parameters,
 optimizer state, and gradients. See <a href="Axon.Updates.html"><code class="inline">Axon.Updates</code></a> for more information on building
 optimizers.</p><p>This function creates a step function which outputs a map consisting of the following
-fields for <code class="inline">step_state</code>:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4500317346-1">%{</span><span class="w">
-  </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="4500317346-2">(</span><span class="p" data-group-id="4500317346-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="4500317346-3">(</span><span class="n">tensor</span><span class="p" data-group-id="4500317346-4">(</span><span class="p" data-group-id="4500317346-4">)</span><span class="p" data-group-id="4500317346-3">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model predictions for use in metrics</span><span class="w">
-  </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="4500317346-5">(</span><span class="p" data-group-id="4500317346-5">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="4500317346-6">(</span><span class="n">tensor</span><span class="p" data-group-id="4500317346-7">(</span><span class="p" data-group-id="4500317346-7">)</span><span class="p" data-group-id="4500317346-6">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># True labels for use in metrics</span><span class="w">
-  </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="4500317346-8">(</span><span class="p" data-group-id="4500317346-8">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Running average of loss over epoch</span><span class="w">
-  </span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="4500317346-9">(</span><span class="n">tensor</span><span class="p" data-group-id="4500317346-10">(</span><span class="p" data-group-id="4500317346-10">)</span><span class="p" data-group-id="4500317346-9">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model parameters and state</span><span class="w">
-  </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="4500317346-11">(</span><span class="n">tensor</span><span class="p" data-group-id="4500317346-12">(</span><span class="p" data-group-id="4500317346-12">)</span><span class="p" data-group-id="4500317346-11">)</span><span class="w"> </span><span class="c1"># Optimizer state associated with each parameter</span><span class="w">
-</span><span class="p" data-group-id="4500317346-1">}</span></code></pre><h2 id="trainer/4-examples" class="section-heading">
+fields for <code class="inline">step_state</code>:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8211716852-1">%{</span><span class="w">
+  </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="8211716852-2">(</span><span class="p" data-group-id="8211716852-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="8211716852-3">(</span><span class="n">tensor</span><span class="p" data-group-id="8211716852-4">(</span><span class="p" data-group-id="8211716852-4">)</span><span class="p" data-group-id="8211716852-3">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model predictions for use in metrics</span><span class="w">
+  </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="8211716852-5">(</span><span class="p" data-group-id="8211716852-5">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="8211716852-6">(</span><span class="n">tensor</span><span class="p" data-group-id="8211716852-7">(</span><span class="p" data-group-id="8211716852-7">)</span><span class="p" data-group-id="8211716852-6">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># True labels for use in metrics</span><span class="w">
+  </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="8211716852-8">(</span><span class="p" data-group-id="8211716852-8">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Running average of loss over epoch</span><span class="w">
+  </span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="8211716852-9">(</span><span class="n">tensor</span><span class="p" data-group-id="8211716852-10">(</span><span class="p" data-group-id="8211716852-10">)</span><span class="p" data-group-id="8211716852-9">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model parameters and state</span><span class="w">
+  </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="8211716852-11">(</span><span class="n">tensor</span><span class="p" data-group-id="8211716852-12">(</span><span class="p" data-group-id="8211716852-12">)</span><span class="p" data-group-id="8211716852-11">)</span><span class="w"> </span><span class="c1"># Optimizer state associated with each parameter</span><span class="w">
+</span><span class="p" data-group-id="8211716852-1">}</span></code></pre><h2 id="trainer/4-examples" class="section-heading">
   <a href="#trainer/4-examples" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">examples</p>
   </a>
@@ -1188,42 +1188,42 @@ <h3 id="trainer/4-basic-usage" class="section-heading">
   </a>
   Basic usage
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="4382041375-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">target</span><span class="p" data-group-id="4382041375-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="5018705573-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">target</span><span class="p" data-group-id="5018705573-1">)</span><span class="w">
 
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4382041375-2">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4382041375-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4382041375-3">}</span><span class="p" data-group-id="4382041375-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4382041375-4">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="4382041375-4">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5018705573-2">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5018705573-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5018705573-3">}</span><span class="p" data-group-id="5018705573-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5018705573-4">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="5018705573-4">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4382041375-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="4382041375-5">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4382041375-6">(</span><span class="n">data</span><span class="p" data-group-id="4382041375-6">)</span></code></pre><h3 id="trainer/4-customizing-optimizer" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5018705573-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="5018705573-5">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5018705573-6">(</span><span class="n">data</span><span class="p" data-group-id="5018705573-6">)</span></code></pre><h3 id="trainer/4-customizing-optimizer" class="section-heading">
   <a href="#trainer/4-customizing-optimizer" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">customizing-optimizer</p>
   </a>
   Customizing Optimizer
 </h3>
 <pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1163718074-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="1163718074-2">(</span><span class="mf">0.05</span><span class="p" data-group-id="1163718074-2">)</span><span class="p" data-group-id="1163718074-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1163718074-3">(</span><span class="n">data</span><span class="p" data-group-id="1163718074-3">)</span></code></pre><h3 id="trainer/4-custom-loss" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6027489209-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="6027489209-2">(</span><span class="mf">0.05</span><span class="p" data-group-id="6027489209-2">)</span><span class="p" data-group-id="6027489209-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6027489209-3">(</span><span class="n">data</span><span class="p" data-group-id="6027489209-3">)</span></code></pre><h3 id="trainer/4-custom-loss" class="section-heading">
   <a href="#trainer/4-custom-loss" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">custom-loss</p>
   </a>
   Custom loss
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9085175165-1">fn</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="9085175165-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9085175165-2">)</span><span class="w"> </span><span class="k" data-group-id="9085175165-1">end</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3252783813-1">fn</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="3252783813-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3252783813-2">)</span><span class="w"> </span><span class="k" data-group-id="3252783813-1">end</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9085175165-3">(</span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">rmsprop</span><span class="p" data-group-id="9085175165-4">(</span><span class="mf">0.01</span><span class="p" data-group-id="9085175165-4">)</span><span class="p" data-group-id="9085175165-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9085175165-5">(</span><span class="n">data</span><span class="p" data-group-id="9085175165-5">)</span></code></pre><h3 id="trainer/4-multiple-objectives-with-multi-output-model" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3252783813-3">(</span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">rmsprop</span><span class="p" data-group-id="3252783813-4">(</span><span class="mf">0.01</span><span class="p" data-group-id="3252783813-4">)</span><span class="p" data-group-id="3252783813-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3252783813-5">(</span><span class="n">data</span><span class="p" data-group-id="3252783813-5">)</span></code></pre><h3 id="trainer/4-multiple-objectives-with-multi-output-model" class="section-heading">
   <a href="#trainer/4-multiple-objectives-with-multi-output-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">multiple-objectives-with-multi-output-model</p>
   </a>
   Multiple objectives with multi-output model
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5637759354-1">{</span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5637759354-2">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5637759354-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5637759354-3">}</span><span class="p" data-group-id="5637759354-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5637759354-4">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5637759354-5">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5637759354-5">}</span><span class="p" data-group-id="5637759354-4">)</span><span class="p" data-group-id="5637759354-1">}</span><span class="w">
-</span><span class="n">loss_weights</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5637759354-6">[</span><span class="ss">mean_squared_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="5637759354-6">]</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6330510677-1">{</span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6330510677-2">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6330510677-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6330510677-3">}</span><span class="p" data-group-id="6330510677-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6330510677-4">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6330510677-5">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6330510677-5">}</span><span class="p" data-group-id="6330510677-4">)</span><span class="p" data-group-id="6330510677-1">}</span><span class="w">
+</span><span class="n">loss_weights</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6330510677-6">[</span><span class="ss">mean_squared_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6330510677-6">]</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5637759354-7">(</span><span class="n">loss_weights</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5637759354-7">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5637759354-8">(</span><span class="n">data</span><span class="p" data-group-id="5637759354-8">)</span></code></pre><h2 id="trainer/4-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6330510677-7">(</span><span class="n">loss_weights</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="6330510677-7">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6330510677-8">(</span><span class="n">data</span><span class="p" data-group-id="6330510677-8">)</span></code></pre><h2 id="trainer/4-options" class="section-heading">
   <a href="#trainer/4-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
   </a>
@@ -1264,25 +1264,25 @@ <h1 class="signature" translate="no">validate(loop, model, validation_data, opts
 against the given validation set.</p><p>This handler assumes the loop state matches the state initialized
 in a supervised training loop. Typically, you'd call this immediately
 after creating a supervised training loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6521230018-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="6521230018-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="6521230018-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="6521230018-2">)</span></code></pre><p>Please note that you must pass the same (or an equivalent) model
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2515490095-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2515490095-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="2515490095-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="2515490095-2">)</span></code></pre><p>Please note that you must pass the same (or an equivalent) model
 into this method so it can be used during the validation loop. The
 metrics which are computed are those which are present BEFORE the
 validation handler was added to the loop. For the following loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7637317596-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7637317596-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7637317596-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="7637317596-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="7637317596-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="7637317596-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7637317596-4">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="7637317596-4">)</span></code></pre><p>only <code class="inline">:mean_absolute_error</code> will be computed at validation time.</p><p>The returned loop state is altered to contain validation
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8076051768-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8076051768-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8076051768-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="8076051768-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="8076051768-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="8076051768-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8076051768-4">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="8076051768-4">)</span></code></pre><p>only <code class="inline">:mean_absolute_error</code> will be computed at validation time.</p><p>The returned loop state is altered to contain validation
 metrics for use in later handlers such as early stopping and model
 checkpoints. Since the order of execution of event handlers is in
 the same order they are declared in the training loop, you MUST call
 this method before any other handler which expects or may use
 validation metrics.</p><p>By default the validation loop runs after every epoch; however, you
 can customize it by overriding the default event and event filters:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0995793716-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0995793716-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0995793716-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="0995793716-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="0995793716-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p">,</span><span class="w"> </span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0995793716-4">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">10_000</span><span class="p" data-group-id="0995793716-4">]</span><span class="p" data-group-id="0995793716-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0995793716-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="0995793716-5">)</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9106906921-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9106906921-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9106906921-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="9106906921-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="9106906921-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p">,</span><span class="w"> </span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9106906921-4">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">10_000</span><span class="p" data-group-id="9106906921-4">]</span><span class="p" data-group-id="9106906921-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9106906921-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="9106906921-5">)</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.LossScale.html b/Axon.LossScale.html
index f62710ba..e210e6cd 100644
--- a/Axon.LossScale.html
+++ b/Axon.LossScale.html
@@ -115,7 +115,7 @@ <h1>
 <p>Implementations of loss-scalers for use in mixed precision
 training.</p><p>Loss scaling is used to prevent underflow when using mixed
 precision during the model training process. Each loss-scale
-implementation here returns a 3-tuple of the functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9892066435-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">scale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">unscale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">adjust_fn</span><span class="p" data-group-id="9892066435-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.LossScale</span><span class="o">.</span><span class="n">static</span><span class="p" data-group-id="9892066435-2">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">pow</span><span class="p" data-group-id="9892066435-3">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">15</span><span class="p" data-group-id="9892066435-3">)</span><span class="p" data-group-id="9892066435-2">)</span></code></pre><p>You can use these to scale/unscale loss and gradients as well
+implementation here returns a 3-tuple of the functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7293727208-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">scale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">unscale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">adjust_fn</span><span class="p" data-group-id="7293727208-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.LossScale</span><span class="o">.</span><span class="n">static</span><span class="p" data-group-id="7293727208-2">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">pow</span><span class="p" data-group-id="7293727208-3">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">15</span><span class="p" data-group-id="7293727208-3">)</span><span class="p" data-group-id="7293727208-2">)</span></code></pre><p>You can use these to scale/unscale loss and gradients as well
 as adjust the loss scale state.</p><p><a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> builds loss-scaling in by default. You
 can reference the <a href="Axon.Loop.html#train_step/3"><code class="inline">Axon.Loop.train_step/3</code></a> implementation to
 see how loss-scaling is applied in practice.</p>
diff --git a/Axon.Losses.html b/Axon.Losses.html
index 3c588c66..861e479e 100644
--- a/Axon.Losses.html
+++ b/Axon.Losses.html
@@ -119,31 +119,31 @@ <h1>
 measuring the loss with respect to the input target <code class="inline">y_true</code>
 and input prediction <code class="inline">y_pred</code>. As an example, the <a href="#mean_squared_error/2"><code class="inline">mean_squared_error/2</code></a>
 loss function produces a tensor whose values are the mean squared
-error between targets and predictions:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6202917105-1">(</span><span class="p" data-group-id="6202917105-2">[</span><span class="p" data-group-id="6202917105-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6202917105-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6202917105-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6202917105-4">]</span><span class="p" data-group-id="6202917105-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6202917105-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6202917105-5">}</span><span class="p" data-group-id="6202917105-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6202917105-6">(</span><span class="p" data-group-id="6202917105-7">[</span><span class="p" data-group-id="6202917105-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6202917105-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6202917105-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6202917105-9">]</span><span class="p" data-group-id="6202917105-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6202917105-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6202917105-10">}</span><span class="p" data-group-id="6202917105-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6202917105-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6202917105-11">)</span><span class="w">
-</span><span class="p" data-group-id="6202917105-12">#</span><span class="nc" data-group-id="6202917105-12">Nx.Tensor</span><span class="p" data-group-id="6202917105-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6202917105-13">[</span><span class="mi">2</span><span class="p" data-group-id="6202917105-13">]</span><span class="w">
-  </span><span class="p" data-group-id="6202917105-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6202917105-14">]</span><span class="w">
-</span><span class="p" data-group-id="6202917105-12">&gt;</span></code></pre><p>It's common to compute the loss across an entire minibatch.
+error between targets and predictions:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8895861904-1">(</span><span class="p" data-group-id="8895861904-2">[</span><span class="p" data-group-id="8895861904-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8895861904-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8895861904-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8895861904-4">]</span><span class="p" data-group-id="8895861904-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8895861904-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8895861904-5">}</span><span class="p" data-group-id="8895861904-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8895861904-6">(</span><span class="p" data-group-id="8895861904-7">[</span><span class="p" data-group-id="8895861904-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8895861904-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8895861904-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8895861904-9">]</span><span class="p" data-group-id="8895861904-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8895861904-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8895861904-10">}</span><span class="p" data-group-id="8895861904-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="8895861904-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="8895861904-11">)</span><span class="w">
+</span><span class="p" data-group-id="8895861904-12">#</span><span class="nc" data-group-id="8895861904-12">Nx.Tensor</span><span class="p" data-group-id="8895861904-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8895861904-13">[</span><span class="mi">2</span><span class="p" data-group-id="8895861904-13">]</span><span class="w">
+  </span><span class="p" data-group-id="8895861904-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="8895861904-14">]</span><span class="w">
+</span><span class="p" data-group-id="8895861904-12">&gt;</span></code></pre><p>It's common to compute the loss across an entire minibatch.
 You can easily do so by specifying a <code class="inline">:reduction</code> mode, or
-by composing one of these with an <a href="https://hexdocs.pm/nx/0.5.1/Nx.html"><code class="inline">Nx</code></a> reduction method:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9572657810-1">(</span><span class="p" data-group-id="9572657810-2">[</span><span class="p" data-group-id="9572657810-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9572657810-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9572657810-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9572657810-4">]</span><span class="p" data-group-id="9572657810-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9572657810-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9572657810-5">}</span><span class="p" data-group-id="9572657810-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9572657810-6">(</span><span class="p" data-group-id="9572657810-7">[</span><span class="p" data-group-id="9572657810-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9572657810-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9572657810-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9572657810-9">]</span><span class="p" data-group-id="9572657810-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9572657810-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9572657810-10">}</span><span class="p" data-group-id="9572657810-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="9572657810-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="9572657810-11">)</span><span class="w">
-</span><span class="p" data-group-id="9572657810-12">#</span><span class="nc" data-group-id="9572657810-12">Nx.Tensor</span><span class="p" data-group-id="9572657810-12">&lt;</span><span class="w">
+by composing one of these with an <a href="https://hexdocs.pm/nx/0.5.1/Nx.html"><code class="inline">Nx</code></a> reduction method:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0549876606-1">(</span><span class="p" data-group-id="0549876606-2">[</span><span class="p" data-group-id="0549876606-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0549876606-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0549876606-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0549876606-4">]</span><span class="p" data-group-id="0549876606-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0549876606-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0549876606-5">}</span><span class="p" data-group-id="0549876606-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0549876606-6">(</span><span class="p" data-group-id="0549876606-7">[</span><span class="p" data-group-id="0549876606-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0549876606-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0549876606-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0549876606-9">]</span><span class="p" data-group-id="0549876606-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0549876606-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0549876606-10">}</span><span class="p" data-group-id="0549876606-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="0549876606-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="0549876606-11">)</span><span class="w">
+</span><span class="p" data-group-id="0549876606-12">#</span><span class="nc" data-group-id="0549876606-12">Nx.Tensor</span><span class="p" data-group-id="0549876606-12">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="9572657810-12">&gt;</span></code></pre><p>You can even compose loss functions:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_strange_loss</span><span class="p" data-group-id="4943854718-1">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4943854718-1">)</span><span class="w"> </span><span class="k" data-group-id="4943854718-2">do</span><span class="w">
+</span><span class="p" data-group-id="0549876606-12">&gt;</span></code></pre><p>You can even compose loss functions:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_strange_loss</span><span class="p" data-group-id="5912052858-1">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5912052858-1">)</span><span class="w"> </span><span class="k" data-group-id="5912052858-2">do</span><span class="w">
   </span><span class="n">y_true</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="4943854718-3">(</span><span class="n">y_pred</span><span class="p" data-group-id="4943854718-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="4943854718-4">(</span><span class="n">y_pred</span><span class="p" data-group-id="4943854718-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="4943854718-5">(</span><span class="p" data-group-id="4943854718-5">)</span><span class="w">
-</span><span class="k" data-group-id="4943854718-2">end</span></code></pre><p>Or, more commonly, you can combine loss functions with penalties for
-regularization:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">regularized_loss</span><span class="p" data-group-id="3259825853-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3259825853-1">)</span><span class="w"> </span><span class="k" data-group-id="3259825853-2">do</span><span class="w">
-  </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="3259825853-3">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3259825853-3">)</span><span class="w">
-  </span><span class="n">penalty</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">l2_penalty</span><span class="p" data-group-id="3259825853-4">(</span><span class="n">params</span><span class="p" data-group-id="3259825853-4">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="3259825853-5">(</span><span class="n">loss</span><span class="p" data-group-id="3259825853-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">penalty</span><span class="w">
-</span><span class="k" data-group-id="3259825853-2">end</span></code></pre><p>All of the functions in this module are implemented as
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="5912052858-3">(</span><span class="n">y_pred</span><span class="p" data-group-id="5912052858-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="5912052858-4">(</span><span class="n">y_pred</span><span class="p" data-group-id="5912052858-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="5912052858-5">(</span><span class="p" data-group-id="5912052858-5">)</span><span class="w">
+</span><span class="k" data-group-id="5912052858-2">end</span></code></pre><p>Or, more commonly, you can combine loss functions with penalties for
+regularization:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">regularized_loss</span><span class="p" data-group-id="9111981202-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9111981202-1">)</span><span class="w"> </span><span class="k" data-group-id="9111981202-2">do</span><span class="w">
+  </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="9111981202-3">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9111981202-3">)</span><span class="w">
+  </span><span class="n">penalty</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">l2_penalty</span><span class="p" data-group-id="9111981202-4">(</span><span class="n">params</span><span class="p" data-group-id="9111981202-4">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="9111981202-5">(</span><span class="n">loss</span><span class="p" data-group-id="9111981202-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">penalty</span><span class="w">
+</span><span class="k" data-group-id="9111981202-2">end</span></code></pre><p>All of the functions in this module are implemented as
 numerical functions and can be JIT or AOT compiled with
 any supported <a href="https://hexdocs.pm/nx/0.5.1/Nx.html"><code class="inline">Nx</code></a> compiler.</p>
   </section>
@@ -423,29 +423,29 @@ <h1 class="signature" translate="no">binary_cross_entropy(y_true, y_pred, opts \
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5794232592-1">(</span><span class="p" data-group-id="5794232592-2">[</span><span class="p" data-group-id="5794232592-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5794232592-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5794232592-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5794232592-5">]</span><span class="p" data-group-id="5794232592-2">]</span><span class="p" data-group-id="5794232592-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5794232592-6">(</span><span class="p" data-group-id="5794232592-7">[</span><span class="p" data-group-id="5794232592-8">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="5794232592-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-9">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="5794232592-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-10">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="5794232592-10">]</span><span class="p" data-group-id="5794232592-7">]</span><span class="p" data-group-id="5794232592-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="5794232592-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5794232592-11">)</span><span class="w">
-</span><span class="p" data-group-id="5794232592-12">#</span><span class="nc" data-group-id="5794232592-12">Nx.Tensor</span><span class="p" data-group-id="5794232592-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5794232592-13">[</span><span class="mi">3</span><span class="p" data-group-id="5794232592-13">]</span><span class="w">
-  </span><span class="p" data-group-id="5794232592-14">[</span><span class="mf">0.8644826412200928</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5150600075721741</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45986634492874146</span><span class="p" data-group-id="5794232592-14">]</span><span class="w">
-</span><span class="p" data-group-id="5794232592-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5794232592-15">(</span><span class="p" data-group-id="5794232592-16">[</span><span class="p" data-group-id="5794232592-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5794232592-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5794232592-18">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-19">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5794232592-19">]</span><span class="p" data-group-id="5794232592-16">]</span><span class="p" data-group-id="5794232592-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5794232592-20">(</span><span class="p" data-group-id="5794232592-21">[</span><span class="p" data-group-id="5794232592-22">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="5794232592-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-23">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="5794232592-23">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-24">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="5794232592-24">]</span><span class="p" data-group-id="5794232592-21">]</span><span class="p" data-group-id="5794232592-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="5794232592-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5794232592-25">)</span><span class="w">
-</span><span class="p" data-group-id="5794232592-26">#</span><span class="nc" data-group-id="5794232592-26">Nx.Tensor</span><span class="p" data-group-id="5794232592-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1684943618-1">(</span><span class="p" data-group-id="1684943618-2">[</span><span class="p" data-group-id="1684943618-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1684943618-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1684943618-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1684943618-5">]</span><span class="p" data-group-id="1684943618-2">]</span><span class="p" data-group-id="1684943618-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1684943618-6">(</span><span class="p" data-group-id="1684943618-7">[</span><span class="p" data-group-id="1684943618-8">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="1684943618-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-9">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="1684943618-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-10">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="1684943618-10">]</span><span class="p" data-group-id="1684943618-7">]</span><span class="p" data-group-id="1684943618-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="1684943618-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1684943618-11">)</span><span class="w">
+</span><span class="p" data-group-id="1684943618-12">#</span><span class="nc" data-group-id="1684943618-12">Nx.Tensor</span><span class="p" data-group-id="1684943618-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1684943618-13">[</span><span class="mi">3</span><span class="p" data-group-id="1684943618-13">]</span><span class="w">
+  </span><span class="p" data-group-id="1684943618-14">[</span><span class="mf">0.8644826412200928</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5150600075721741</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45986634492874146</span><span class="p" data-group-id="1684943618-14">]</span><span class="w">
+</span><span class="p" data-group-id="1684943618-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1684943618-15">(</span><span class="p" data-group-id="1684943618-16">[</span><span class="p" data-group-id="1684943618-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1684943618-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1684943618-18">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-19">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1684943618-19">]</span><span class="p" data-group-id="1684943618-16">]</span><span class="p" data-group-id="1684943618-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1684943618-20">(</span><span class="p" data-group-id="1684943618-21">[</span><span class="p" data-group-id="1684943618-22">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="1684943618-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-23">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="1684943618-23">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-24">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="1684943618-24">]</span><span class="p" data-group-id="1684943618-21">]</span><span class="p" data-group-id="1684943618-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="1684943618-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="1684943618-25">)</span><span class="w">
+</span><span class="p" data-group-id="1684943618-26">#</span><span class="nc" data-group-id="1684943618-26">Nx.Tensor</span><span class="p" data-group-id="1684943618-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.613136351108551</span><span class="w">
-</span><span class="p" data-group-id="5794232592-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="1684943618-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5794232592-27">(</span><span class="p" data-group-id="5794232592-28">[</span><span class="p" data-group-id="5794232592-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5794232592-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-30">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5794232592-30">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-31">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5794232592-31">]</span><span class="p" data-group-id="5794232592-28">]</span><span class="p" data-group-id="5794232592-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5794232592-32">(</span><span class="p" data-group-id="5794232592-33">[</span><span class="p" data-group-id="5794232592-34">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="5794232592-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-35">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="5794232592-35">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5794232592-36">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="5794232592-36">]</span><span class="p" data-group-id="5794232592-33">]</span><span class="p" data-group-id="5794232592-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="5794232592-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="5794232592-37">)</span><span class="w">
-</span><span class="p" data-group-id="5794232592-38">#</span><span class="nc" data-group-id="5794232592-38">Nx.Tensor</span><span class="p" data-group-id="5794232592-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1684943618-27">(</span><span class="p" data-group-id="1684943618-28">[</span><span class="p" data-group-id="1684943618-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1684943618-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-30">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1684943618-30">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-31">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1684943618-31">]</span><span class="p" data-group-id="1684943618-28">]</span><span class="p" data-group-id="1684943618-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1684943618-32">(</span><span class="p" data-group-id="1684943618-33">[</span><span class="p" data-group-id="1684943618-34">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="1684943618-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-35">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="1684943618-35">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1684943618-36">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="1684943618-36">]</span><span class="p" data-group-id="1684943618-33">]</span><span class="p" data-group-id="1684943618-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="1684943618-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="1684943618-37">)</span><span class="w">
+</span><span class="p" data-group-id="1684943618-38">#</span><span class="nc" data-group-id="1684943618-38">Nx.Tensor</span><span class="p" data-group-id="1684943618-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.8394089937210083</span><span class="w">
-</span><span class="p" data-group-id="5794232592-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1684943618-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="categorical_cross_entropy/3">
@@ -472,8 +472,8 @@ <h1 class="signature" translate="no">categorical_cross_entropy(y_true, y_pred, o
 <p>Categorical cross-entropy loss function.</p><p>$$l_i = -\sum_i^C \hat{y_i} \cdot \log(y_i)$$</p><p>Categorical cross-entropy is typically used for multi-class classifcation problems.
 By default, it expects <code class="inline">y_pred</code> to encode a probability distribution along the last
 axis. You can specify <code class="inline">from_logits: true</code> to indicate <code class="inline">y_pred</code> is a logits tensor.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Batch size of 3 with 3 target classes</span><span class="w">
-</span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3162070312-1">(</span><span class="p" data-group-id="3162070312-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3162070312-2">]</span><span class="p" data-group-id="3162070312-1">)</span><span class="w">
-</span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3162070312-3">(</span><span class="p" data-group-id="3162070312-4">[</span><span class="p" data-group-id="3162070312-5">[</span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3162070312-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3162070312-6">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="3162070312-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3162070312-7">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="3162070312-7">]</span><span class="p" data-group-id="3162070312-4">]</span><span class="p" data-group-id="3162070312-3">)</span></code></pre><h2 id="categorical_cross_entropy/3-argument-shapes" class="section-heading">
+</span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3973039828-1">(</span><span class="p" data-group-id="3973039828-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3973039828-2">]</span><span class="p" data-group-id="3973039828-1">)</span><span class="w">
+</span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3973039828-3">(</span><span class="p" data-group-id="3973039828-4">[</span><span class="p" data-group-id="3973039828-5">[</span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3973039828-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3973039828-6">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="3973039828-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3973039828-7">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="3973039828-7">]</span><span class="p" data-group-id="3973039828-4">]</span><span class="p" data-group-id="3973039828-3">)</span></code></pre><h2 id="categorical_cross_entropy/3-argument-shapes" class="section-heading">
   <a href="#categorical_cross_entropy/3-argument-shapes" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">argument-shapes</p>
   </a>
@@ -497,37 +497,37 @@ <h1 class="signature" translate="no">categorical_cross_entropy(y_true, y_pred, o
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-1">(</span><span class="p" data-group-id="4674461199-2">[</span><span class="p" data-group-id="4674461199-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4674461199-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674461199-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4674461199-4">]</span><span class="p" data-group-id="4674461199-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4674461199-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4674461199-5">}</span><span class="p" data-group-id="4674461199-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-6">(</span><span class="p" data-group-id="4674461199-7">[</span><span class="p" data-group-id="4674461199-8">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4674461199-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674461199-9">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="4674461199-9">]</span><span class="p" data-group-id="4674461199-7">]</span><span class="p" data-group-id="4674461199-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="4674461199-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4674461199-10">)</span><span class="w">
-</span><span class="p" data-group-id="4674461199-11">#</span><span class="nc" data-group-id="4674461199-11">Nx.Tensor</span><span class="p" data-group-id="4674461199-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4674461199-12">[</span><span class="mi">2</span><span class="p" data-group-id="4674461199-12">]</span><span class="w">
-  </span><span class="p" data-group-id="4674461199-13">[</span><span class="mf">0.051293306052684784</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3025851249694824</span><span class="p" data-group-id="4674461199-13">]</span><span class="w">
-</span><span class="p" data-group-id="4674461199-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-14">(</span><span class="p" data-group-id="4674461199-15">[</span><span class="p" data-group-id="4674461199-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4674461199-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674461199-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4674461199-17">]</span><span class="p" data-group-id="4674461199-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4674461199-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4674461199-18">}</span><span class="p" data-group-id="4674461199-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-19">(</span><span class="p" data-group-id="4674461199-20">[</span><span class="p" data-group-id="4674461199-21">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4674461199-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674461199-22">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="4674461199-22">]</span><span class="p" data-group-id="4674461199-20">]</span><span class="p" data-group-id="4674461199-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="4674461199-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4674461199-23">)</span><span class="w">
-</span><span class="p" data-group-id="4674461199-24">#</span><span class="nc" data-group-id="4674461199-24">Nx.Tensor</span><span class="p" data-group-id="4674461199-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-1">(</span><span class="p" data-group-id="1624073579-2">[</span><span class="p" data-group-id="1624073579-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1624073579-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1624073579-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1624073579-4">]</span><span class="p" data-group-id="1624073579-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1624073579-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1624073579-5">}</span><span class="p" data-group-id="1624073579-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-6">(</span><span class="p" data-group-id="1624073579-7">[</span><span class="p" data-group-id="1624073579-8">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1624073579-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1624073579-9">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="1624073579-9">]</span><span class="p" data-group-id="1624073579-7">]</span><span class="p" data-group-id="1624073579-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="1624073579-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1624073579-10">)</span><span class="w">
+</span><span class="p" data-group-id="1624073579-11">#</span><span class="nc" data-group-id="1624073579-11">Nx.Tensor</span><span class="p" data-group-id="1624073579-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1624073579-12">[</span><span class="mi">2</span><span class="p" data-group-id="1624073579-12">]</span><span class="w">
+  </span><span class="p" data-group-id="1624073579-13">[</span><span class="mf">0.051293306052684784</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3025851249694824</span><span class="p" data-group-id="1624073579-13">]</span><span class="w">
+</span><span class="p" data-group-id="1624073579-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-14">(</span><span class="p" data-group-id="1624073579-15">[</span><span class="p" data-group-id="1624073579-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1624073579-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1624073579-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1624073579-17">]</span><span class="p" data-group-id="1624073579-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1624073579-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1624073579-18">}</span><span class="p" data-group-id="1624073579-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-19">(</span><span class="p" data-group-id="1624073579-20">[</span><span class="p" data-group-id="1624073579-21">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1624073579-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1624073579-22">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="1624073579-22">]</span><span class="p" data-group-id="1624073579-20">]</span><span class="p" data-group-id="1624073579-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="1624073579-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="1624073579-23">)</span><span class="w">
+</span><span class="p" data-group-id="1624073579-24">#</span><span class="nc" data-group-id="1624073579-24">Nx.Tensor</span><span class="p" data-group-id="1624073579-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.1769392490386963</span><span class="w">
-</span><span class="p" data-group-id="4674461199-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="1624073579-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-25">(</span><span class="p" data-group-id="4674461199-26">[</span><span class="p" data-group-id="4674461199-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4674461199-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674461199-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4674461199-28">]</span><span class="p" data-group-id="4674461199-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4674461199-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4674461199-29">}</span><span class="p" data-group-id="4674461199-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-30">(</span><span class="p" data-group-id="4674461199-31">[</span><span class="p" data-group-id="4674461199-32">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4674461199-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674461199-33">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="4674461199-33">]</span><span class="p" data-group-id="4674461199-31">]</span><span class="p" data-group-id="4674461199-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="4674461199-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="4674461199-34">)</span><span class="w">
-</span><span class="p" data-group-id="4674461199-35">#</span><span class="nc" data-group-id="4674461199-35">Nx.Tensor</span><span class="p" data-group-id="4674461199-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-25">(</span><span class="p" data-group-id="1624073579-26">[</span><span class="p" data-group-id="1624073579-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1624073579-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1624073579-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1624073579-28">]</span><span class="p" data-group-id="1624073579-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1624073579-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1624073579-29">}</span><span class="p" data-group-id="1624073579-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-30">(</span><span class="p" data-group-id="1624073579-31">[</span><span class="p" data-group-id="1624073579-32">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1624073579-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1624073579-33">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="1624073579-33">]</span><span class="p" data-group-id="1624073579-31">]</span><span class="p" data-group-id="1624073579-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="1624073579-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="1624073579-34">)</span><span class="w">
+</span><span class="p" data-group-id="1624073579-35">#</span><span class="nc" data-group-id="1624073579-35">Nx.Tensor</span><span class="p" data-group-id="1624073579-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">2.3538784980773926</span><span class="w">
-</span><span class="p" data-group-id="4674461199-35">&gt;</span><span class="w">
+</span><span class="p" data-group-id="1624073579-35">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-36">(</span><span class="p" data-group-id="4674461199-37">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4674461199-37">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4674461199-38">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4674461199-38">}</span><span class="p" data-group-id="4674461199-36">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674461199-39">(</span><span class="p" data-group-id="4674461199-40">[</span><span class="p" data-group-id="4674461199-41">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4674461199-41">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674461199-42">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="4674461199-42">]</span><span class="p" data-group-id="4674461199-40">]</span><span class="p" data-group-id="4674461199-39">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="4674461199-43">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4674461199-43">)</span><span class="w">
-</span><span class="p" data-group-id="4674461199-44">#</span><span class="nc" data-group-id="4674461199-44">Nx.Tensor</span><span class="p" data-group-id="4674461199-44">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-36">(</span><span class="p" data-group-id="1624073579-37">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1624073579-37">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1624073579-38">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1624073579-38">}</span><span class="p" data-group-id="1624073579-36">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1624073579-39">(</span><span class="p" data-group-id="1624073579-40">[</span><span class="p" data-group-id="1624073579-41">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1624073579-41">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1624073579-42">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="1624073579-42">]</span><span class="p" data-group-id="1624073579-40">]</span><span class="p" data-group-id="1624073579-39">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="1624073579-43">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1624073579-43">)</span><span class="w">
+</span><span class="p" data-group-id="1624073579-44">#</span><span class="nc" data-group-id="1624073579-44">Nx.Tensor</span><span class="p" data-group-id="1624073579-44">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">2.3538784980773926</span><span class="w">
-</span><span class="p" data-group-id="4674461199-44">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1624073579-44">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="categorical_hinge/3">
@@ -570,29 +570,29 @@ <h1 class="signature" translate="no">categorical_hinge(y_true, y_pred, opts \\ [
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8190846708-1">(</span><span class="p" data-group-id="8190846708-2">[</span><span class="p" data-group-id="8190846708-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8190846708-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8190846708-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8190846708-4">]</span><span class="p" data-group-id="8190846708-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8190846708-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="8190846708-5">}</span><span class="p" data-group-id="8190846708-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8190846708-6">(</span><span class="p" data-group-id="8190846708-7">[</span><span class="p" data-group-id="8190846708-8">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="8190846708-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8190846708-9">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="8190846708-9">]</span><span class="p" data-group-id="8190846708-7">]</span><span class="p" data-group-id="8190846708-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="8190846708-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="8190846708-10">)</span><span class="w">
-</span><span class="p" data-group-id="8190846708-11">#</span><span class="nc" data-group-id="8190846708-11">Nx.Tensor</span><span class="p" data-group-id="8190846708-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8190846708-12">[</span><span class="mi">2</span><span class="p" data-group-id="8190846708-12">]</span><span class="w">
-  </span><span class="p" data-group-id="8190846708-13">[</span><span class="mf">1.6334158182144165</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2410175800323486</span><span class="p" data-group-id="8190846708-13">]</span><span class="w">
-</span><span class="p" data-group-id="8190846708-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8190846708-14">(</span><span class="p" data-group-id="8190846708-15">[</span><span class="p" data-group-id="8190846708-16">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8190846708-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8190846708-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8190846708-17">]</span><span class="p" data-group-id="8190846708-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8190846708-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="8190846708-18">}</span><span class="p" data-group-id="8190846708-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8190846708-19">(</span><span class="p" data-group-id="8190846708-20">[</span><span class="p" data-group-id="8190846708-21">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="8190846708-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8190846708-22">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="8190846708-22">]</span><span class="p" data-group-id="8190846708-20">]</span><span class="p" data-group-id="8190846708-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="8190846708-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="8190846708-23">)</span><span class="w">
-</span><span class="p" data-group-id="8190846708-24">#</span><span class="nc" data-group-id="8190846708-24">Nx.Tensor</span><span class="p" data-group-id="8190846708-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3771673034-1">(</span><span class="p" data-group-id="3771673034-2">[</span><span class="p" data-group-id="3771673034-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3771673034-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3771673034-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3771673034-4">]</span><span class="p" data-group-id="3771673034-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3771673034-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3771673034-5">}</span><span class="p" data-group-id="3771673034-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3771673034-6">(</span><span class="p" data-group-id="3771673034-7">[</span><span class="p" data-group-id="3771673034-8">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="3771673034-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3771673034-9">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="3771673034-9">]</span><span class="p" data-group-id="3771673034-7">]</span><span class="p" data-group-id="3771673034-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="3771673034-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3771673034-10">)</span><span class="w">
+</span><span class="p" data-group-id="3771673034-11">#</span><span class="nc" data-group-id="3771673034-11">Nx.Tensor</span><span class="p" data-group-id="3771673034-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3771673034-12">[</span><span class="mi">2</span><span class="p" data-group-id="3771673034-12">]</span><span class="w">
+  </span><span class="p" data-group-id="3771673034-13">[</span><span class="mf">1.6334158182144165</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2410175800323486</span><span class="p" data-group-id="3771673034-13">]</span><span class="w">
+</span><span class="p" data-group-id="3771673034-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3771673034-14">(</span><span class="p" data-group-id="3771673034-15">[</span><span class="p" data-group-id="3771673034-16">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3771673034-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3771673034-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3771673034-17">]</span><span class="p" data-group-id="3771673034-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3771673034-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3771673034-18">}</span><span class="p" data-group-id="3771673034-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3771673034-19">(</span><span class="p" data-group-id="3771673034-20">[</span><span class="p" data-group-id="3771673034-21">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="3771673034-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3771673034-22">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="3771673034-22">]</span><span class="p" data-group-id="3771673034-20">]</span><span class="p" data-group-id="3771673034-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="3771673034-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="3771673034-23">)</span><span class="w">
+</span><span class="p" data-group-id="3771673034-24">#</span><span class="nc" data-group-id="3771673034-24">Nx.Tensor</span><span class="p" data-group-id="3771673034-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.4372167587280273</span><span class="w">
-</span><span class="p" data-group-id="8190846708-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="3771673034-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8190846708-25">(</span><span class="p" data-group-id="8190846708-26">[</span><span class="p" data-group-id="8190846708-27">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8190846708-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8190846708-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8190846708-28">]</span><span class="p" data-group-id="8190846708-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8190846708-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="8190846708-29">}</span><span class="p" data-group-id="8190846708-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8190846708-30">(</span><span class="p" data-group-id="8190846708-31">[</span><span class="p" data-group-id="8190846708-32">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="8190846708-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8190846708-33">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="8190846708-33">]</span><span class="p" data-group-id="8190846708-31">]</span><span class="p" data-group-id="8190846708-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="8190846708-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="8190846708-34">)</span><span class="w">
-</span><span class="p" data-group-id="8190846708-35">#</span><span class="nc" data-group-id="8190846708-35">Nx.Tensor</span><span class="p" data-group-id="8190846708-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3771673034-25">(</span><span class="p" data-group-id="3771673034-26">[</span><span class="p" data-group-id="3771673034-27">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3771673034-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3771673034-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3771673034-28">]</span><span class="p" data-group-id="3771673034-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3771673034-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3771673034-29">}</span><span class="p" data-group-id="3771673034-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3771673034-30">(</span><span class="p" data-group-id="3771673034-31">[</span><span class="p" data-group-id="3771673034-32">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="3771673034-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3771673034-33">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="3771673034-33">]</span><span class="p" data-group-id="3771673034-31">]</span><span class="p" data-group-id="3771673034-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="3771673034-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="3771673034-34">)</span><span class="w">
+</span><span class="p" data-group-id="3771673034-35">#</span><span class="nc" data-group-id="3771673034-35">Nx.Tensor</span><span class="p" data-group-id="3771673034-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">2.8744335174560547</span><span class="w">
-</span><span class="p" data-group-id="8190846708-35">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3771673034-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="connectionist_temporal_classification/3">
@@ -685,13 +685,13 @@ <h1 class="signature" translate="no">cosine_similarity(y_true, y_pred, opts \\ [
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0010690454-1">(</span><span class="p" data-group-id="0010690454-2">[</span><span class="p" data-group-id="0010690454-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0010690454-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0010690454-4">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0010690454-4">]</span><span class="p" data-group-id="0010690454-2">]</span><span class="p" data-group-id="0010690454-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0010690454-5">(</span><span class="p" data-group-id="0010690454-6">[</span><span class="p" data-group-id="0010690454-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0010690454-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0010690454-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0010690454-8">]</span><span class="p" data-group-id="0010690454-6">]</span><span class="p" data-group-id="0010690454-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">cosine_similarity</span><span class="p" data-group-id="0010690454-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="0010690454-9">)</span><span class="w">
-</span><span class="p" data-group-id="0010690454-10">#</span><span class="nc" data-group-id="0010690454-10">Nx.Tensor</span><span class="p" data-group-id="0010690454-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0010690454-11">[</span><span class="mi">2</span><span class="p" data-group-id="0010690454-11">]</span><span class="w">
-  </span><span class="p" data-group-id="0010690454-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0000001192092896</span><span class="p" data-group-id="0010690454-12">]</span><span class="w">
-</span><span class="p" data-group-id="0010690454-10">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3534881487-1">(</span><span class="p" data-group-id="3534881487-2">[</span><span class="p" data-group-id="3534881487-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3534881487-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3534881487-4">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="3534881487-4">]</span><span class="p" data-group-id="3534881487-2">]</span><span class="p" data-group-id="3534881487-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3534881487-5">(</span><span class="p" data-group-id="3534881487-6">[</span><span class="p" data-group-id="3534881487-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="3534881487-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3534881487-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="3534881487-8">]</span><span class="p" data-group-id="3534881487-6">]</span><span class="p" data-group-id="3534881487-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">cosine_similarity</span><span class="p" data-group-id="3534881487-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3534881487-9">)</span><span class="w">
+</span><span class="p" data-group-id="3534881487-10">#</span><span class="nc" data-group-id="3534881487-10">Nx.Tensor</span><span class="p" data-group-id="3534881487-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3534881487-11">[</span><span class="mi">2</span><span class="p" data-group-id="3534881487-11">]</span><span class="w">
+  </span><span class="p" data-group-id="3534881487-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0000001192092896</span><span class="p" data-group-id="3534881487-12">]</span><span class="w">
+</span><span class="p" data-group-id="3534881487-10">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="hinge/3">
@@ -734,29 +734,29 @@ <h1 class="signature" translate="no">hinge(y_true, y_pred, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3980733799-1">(</span><span class="p" data-group-id="3980733799-2">[</span><span class="p" data-group-id="3980733799-3">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3980733799-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3980733799-4">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3980733799-4">]</span><span class="p" data-group-id="3980733799-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3980733799-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3980733799-5">}</span><span class="p" data-group-id="3980733799-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3980733799-6">(</span><span class="p" data-group-id="3980733799-7">[</span><span class="p" data-group-id="3980733799-8">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="3980733799-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3980733799-9">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="3980733799-9">]</span><span class="p" data-group-id="3980733799-7">]</span><span class="p" data-group-id="3980733799-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="3980733799-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3980733799-10">)</span><span class="w">
-</span><span class="p" data-group-id="3980733799-11">#</span><span class="nc" data-group-id="3980733799-11">Nx.Tensor</span><span class="p" data-group-id="3980733799-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3980733799-12">[</span><span class="mi">2</span><span class="p" data-group-id="3980733799-12">]</span><span class="w">
-  </span><span class="p" data-group-id="3980733799-13">[</span><span class="mf">0.9700339436531067</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6437881588935852</span><span class="p" data-group-id="3980733799-13">]</span><span class="w">
-</span><span class="p" data-group-id="3980733799-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3980733799-14">(</span><span class="p" data-group-id="3980733799-15">[</span><span class="p" data-group-id="3980733799-16">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3980733799-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3980733799-17">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3980733799-17">]</span><span class="p" data-group-id="3980733799-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3980733799-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3980733799-18">}</span><span class="p" data-group-id="3980733799-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3980733799-19">(</span><span class="p" data-group-id="3980733799-20">[</span><span class="p" data-group-id="3980733799-21">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="3980733799-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3980733799-22">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="3980733799-22">]</span><span class="p" data-group-id="3980733799-20">]</span><span class="p" data-group-id="3980733799-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="3980733799-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="3980733799-23">)</span><span class="w">
-</span><span class="p" data-group-id="3980733799-24">#</span><span class="nc" data-group-id="3980733799-24">Nx.Tensor</span><span class="p" data-group-id="3980733799-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5276124517-1">(</span><span class="p" data-group-id="5276124517-2">[</span><span class="p" data-group-id="5276124517-3">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="5276124517-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5276124517-4">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="5276124517-4">]</span><span class="p" data-group-id="5276124517-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5276124517-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5276124517-5">}</span><span class="p" data-group-id="5276124517-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5276124517-6">(</span><span class="p" data-group-id="5276124517-7">[</span><span class="p" data-group-id="5276124517-8">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="5276124517-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5276124517-9">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="5276124517-9">]</span><span class="p" data-group-id="5276124517-7">]</span><span class="p" data-group-id="5276124517-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="5276124517-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5276124517-10">)</span><span class="w">
+</span><span class="p" data-group-id="5276124517-11">#</span><span class="nc" data-group-id="5276124517-11">Nx.Tensor</span><span class="p" data-group-id="5276124517-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5276124517-12">[</span><span class="mi">2</span><span class="p" data-group-id="5276124517-12">]</span><span class="w">
+  </span><span class="p" data-group-id="5276124517-13">[</span><span class="mf">0.9700339436531067</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6437881588935852</span><span class="p" data-group-id="5276124517-13">]</span><span class="w">
+</span><span class="p" data-group-id="5276124517-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5276124517-14">(</span><span class="p" data-group-id="5276124517-15">[</span><span class="p" data-group-id="5276124517-16">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="5276124517-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5276124517-17">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="5276124517-17">]</span><span class="p" data-group-id="5276124517-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5276124517-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5276124517-18">}</span><span class="p" data-group-id="5276124517-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5276124517-19">(</span><span class="p" data-group-id="5276124517-20">[</span><span class="p" data-group-id="5276124517-21">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="5276124517-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5276124517-22">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="5276124517-22">]</span><span class="p" data-group-id="5276124517-20">]</span><span class="p" data-group-id="5276124517-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="5276124517-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5276124517-23">)</span><span class="w">
+</span><span class="p" data-group-id="5276124517-24">#</span><span class="nc" data-group-id="5276124517-24">Nx.Tensor</span><span class="p" data-group-id="5276124517-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.806911051273346</span><span class="w">
-</span><span class="p" data-group-id="3980733799-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5276124517-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3980733799-25">(</span><span class="p" data-group-id="3980733799-26">[</span><span class="p" data-group-id="3980733799-27">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3980733799-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3980733799-28">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3980733799-28">]</span><span class="p" data-group-id="3980733799-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3980733799-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3980733799-29">}</span><span class="p" data-group-id="3980733799-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3980733799-30">(</span><span class="p" data-group-id="3980733799-31">[</span><span class="p" data-group-id="3980733799-32">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="3980733799-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3980733799-33">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="3980733799-33">]</span><span class="p" data-group-id="3980733799-31">]</span><span class="p" data-group-id="3980733799-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="3980733799-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="3980733799-34">)</span><span class="w">
-</span><span class="p" data-group-id="3980733799-35">#</span><span class="nc" data-group-id="3980733799-35">Nx.Tensor</span><span class="p" data-group-id="3980733799-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5276124517-25">(</span><span class="p" data-group-id="5276124517-26">[</span><span class="p" data-group-id="5276124517-27">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="5276124517-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5276124517-28">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="5276124517-28">]</span><span class="p" data-group-id="5276124517-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5276124517-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5276124517-29">}</span><span class="p" data-group-id="5276124517-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5276124517-30">(</span><span class="p" data-group-id="5276124517-31">[</span><span class="p" data-group-id="5276124517-32">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="5276124517-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5276124517-33">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="5276124517-33">]</span><span class="p" data-group-id="5276124517-31">]</span><span class="p" data-group-id="5276124517-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="5276124517-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="5276124517-34">)</span><span class="w">
+</span><span class="p" data-group-id="5276124517-35">#</span><span class="nc" data-group-id="5276124517-35">Nx.Tensor</span><span class="p" data-group-id="5276124517-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.613822102546692</span><span class="w">
-</span><span class="p" data-group-id="3980733799-35">&gt;</span></code></pre>
+</span><span class="p" data-group-id="5276124517-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="huber/3">
@@ -800,25 +800,25 @@ <h1 class="signature" translate="no">huber(y_true, y_pred, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6553593482-1">(</span><span class="p" data-group-id="6553593482-2">[</span><span class="p" data-group-id="6553593482-3">[</span><span class="mi">1</span><span class="p" data-group-id="6553593482-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-4">[</span><span class="mf">1.5</span><span class="p" data-group-id="6553593482-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-5">[</span><span class="mf">2.0</span><span class="p" data-group-id="6553593482-5">]</span><span class="p" data-group-id="6553593482-2">]</span><span class="p" data-group-id="6553593482-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6553593482-6">(</span><span class="p" data-group-id="6553593482-7">[</span><span class="p" data-group-id="6553593482-8">[</span><span class="mf">0.8</span><span class="p" data-group-id="6553593482-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-9">[</span><span class="mf">1.8</span><span class="p" data-group-id="6553593482-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-10">[</span><span class="mf">2.1</span><span class="p" data-group-id="6553593482-10">]</span><span class="p" data-group-id="6553593482-7">]</span><span class="p" data-group-id="6553593482-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="6553593482-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6553593482-11">)</span><span class="w">
-</span><span class="p" data-group-id="6553593482-12">#</span><span class="nc" data-group-id="6553593482-12">Nx.Tensor</span><span class="p" data-group-id="6553593482-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6553593482-13">[</span><span class="mi">3</span><span class="p" data-group-id="6553593482-13">]</span><span class="p" data-group-id="6553593482-14">[</span><span class="mi">1</span><span class="p" data-group-id="6553593482-14">]</span><span class="w">
-  </span><span class="p" data-group-id="6553593482-15">[</span><span class="w">
-    </span><span class="p" data-group-id="6553593482-16">[</span><span class="mf">0.019999997690320015</span><span class="p" data-group-id="6553593482-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6553593482-17">[</span><span class="mf">0.04499998688697815</span><span class="p" data-group-id="6553593482-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6553593482-18">[</span><span class="mf">0.004999990575015545</span><span class="p" data-group-id="6553593482-18">]</span><span class="w">
-  </span><span class="p" data-group-id="6553593482-15">]</span><span class="w">
-</span><span class="p" data-group-id="6553593482-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6553593482-19">(</span><span class="p" data-group-id="6553593482-20">[</span><span class="p" data-group-id="6553593482-21">[</span><span class="mi">1</span><span class="p" data-group-id="6553593482-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-22">[</span><span class="mf">1.5</span><span class="p" data-group-id="6553593482-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-23">[</span><span class="mf">2.0</span><span class="p" data-group-id="6553593482-23">]</span><span class="p" data-group-id="6553593482-20">]</span><span class="p" data-group-id="6553593482-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6553593482-24">(</span><span class="p" data-group-id="6553593482-25">[</span><span class="p" data-group-id="6553593482-26">[</span><span class="mf">0.8</span><span class="p" data-group-id="6553593482-26">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-27">[</span><span class="mf">1.8</span><span class="p" data-group-id="6553593482-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6553593482-28">[</span><span class="mf">2.1</span><span class="p" data-group-id="6553593482-28">]</span><span class="p" data-group-id="6553593482-25">]</span><span class="p" data-group-id="6553593482-24">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="6553593482-29">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6553593482-29">)</span><span class="w">
-</span><span class="p" data-group-id="6553593482-30">#</span><span class="nc" data-group-id="6553593482-30">Nx.Tensor</span><span class="p" data-group-id="6553593482-30">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4631831228-1">(</span><span class="p" data-group-id="4631831228-2">[</span><span class="p" data-group-id="4631831228-3">[</span><span class="mi">1</span><span class="p" data-group-id="4631831228-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-4">[</span><span class="mf">1.5</span><span class="p" data-group-id="4631831228-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-5">[</span><span class="mf">2.0</span><span class="p" data-group-id="4631831228-5">]</span><span class="p" data-group-id="4631831228-2">]</span><span class="p" data-group-id="4631831228-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4631831228-6">(</span><span class="p" data-group-id="4631831228-7">[</span><span class="p" data-group-id="4631831228-8">[</span><span class="mf">0.8</span><span class="p" data-group-id="4631831228-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-9">[</span><span class="mf">1.8</span><span class="p" data-group-id="4631831228-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-10">[</span><span class="mf">2.1</span><span class="p" data-group-id="4631831228-10">]</span><span class="p" data-group-id="4631831228-7">]</span><span class="p" data-group-id="4631831228-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="4631831228-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4631831228-11">)</span><span class="w">
+</span><span class="p" data-group-id="4631831228-12">#</span><span class="nc" data-group-id="4631831228-12">Nx.Tensor</span><span class="p" data-group-id="4631831228-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4631831228-13">[</span><span class="mi">3</span><span class="p" data-group-id="4631831228-13">]</span><span class="p" data-group-id="4631831228-14">[</span><span class="mi">1</span><span class="p" data-group-id="4631831228-14">]</span><span class="w">
+  </span><span class="p" data-group-id="4631831228-15">[</span><span class="w">
+    </span><span class="p" data-group-id="4631831228-16">[</span><span class="mf">0.019999997690320015</span><span class="p" data-group-id="4631831228-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4631831228-17">[</span><span class="mf">0.04499998688697815</span><span class="p" data-group-id="4631831228-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4631831228-18">[</span><span class="mf">0.004999990575015545</span><span class="p" data-group-id="4631831228-18">]</span><span class="w">
+  </span><span class="p" data-group-id="4631831228-15">]</span><span class="w">
+</span><span class="p" data-group-id="4631831228-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4631831228-19">(</span><span class="p" data-group-id="4631831228-20">[</span><span class="p" data-group-id="4631831228-21">[</span><span class="mi">1</span><span class="p" data-group-id="4631831228-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-22">[</span><span class="mf">1.5</span><span class="p" data-group-id="4631831228-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-23">[</span><span class="mf">2.0</span><span class="p" data-group-id="4631831228-23">]</span><span class="p" data-group-id="4631831228-20">]</span><span class="p" data-group-id="4631831228-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4631831228-24">(</span><span class="p" data-group-id="4631831228-25">[</span><span class="p" data-group-id="4631831228-26">[</span><span class="mf">0.8</span><span class="p" data-group-id="4631831228-26">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-27">[</span><span class="mf">1.8</span><span class="p" data-group-id="4631831228-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4631831228-28">[</span><span class="mf">2.1</span><span class="p" data-group-id="4631831228-28">]</span><span class="p" data-group-id="4631831228-25">]</span><span class="p" data-group-id="4631831228-24">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="4631831228-29">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4631831228-29">)</span><span class="w">
+</span><span class="p" data-group-id="4631831228-30">#</span><span class="nc" data-group-id="4631831228-30">Nx.Tensor</span><span class="p" data-group-id="4631831228-30">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.02333332598209381</span><span class="w">
-</span><span class="p" data-group-id="6553593482-30">&gt;</span></code></pre>
+</span><span class="p" data-group-id="4631831228-30">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="kl_divergence/3">
@@ -861,29 +861,29 @@ <h1 class="signature" translate="no">kl_divergence(y_true, y_pred, opts \\ [])</
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4319973765-1">(</span><span class="p" data-group-id="4319973765-2">[</span><span class="p" data-group-id="4319973765-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4319973765-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4319973765-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4319973765-4">]</span><span class="p" data-group-id="4319973765-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4319973765-5">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4319973765-5">}</span><span class="p" data-group-id="4319973765-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4319973765-6">(</span><span class="p" data-group-id="4319973765-7">[</span><span class="p" data-group-id="4319973765-8">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="4319973765-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4319973765-9">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="4319973765-9">]</span><span class="p" data-group-id="4319973765-7">]</span><span class="p" data-group-id="4319973765-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="4319973765-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4319973765-10">)</span><span class="w">
-</span><span class="p" data-group-id="4319973765-11">#</span><span class="nc" data-group-id="4319973765-11">Nx.Tensor</span><span class="p" data-group-id="4319973765-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4319973765-12">[</span><span class="mi">2</span><span class="p" data-group-id="4319973765-12">]</span><span class="w">
-  </span><span class="p" data-group-id="4319973765-13">[</span><span class="mf">0.916289210319519</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.080907390540233e-6</span><span class="p" data-group-id="4319973765-13">]</span><span class="w">
-</span><span class="p" data-group-id="4319973765-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4319973765-14">(</span><span class="p" data-group-id="4319973765-15">[</span><span class="p" data-group-id="4319973765-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4319973765-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4319973765-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4319973765-17">]</span><span class="p" data-group-id="4319973765-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4319973765-18">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4319973765-18">}</span><span class="p" data-group-id="4319973765-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4319973765-19">(</span><span class="p" data-group-id="4319973765-20">[</span><span class="p" data-group-id="4319973765-21">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="4319973765-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4319973765-22">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="4319973765-22">]</span><span class="p" data-group-id="4319973765-20">]</span><span class="p" data-group-id="4319973765-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="4319973765-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4319973765-23">)</span><span class="w">
-</span><span class="p" data-group-id="4319973765-24">#</span><span class="nc" data-group-id="4319973765-24">Nx.Tensor</span><span class="p" data-group-id="4319973765-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5915920027-1">(</span><span class="p" data-group-id="5915920027-2">[</span><span class="p" data-group-id="5915920027-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5915920027-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5915920027-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5915920027-4">]</span><span class="p" data-group-id="5915920027-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5915920027-5">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5915920027-5">}</span><span class="p" data-group-id="5915920027-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5915920027-6">(</span><span class="p" data-group-id="5915920027-7">[</span><span class="p" data-group-id="5915920027-8">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="5915920027-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5915920027-9">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="5915920027-9">]</span><span class="p" data-group-id="5915920027-7">]</span><span class="p" data-group-id="5915920027-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="5915920027-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5915920027-10">)</span><span class="w">
+</span><span class="p" data-group-id="5915920027-11">#</span><span class="nc" data-group-id="5915920027-11">Nx.Tensor</span><span class="p" data-group-id="5915920027-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5915920027-12">[</span><span class="mi">2</span><span class="p" data-group-id="5915920027-12">]</span><span class="w">
+  </span><span class="p" data-group-id="5915920027-13">[</span><span class="mf">0.916289210319519</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.080907390540233e-6</span><span class="p" data-group-id="5915920027-13">]</span><span class="w">
+</span><span class="p" data-group-id="5915920027-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5915920027-14">(</span><span class="p" data-group-id="5915920027-15">[</span><span class="p" data-group-id="5915920027-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5915920027-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5915920027-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5915920027-17">]</span><span class="p" data-group-id="5915920027-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5915920027-18">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5915920027-18">}</span><span class="p" data-group-id="5915920027-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5915920027-19">(</span><span class="p" data-group-id="5915920027-20">[</span><span class="p" data-group-id="5915920027-21">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="5915920027-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5915920027-22">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="5915920027-22">]</span><span class="p" data-group-id="5915920027-20">]</span><span class="p" data-group-id="5915920027-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="5915920027-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5915920027-23">)</span><span class="w">
+</span><span class="p" data-group-id="5915920027-24">#</span><span class="nc" data-group-id="5915920027-24">Nx.Tensor</span><span class="p" data-group-id="5915920027-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.45814305543899536</span><span class="w">
-</span><span class="p" data-group-id="4319973765-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5915920027-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4319973765-25">(</span><span class="p" data-group-id="4319973765-26">[</span><span class="p" data-group-id="4319973765-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4319973765-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4319973765-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4319973765-28">]</span><span class="p" data-group-id="4319973765-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4319973765-29">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4319973765-29">}</span><span class="p" data-group-id="4319973765-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4319973765-30">(</span><span class="p" data-group-id="4319973765-31">[</span><span class="p" data-group-id="4319973765-32">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="4319973765-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4319973765-33">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="4319973765-33">]</span><span class="p" data-group-id="4319973765-31">]</span><span class="p" data-group-id="4319973765-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="4319973765-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="4319973765-34">)</span><span class="w">
-</span><span class="p" data-group-id="4319973765-35">#</span><span class="nc" data-group-id="4319973765-35">Nx.Tensor</span><span class="p" data-group-id="4319973765-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5915920027-25">(</span><span class="p" data-group-id="5915920027-26">[</span><span class="p" data-group-id="5915920027-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5915920027-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5915920027-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5915920027-28">]</span><span class="p" data-group-id="5915920027-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5915920027-29">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5915920027-29">}</span><span class="p" data-group-id="5915920027-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5915920027-30">(</span><span class="p" data-group-id="5915920027-31">[</span><span class="p" data-group-id="5915920027-32">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="5915920027-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5915920027-33">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="5915920027-33">]</span><span class="p" data-group-id="5915920027-31">]</span><span class="p" data-group-id="5915920027-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="5915920027-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="5915920027-34">)</span><span class="w">
+</span><span class="p" data-group-id="5915920027-35">#</span><span class="nc" data-group-id="5915920027-35">Nx.Tensor</span><span class="p" data-group-id="5915920027-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.9162861108779907</span><span class="w">
-</span><span class="p" data-group-id="4319973765-35">&gt;</span></code></pre>
+</span><span class="p" data-group-id="5915920027-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="label_smoothing/2">
@@ -957,29 +957,29 @@ <h1 class="signature" translate="no">log_cosh(y_true, y_pred, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1205731172-1">(</span><span class="p" data-group-id="1205731172-2">[</span><span class="p" data-group-id="1205731172-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1205731172-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1205731172-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1205731172-4">]</span><span class="p" data-group-id="1205731172-2">]</span><span class="p" data-group-id="1205731172-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1205731172-5">(</span><span class="p" data-group-id="1205731172-6">[</span><span class="p" data-group-id="1205731172-7">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1205731172-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1205731172-8">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1205731172-8">]</span><span class="p" data-group-id="1205731172-6">]</span><span class="p" data-group-id="1205731172-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="1205731172-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1205731172-9">)</span><span class="w">
-</span><span class="p" data-group-id="1205731172-10">#</span><span class="nc" data-group-id="1205731172-10">Nx.Tensor</span><span class="p" data-group-id="1205731172-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1205731172-11">[</span><span class="mi">2</span><span class="p" data-group-id="1205731172-11">]</span><span class="w">
-  </span><span class="p" data-group-id="1205731172-12">[</span><span class="mf">0.2168903946876526</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1205731172-12">]</span><span class="w">
-</span><span class="p" data-group-id="1205731172-10">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1205731172-13">(</span><span class="p" data-group-id="1205731172-14">[</span><span class="p" data-group-id="1205731172-15">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1205731172-15">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1205731172-16">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1205731172-16">]</span><span class="p" data-group-id="1205731172-14">]</span><span class="p" data-group-id="1205731172-13">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1205731172-17">(</span><span class="p" data-group-id="1205731172-18">[</span><span class="p" data-group-id="1205731172-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1205731172-19">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1205731172-20">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1205731172-20">]</span><span class="p" data-group-id="1205731172-18">]</span><span class="p" data-group-id="1205731172-17">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="1205731172-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="1205731172-21">)</span><span class="w">
-</span><span class="p" data-group-id="1205731172-22">#</span><span class="nc" data-group-id="1205731172-22">Nx.Tensor</span><span class="p" data-group-id="1205731172-22">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7313262355-1">(</span><span class="p" data-group-id="7313262355-2">[</span><span class="p" data-group-id="7313262355-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7313262355-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7313262355-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7313262355-4">]</span><span class="p" data-group-id="7313262355-2">]</span><span class="p" data-group-id="7313262355-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7313262355-5">(</span><span class="p" data-group-id="7313262355-6">[</span><span class="p" data-group-id="7313262355-7">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7313262355-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7313262355-8">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7313262355-8">]</span><span class="p" data-group-id="7313262355-6">]</span><span class="p" data-group-id="7313262355-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="7313262355-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7313262355-9">)</span><span class="w">
+</span><span class="p" data-group-id="7313262355-10">#</span><span class="nc" data-group-id="7313262355-10">Nx.Tensor</span><span class="p" data-group-id="7313262355-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7313262355-11">[</span><span class="mi">2</span><span class="p" data-group-id="7313262355-11">]</span><span class="w">
+  </span><span class="p" data-group-id="7313262355-12">[</span><span class="mf">0.2168903946876526</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7313262355-12">]</span><span class="w">
+</span><span class="p" data-group-id="7313262355-10">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7313262355-13">(</span><span class="p" data-group-id="7313262355-14">[</span><span class="p" data-group-id="7313262355-15">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7313262355-15">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7313262355-16">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7313262355-16">]</span><span class="p" data-group-id="7313262355-14">]</span><span class="p" data-group-id="7313262355-13">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7313262355-17">(</span><span class="p" data-group-id="7313262355-18">[</span><span class="p" data-group-id="7313262355-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7313262355-19">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7313262355-20">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7313262355-20">]</span><span class="p" data-group-id="7313262355-18">]</span><span class="p" data-group-id="7313262355-17">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="7313262355-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7313262355-21">)</span><span class="w">
+</span><span class="p" data-group-id="7313262355-22">#</span><span class="nc" data-group-id="7313262355-22">Nx.Tensor</span><span class="p" data-group-id="7313262355-22">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.1084451973438263</span><span class="w">
-</span><span class="p" data-group-id="1205731172-22">&gt;</span><span class="w">
+</span><span class="p" data-group-id="7313262355-22">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1205731172-23">(</span><span class="p" data-group-id="1205731172-24">[</span><span class="p" data-group-id="1205731172-25">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1205731172-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1205731172-26">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1205731172-26">]</span><span class="p" data-group-id="1205731172-24">]</span><span class="p" data-group-id="1205731172-23">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1205731172-27">(</span><span class="p" data-group-id="1205731172-28">[</span><span class="p" data-group-id="1205731172-29">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1205731172-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1205731172-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1205731172-30">]</span><span class="p" data-group-id="1205731172-28">]</span><span class="p" data-group-id="1205731172-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="1205731172-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="1205731172-31">)</span><span class="w">
-</span><span class="p" data-group-id="1205731172-32">#</span><span class="nc" data-group-id="1205731172-32">Nx.Tensor</span><span class="p" data-group-id="1205731172-32">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7313262355-23">(</span><span class="p" data-group-id="7313262355-24">[</span><span class="p" data-group-id="7313262355-25">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7313262355-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7313262355-26">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7313262355-26">]</span><span class="p" data-group-id="7313262355-24">]</span><span class="p" data-group-id="7313262355-23">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7313262355-27">(</span><span class="p" data-group-id="7313262355-28">[</span><span class="p" data-group-id="7313262355-29">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7313262355-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7313262355-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7313262355-30">]</span><span class="p" data-group-id="7313262355-28">]</span><span class="p" data-group-id="7313262355-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="7313262355-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7313262355-31">)</span><span class="w">
+</span><span class="p" data-group-id="7313262355-32">#</span><span class="nc" data-group-id="7313262355-32">Nx.Tensor</span><span class="p" data-group-id="7313262355-32">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.2168903946876526</span><span class="w">
-</span><span class="p" data-group-id="1205731172-32">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7313262355-32">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="margin_ranking/3">
@@ -1016,32 +1016,32 @@ <h1 class="signature" translate="no">margin_ranking(y_true, arg2, opts \\ [])</h
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-1">(</span><span class="p" data-group-id="2623000409-2">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2623000409-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-3">}</span><span class="p" data-group-id="2623000409-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-4">(</span><span class="p" data-group-id="2623000409-5">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="2623000409-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-6">}</span><span class="p" data-group-id="2623000409-4">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-7">(</span><span class="p" data-group-id="2623000409-8">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="2623000409-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-9">}</span><span class="p" data-group-id="2623000409-7">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="2623000409-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2623000409-11">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="2623000409-11">}</span><span class="p" data-group-id="2623000409-10">)</span><span class="w">
-</span><span class="p" data-group-id="2623000409-12">#</span><span class="nc" data-group-id="2623000409-12">Nx.Tensor</span><span class="p" data-group-id="2623000409-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2623000409-13">[</span><span class="mi">3</span><span class="p" data-group-id="2623000409-13">]</span><span class="w">
-  </span><span class="p" data-group-id="2623000409-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9909000396728516</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2623000409-14">]</span><span class="w">
-</span><span class="p" data-group-id="2623000409-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-15">(</span><span class="p" data-group-id="2623000409-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2623000409-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-17">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-17">}</span><span class="p" data-group-id="2623000409-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-18">(</span><span class="p" data-group-id="2623000409-19">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="2623000409-19">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-20">}</span><span class="p" data-group-id="2623000409-18">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-21">(</span><span class="p" data-group-id="2623000409-22">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="2623000409-22">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-23">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-23">}</span><span class="p" data-group-id="2623000409-21">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="2623000409-24">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2623000409-25">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="2623000409-25">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="2623000409-24">)</span><span class="w">
-</span><span class="p" data-group-id="2623000409-26">#</span><span class="nc" data-group-id="2623000409-26">Nx.Tensor</span><span class="p" data-group-id="2623000409-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-1">(</span><span class="p" data-group-id="5257433903-2">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5257433903-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-3">}</span><span class="p" data-group-id="5257433903-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-4">(</span><span class="p" data-group-id="5257433903-5">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="5257433903-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-6">}</span><span class="p" data-group-id="5257433903-4">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-7">(</span><span class="p" data-group-id="5257433903-8">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="5257433903-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-9">}</span><span class="p" data-group-id="5257433903-7">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="5257433903-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5257433903-11">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="5257433903-11">}</span><span class="p" data-group-id="5257433903-10">)</span><span class="w">
+</span><span class="p" data-group-id="5257433903-12">#</span><span class="nc" data-group-id="5257433903-12">Nx.Tensor</span><span class="p" data-group-id="5257433903-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5257433903-13">[</span><span class="mi">3</span><span class="p" data-group-id="5257433903-13">]</span><span class="w">
+  </span><span class="p" data-group-id="5257433903-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9909000396728516</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5257433903-14">]</span><span class="w">
+</span><span class="p" data-group-id="5257433903-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-15">(</span><span class="p" data-group-id="5257433903-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5257433903-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-17">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-17">}</span><span class="p" data-group-id="5257433903-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-18">(</span><span class="p" data-group-id="5257433903-19">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="5257433903-19">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-20">}</span><span class="p" data-group-id="5257433903-18">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-21">(</span><span class="p" data-group-id="5257433903-22">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="5257433903-22">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-23">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-23">}</span><span class="p" data-group-id="5257433903-21">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="5257433903-24">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5257433903-25">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="5257433903-25">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5257433903-24">)</span><span class="w">
+</span><span class="p" data-group-id="5257433903-26">#</span><span class="nc" data-group-id="5257433903-26">Nx.Tensor</span><span class="p" data-group-id="5257433903-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.3303000032901764</span><span class="w">
-</span><span class="p" data-group-id="2623000409-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5257433903-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-27">(</span><span class="p" data-group-id="2623000409-28">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2623000409-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-29">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-29">}</span><span class="p" data-group-id="2623000409-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-30">(</span><span class="p" data-group-id="2623000409-31">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="2623000409-31">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-32">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-32">}</span><span class="p" data-group-id="2623000409-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2623000409-33">(</span><span class="p" data-group-id="2623000409-34">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="2623000409-34">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2623000409-35">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2623000409-35">}</span><span class="p" data-group-id="2623000409-33">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="2623000409-36">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2623000409-37">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="2623000409-37">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="2623000409-36">)</span><span class="w">
-</span><span class="p" data-group-id="2623000409-38">#</span><span class="nc" data-group-id="2623000409-38">Nx.Tensor</span><span class="p" data-group-id="2623000409-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-27">(</span><span class="p" data-group-id="5257433903-28">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5257433903-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-29">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-29">}</span><span class="p" data-group-id="5257433903-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-30">(</span><span class="p" data-group-id="5257433903-31">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="5257433903-31">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-32">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-32">}</span><span class="p" data-group-id="5257433903-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5257433903-33">(</span><span class="p" data-group-id="5257433903-34">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="5257433903-34">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5257433903-35">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5257433903-35">}</span><span class="p" data-group-id="5257433903-33">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="5257433903-36">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5257433903-37">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="5257433903-37">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="5257433903-36">)</span><span class="w">
+</span><span class="p" data-group-id="5257433903-38">#</span><span class="nc" data-group-id="5257433903-38">Nx.Tensor</span><span class="p" data-group-id="5257433903-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.9909000396728516</span><span class="w">
-</span><span class="p" data-group-id="2623000409-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="5257433903-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mean_absolute_error/3">
@@ -1084,29 +1084,29 @@ <h1 class="signature" translate="no">mean_absolute_error(y_true, y_pred, opts \\
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0516478555-1">(</span><span class="p" data-group-id="0516478555-2">[</span><span class="p" data-group-id="0516478555-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0516478555-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0516478555-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0516478555-4">]</span><span class="p" data-group-id="0516478555-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0516478555-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0516478555-5">}</span><span class="p" data-group-id="0516478555-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0516478555-6">(</span><span class="p" data-group-id="0516478555-7">[</span><span class="p" data-group-id="0516478555-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0516478555-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0516478555-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0516478555-9">]</span><span class="p" data-group-id="0516478555-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0516478555-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0516478555-10">}</span><span class="p" data-group-id="0516478555-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="0516478555-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="0516478555-11">)</span><span class="w">
-</span><span class="p" data-group-id="0516478555-12">#</span><span class="nc" data-group-id="0516478555-12">Nx.Tensor</span><span class="p" data-group-id="0516478555-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0516478555-13">[</span><span class="mi">2</span><span class="p" data-group-id="0516478555-13">]</span><span class="w">
-  </span><span class="p" data-group-id="0516478555-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="0516478555-14">]</span><span class="w">
-</span><span class="p" data-group-id="0516478555-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0516478555-15">(</span><span class="p" data-group-id="0516478555-16">[</span><span class="p" data-group-id="0516478555-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0516478555-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0516478555-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0516478555-18">]</span><span class="p" data-group-id="0516478555-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0516478555-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0516478555-19">}</span><span class="p" data-group-id="0516478555-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0516478555-20">(</span><span class="p" data-group-id="0516478555-21">[</span><span class="p" data-group-id="0516478555-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0516478555-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0516478555-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0516478555-23">]</span><span class="p" data-group-id="0516478555-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0516478555-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0516478555-24">}</span><span class="p" data-group-id="0516478555-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="0516478555-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="0516478555-25">)</span><span class="w">
-</span><span class="p" data-group-id="0516478555-26">#</span><span class="nc" data-group-id="0516478555-26">Nx.Tensor</span><span class="p" data-group-id="0516478555-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7950150271-1">(</span><span class="p" data-group-id="7950150271-2">[</span><span class="p" data-group-id="7950150271-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7950150271-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7950150271-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7950150271-4">]</span><span class="p" data-group-id="7950150271-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7950150271-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7950150271-5">}</span><span class="p" data-group-id="7950150271-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7950150271-6">(</span><span class="p" data-group-id="7950150271-7">[</span><span class="p" data-group-id="7950150271-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7950150271-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7950150271-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7950150271-9">]</span><span class="p" data-group-id="7950150271-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7950150271-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7950150271-10">}</span><span class="p" data-group-id="7950150271-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="7950150271-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7950150271-11">)</span><span class="w">
+</span><span class="p" data-group-id="7950150271-12">#</span><span class="nc" data-group-id="7950150271-12">Nx.Tensor</span><span class="p" data-group-id="7950150271-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7950150271-13">[</span><span class="mi">2</span><span class="p" data-group-id="7950150271-13">]</span><span class="w">
+  </span><span class="p" data-group-id="7950150271-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="7950150271-14">]</span><span class="w">
+</span><span class="p" data-group-id="7950150271-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7950150271-15">(</span><span class="p" data-group-id="7950150271-16">[</span><span class="p" data-group-id="7950150271-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7950150271-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7950150271-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7950150271-18">]</span><span class="p" data-group-id="7950150271-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7950150271-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7950150271-19">}</span><span class="p" data-group-id="7950150271-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7950150271-20">(</span><span class="p" data-group-id="7950150271-21">[</span><span class="p" data-group-id="7950150271-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7950150271-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7950150271-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7950150271-23">]</span><span class="p" data-group-id="7950150271-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7950150271-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7950150271-24">}</span><span class="p" data-group-id="7950150271-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="7950150271-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7950150271-25">)</span><span class="w">
+</span><span class="p" data-group-id="7950150271-26">#</span><span class="nc" data-group-id="7950150271-26">Nx.Tensor</span><span class="p" data-group-id="7950150271-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="0516478555-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="7950150271-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0516478555-27">(</span><span class="p" data-group-id="0516478555-28">[</span><span class="p" data-group-id="0516478555-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0516478555-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0516478555-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0516478555-30">]</span><span class="p" data-group-id="0516478555-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0516478555-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0516478555-31">}</span><span class="p" data-group-id="0516478555-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0516478555-32">(</span><span class="p" data-group-id="0516478555-33">[</span><span class="p" data-group-id="0516478555-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0516478555-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0516478555-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0516478555-35">]</span><span class="p" data-group-id="0516478555-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0516478555-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0516478555-36">}</span><span class="p" data-group-id="0516478555-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="0516478555-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="0516478555-37">)</span><span class="w">
-</span><span class="p" data-group-id="0516478555-38">#</span><span class="nc" data-group-id="0516478555-38">Nx.Tensor</span><span class="p" data-group-id="0516478555-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7950150271-27">(</span><span class="p" data-group-id="7950150271-28">[</span><span class="p" data-group-id="7950150271-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7950150271-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7950150271-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7950150271-30">]</span><span class="p" data-group-id="7950150271-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7950150271-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7950150271-31">}</span><span class="p" data-group-id="7950150271-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7950150271-32">(</span><span class="p" data-group-id="7950150271-33">[</span><span class="p" data-group-id="7950150271-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7950150271-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7950150271-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7950150271-35">]</span><span class="p" data-group-id="7950150271-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7950150271-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7950150271-36">}</span><span class="p" data-group-id="7950150271-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="7950150271-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7950150271-37">)</span><span class="w">
+</span><span class="p" data-group-id="7950150271-38">#</span><span class="nc" data-group-id="7950150271-38">Nx.Tensor</span><span class="p" data-group-id="7950150271-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.0</span><span class="w">
-</span><span class="p" data-group-id="0516478555-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7950150271-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mean_squared_error/3">
@@ -1149,29 +1149,29 @@ <h1 class="signature" translate="no">mean_squared_error(y_true, y_pred, opts \\
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2811015900-1">(</span><span class="p" data-group-id="2811015900-2">[</span><span class="p" data-group-id="2811015900-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2811015900-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2811015900-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2811015900-4">]</span><span class="p" data-group-id="2811015900-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2811015900-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2811015900-5">}</span><span class="p" data-group-id="2811015900-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2811015900-6">(</span><span class="p" data-group-id="2811015900-7">[</span><span class="p" data-group-id="2811015900-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2811015900-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2811015900-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2811015900-9">]</span><span class="p" data-group-id="2811015900-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2811015900-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2811015900-10">}</span><span class="p" data-group-id="2811015900-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="2811015900-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2811015900-11">)</span><span class="w">
-</span><span class="p" data-group-id="2811015900-12">#</span><span class="nc" data-group-id="2811015900-12">Nx.Tensor</span><span class="p" data-group-id="2811015900-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2811015900-13">[</span><span class="mi">2</span><span class="p" data-group-id="2811015900-13">]</span><span class="w">
-  </span><span class="p" data-group-id="2811015900-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="2811015900-14">]</span><span class="w">
-</span><span class="p" data-group-id="2811015900-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2811015900-15">(</span><span class="p" data-group-id="2811015900-16">[</span><span class="p" data-group-id="2811015900-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2811015900-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2811015900-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2811015900-18">]</span><span class="p" data-group-id="2811015900-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2811015900-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2811015900-19">}</span><span class="p" data-group-id="2811015900-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2811015900-20">(</span><span class="p" data-group-id="2811015900-21">[</span><span class="p" data-group-id="2811015900-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2811015900-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2811015900-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2811015900-23">]</span><span class="p" data-group-id="2811015900-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2811015900-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2811015900-24">}</span><span class="p" data-group-id="2811015900-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="2811015900-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="2811015900-25">)</span><span class="w">
-</span><span class="p" data-group-id="2811015900-26">#</span><span class="nc" data-group-id="2811015900-26">Nx.Tensor</span><span class="p" data-group-id="2811015900-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0617886904-1">(</span><span class="p" data-group-id="0617886904-2">[</span><span class="p" data-group-id="0617886904-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0617886904-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0617886904-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0617886904-4">]</span><span class="p" data-group-id="0617886904-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0617886904-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0617886904-5">}</span><span class="p" data-group-id="0617886904-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0617886904-6">(</span><span class="p" data-group-id="0617886904-7">[</span><span class="p" data-group-id="0617886904-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0617886904-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0617886904-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0617886904-9">]</span><span class="p" data-group-id="0617886904-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0617886904-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0617886904-10">}</span><span class="p" data-group-id="0617886904-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="0617886904-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="0617886904-11">)</span><span class="w">
+</span><span class="p" data-group-id="0617886904-12">#</span><span class="nc" data-group-id="0617886904-12">Nx.Tensor</span><span class="p" data-group-id="0617886904-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0617886904-13">[</span><span class="mi">2</span><span class="p" data-group-id="0617886904-13">]</span><span class="w">
+  </span><span class="p" data-group-id="0617886904-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="0617886904-14">]</span><span class="w">
+</span><span class="p" data-group-id="0617886904-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0617886904-15">(</span><span class="p" data-group-id="0617886904-16">[</span><span class="p" data-group-id="0617886904-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0617886904-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0617886904-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0617886904-18">]</span><span class="p" data-group-id="0617886904-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0617886904-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0617886904-19">}</span><span class="p" data-group-id="0617886904-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0617886904-20">(</span><span class="p" data-group-id="0617886904-21">[</span><span class="p" data-group-id="0617886904-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0617886904-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0617886904-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0617886904-23">]</span><span class="p" data-group-id="0617886904-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0617886904-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0617886904-24">}</span><span class="p" data-group-id="0617886904-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="0617886904-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="0617886904-25">)</span><span class="w">
+</span><span class="p" data-group-id="0617886904-26">#</span><span class="nc" data-group-id="0617886904-26">Nx.Tensor</span><span class="p" data-group-id="0617886904-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="2811015900-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="0617886904-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2811015900-27">(</span><span class="p" data-group-id="2811015900-28">[</span><span class="p" data-group-id="2811015900-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2811015900-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2811015900-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2811015900-30">]</span><span class="p" data-group-id="2811015900-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2811015900-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2811015900-31">}</span><span class="p" data-group-id="2811015900-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2811015900-32">(</span><span class="p" data-group-id="2811015900-33">[</span><span class="p" data-group-id="2811015900-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2811015900-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2811015900-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2811015900-35">]</span><span class="p" data-group-id="2811015900-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2811015900-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2811015900-36">}</span><span class="p" data-group-id="2811015900-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="2811015900-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="2811015900-37">)</span><span class="w">
-</span><span class="p" data-group-id="2811015900-38">#</span><span class="nc" data-group-id="2811015900-38">Nx.Tensor</span><span class="p" data-group-id="2811015900-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0617886904-27">(</span><span class="p" data-group-id="0617886904-28">[</span><span class="p" data-group-id="0617886904-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0617886904-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0617886904-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0617886904-30">]</span><span class="p" data-group-id="0617886904-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0617886904-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0617886904-31">}</span><span class="p" data-group-id="0617886904-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0617886904-32">(</span><span class="p" data-group-id="0617886904-33">[</span><span class="p" data-group-id="0617886904-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0617886904-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0617886904-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0617886904-35">]</span><span class="p" data-group-id="0617886904-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0617886904-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0617886904-36">}</span><span class="p" data-group-id="0617886904-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="0617886904-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="0617886904-37">)</span><span class="w">
+</span><span class="p" data-group-id="0617886904-38">#</span><span class="nc" data-group-id="0617886904-38">Nx.Tensor</span><span class="p" data-group-id="0617886904-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.0</span><span class="w">
-</span><span class="p" data-group-id="2811015900-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="0617886904-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="poisson/3">
@@ -1214,29 +1214,29 @@ <h1 class="signature" translate="no">poisson(y_true, y_pred, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023494452-1">(</span><span class="p" data-group-id="2023494452-2">[</span><span class="p" data-group-id="2023494452-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2023494452-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2023494452-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2023494452-4">]</span><span class="p" data-group-id="2023494452-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023494452-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2023494452-5">}</span><span class="p" data-group-id="2023494452-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023494452-6">(</span><span class="p" data-group-id="2023494452-7">[</span><span class="p" data-group-id="2023494452-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2023494452-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2023494452-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2023494452-9">]</span><span class="p" data-group-id="2023494452-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023494452-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2023494452-10">}</span><span class="p" data-group-id="2023494452-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="2023494452-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2023494452-11">)</span><span class="w">
-</span><span class="p" data-group-id="2023494452-12">#</span><span class="nc" data-group-id="2023494452-12">Nx.Tensor</span><span class="p" data-group-id="2023494452-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2023494452-13">[</span><span class="mi">2</span><span class="p" data-group-id="2023494452-13">]</span><span class="w">
-  </span><span class="p" data-group-id="2023494452-14">[</span><span class="mf">0.9999999403953552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2023494452-14">]</span><span class="w">
-</span><span class="p" data-group-id="2023494452-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023494452-15">(</span><span class="p" data-group-id="2023494452-16">[</span><span class="p" data-group-id="2023494452-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2023494452-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2023494452-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2023494452-18">]</span><span class="p" data-group-id="2023494452-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023494452-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2023494452-19">}</span><span class="p" data-group-id="2023494452-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023494452-20">(</span><span class="p" data-group-id="2023494452-21">[</span><span class="p" data-group-id="2023494452-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2023494452-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2023494452-23">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2023494452-23">]</span><span class="p" data-group-id="2023494452-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023494452-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2023494452-24">}</span><span class="p" data-group-id="2023494452-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="2023494452-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="2023494452-25">)</span><span class="w">
-</span><span class="p" data-group-id="2023494452-26">#</span><span class="nc" data-group-id="2023494452-26">Nx.Tensor</span><span class="p" data-group-id="2023494452-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5216348807-1">(</span><span class="p" data-group-id="5216348807-2">[</span><span class="p" data-group-id="5216348807-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5216348807-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5216348807-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5216348807-4">]</span><span class="p" data-group-id="5216348807-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5216348807-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5216348807-5">}</span><span class="p" data-group-id="5216348807-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5216348807-6">(</span><span class="p" data-group-id="5216348807-7">[</span><span class="p" data-group-id="5216348807-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5216348807-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5216348807-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5216348807-9">]</span><span class="p" data-group-id="5216348807-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5216348807-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5216348807-10">}</span><span class="p" data-group-id="5216348807-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="5216348807-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5216348807-11">)</span><span class="w">
+</span><span class="p" data-group-id="5216348807-12">#</span><span class="nc" data-group-id="5216348807-12">Nx.Tensor</span><span class="p" data-group-id="5216348807-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5216348807-13">[</span><span class="mi">2</span><span class="p" data-group-id="5216348807-13">]</span><span class="w">
+  </span><span class="p" data-group-id="5216348807-14">[</span><span class="mf">0.9999999403953552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5216348807-14">]</span><span class="w">
+</span><span class="p" data-group-id="5216348807-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5216348807-15">(</span><span class="p" data-group-id="5216348807-16">[</span><span class="p" data-group-id="5216348807-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5216348807-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5216348807-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5216348807-18">]</span><span class="p" data-group-id="5216348807-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5216348807-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5216348807-19">}</span><span class="p" data-group-id="5216348807-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5216348807-20">(</span><span class="p" data-group-id="5216348807-21">[</span><span class="p" data-group-id="5216348807-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5216348807-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5216348807-23">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5216348807-23">]</span><span class="p" data-group-id="5216348807-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5216348807-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5216348807-24">}</span><span class="p" data-group-id="5216348807-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="5216348807-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5216348807-25">)</span><span class="w">
+</span><span class="p" data-group-id="5216348807-26">#</span><span class="nc" data-group-id="5216348807-26">Nx.Tensor</span><span class="p" data-group-id="5216348807-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.4999999701976776</span><span class="w">
-</span><span class="p" data-group-id="2023494452-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5216348807-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023494452-27">(</span><span class="p" data-group-id="2023494452-28">[</span><span class="p" data-group-id="2023494452-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2023494452-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2023494452-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2023494452-30">]</span><span class="p" data-group-id="2023494452-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023494452-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2023494452-31">}</span><span class="p" data-group-id="2023494452-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023494452-32">(</span><span class="p" data-group-id="2023494452-33">[</span><span class="p" data-group-id="2023494452-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2023494452-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2023494452-35">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2023494452-35">]</span><span class="p" data-group-id="2023494452-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023494452-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2023494452-36">}</span><span class="p" data-group-id="2023494452-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="2023494452-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="2023494452-37">)</span><span class="w">
-</span><span class="p" data-group-id="2023494452-38">#</span><span class="nc" data-group-id="2023494452-38">Nx.Tensor</span><span class="p" data-group-id="2023494452-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5216348807-27">(</span><span class="p" data-group-id="5216348807-28">[</span><span class="p" data-group-id="5216348807-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5216348807-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5216348807-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5216348807-30">]</span><span class="p" data-group-id="5216348807-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5216348807-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5216348807-31">}</span><span class="p" data-group-id="5216348807-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5216348807-32">(</span><span class="p" data-group-id="5216348807-33">[</span><span class="p" data-group-id="5216348807-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5216348807-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5216348807-35">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5216348807-35">]</span><span class="p" data-group-id="5216348807-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5216348807-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5216348807-36">}</span><span class="p" data-group-id="5216348807-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="5216348807-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="5216348807-37">)</span><span class="w">
+</span><span class="p" data-group-id="5216348807-38">#</span><span class="nc" data-group-id="5216348807-38">Nx.Tensor</span><span class="p" data-group-id="5216348807-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.9999999403953552</span><span class="w">
-</span><span class="p" data-group-id="2023494452-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="5216348807-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="soft_margin/3">
@@ -1273,29 +1273,29 @@ <h1 class="signature" translate="no">soft_margin(y_true, y_pred, opts \\ [])</h1
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6104512668-1">(</span><span class="p" data-group-id="6104512668-2">[</span><span class="p" data-group-id="6104512668-3">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="6104512668-3">]</span><span class="p" data-group-id="6104512668-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6104512668-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6104512668-4">}</span><span class="p" data-group-id="6104512668-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6104512668-5">(</span><span class="p" data-group-id="6104512668-6">[</span><span class="p" data-group-id="6104512668-7">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="6104512668-7">]</span><span class="p" data-group-id="6104512668-6">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6104512668-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6104512668-8">}</span><span class="p" data-group-id="6104512668-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="6104512668-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6104512668-9">)</span><span class="w">
-</span><span class="p" data-group-id="6104512668-10">#</span><span class="nc" data-group-id="6104512668-10">Nx.Tensor</span><span class="p" data-group-id="6104512668-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6104512668-11">[</span><span class="mi">3</span><span class="p" data-group-id="6104512668-11">]</span><span class="w">
-  </span><span class="p" data-group-id="6104512668-12">[</span><span class="mf">0.851658046245575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7822436094284058</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3273470401763916</span><span class="p" data-group-id="6104512668-12">]</span><span class="w">
-</span><span class="p" data-group-id="6104512668-10">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6104512668-13">(</span><span class="p" data-group-id="6104512668-14">[</span><span class="p" data-group-id="6104512668-15">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="6104512668-15">]</span><span class="p" data-group-id="6104512668-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6104512668-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6104512668-16">}</span><span class="p" data-group-id="6104512668-13">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6104512668-17">(</span><span class="p" data-group-id="6104512668-18">[</span><span class="p" data-group-id="6104512668-19">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="6104512668-19">]</span><span class="p" data-group-id="6104512668-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6104512668-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6104512668-20">}</span><span class="p" data-group-id="6104512668-17">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="6104512668-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6104512668-21">)</span><span class="w">
-</span><span class="p" data-group-id="6104512668-22">#</span><span class="nc" data-group-id="6104512668-22">Nx.Tensor</span><span class="p" data-group-id="6104512668-22">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7501105462-1">(</span><span class="p" data-group-id="7501105462-2">[</span><span class="p" data-group-id="7501105462-3">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="7501105462-3">]</span><span class="p" data-group-id="7501105462-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7501105462-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7501105462-4">}</span><span class="p" data-group-id="7501105462-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7501105462-5">(</span><span class="p" data-group-id="7501105462-6">[</span><span class="p" data-group-id="7501105462-7">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="7501105462-7">]</span><span class="p" data-group-id="7501105462-6">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7501105462-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7501105462-8">}</span><span class="p" data-group-id="7501105462-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="7501105462-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7501105462-9">)</span><span class="w">
+</span><span class="p" data-group-id="7501105462-10">#</span><span class="nc" data-group-id="7501105462-10">Nx.Tensor</span><span class="p" data-group-id="7501105462-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7501105462-11">[</span><span class="mi">3</span><span class="p" data-group-id="7501105462-11">]</span><span class="w">
+  </span><span class="p" data-group-id="7501105462-12">[</span><span class="mf">0.851658046245575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7822436094284058</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3273470401763916</span><span class="p" data-group-id="7501105462-12">]</span><span class="w">
+</span><span class="p" data-group-id="7501105462-10">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7501105462-13">(</span><span class="p" data-group-id="7501105462-14">[</span><span class="p" data-group-id="7501105462-15">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="7501105462-15">]</span><span class="p" data-group-id="7501105462-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7501105462-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7501105462-16">}</span><span class="p" data-group-id="7501105462-13">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7501105462-17">(</span><span class="p" data-group-id="7501105462-18">[</span><span class="p" data-group-id="7501105462-19">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="7501105462-19">]</span><span class="p" data-group-id="7501105462-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7501105462-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7501105462-20">}</span><span class="p" data-group-id="7501105462-17">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="7501105462-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7501105462-21">)</span><span class="w">
+</span><span class="p" data-group-id="7501105462-22">#</span><span class="nc" data-group-id="7501105462-22">Nx.Tensor</span><span class="p" data-group-id="7501105462-22">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6537495255470276</span><span class="w">
-</span><span class="p" data-group-id="6104512668-22">&gt;</span><span class="w">
+</span><span class="p" data-group-id="7501105462-22">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6104512668-23">(</span><span class="p" data-group-id="6104512668-24">[</span><span class="p" data-group-id="6104512668-25">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="6104512668-25">]</span><span class="p" data-group-id="6104512668-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6104512668-26">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6104512668-26">}</span><span class="p" data-group-id="6104512668-23">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6104512668-27">(</span><span class="p" data-group-id="6104512668-28">[</span><span class="p" data-group-id="6104512668-29">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="6104512668-29">]</span><span class="p" data-group-id="6104512668-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6104512668-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6104512668-30">}</span><span class="p" data-group-id="6104512668-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="6104512668-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="6104512668-31">)</span><span class="w">
-</span><span class="p" data-group-id="6104512668-32">#</span><span class="nc" data-group-id="6104512668-32">Nx.Tensor</span><span class="p" data-group-id="6104512668-32">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7501105462-23">(</span><span class="p" data-group-id="7501105462-24">[</span><span class="p" data-group-id="7501105462-25">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="7501105462-25">]</span><span class="p" data-group-id="7501105462-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7501105462-26">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7501105462-26">}</span><span class="p" data-group-id="7501105462-23">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7501105462-27">(</span><span class="p" data-group-id="7501105462-28">[</span><span class="p" data-group-id="7501105462-29">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="7501105462-29">]</span><span class="p" data-group-id="7501105462-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7501105462-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7501105462-30">}</span><span class="p" data-group-id="7501105462-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="7501105462-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7501105462-31">)</span><span class="w">
+</span><span class="p" data-group-id="7501105462-32">#</span><span class="nc" data-group-id="7501105462-32">Nx.Tensor</span><span class="p" data-group-id="7501105462-32">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.9612486362457275</span><span class="w">
-</span><span class="p" data-group-id="6104512668-32">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7501105462-32">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Metrics.html b/Axon.Metrics.html
index 082a16c8..3982f76c 100644
--- a/Axon.Metrics.html
+++ b/Axon.Metrics.html
@@ -341,23 +341,23 @@ <h1 class="signature" translate="no">accuracy(y_true, y_pred, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="3395593976-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3395593976-2">(</span><span class="p" data-group-id="3395593976-3">[</span><span class="p" data-group-id="3395593976-4">[</span><span class="mi">1</span><span class="p" data-group-id="3395593976-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-5">[</span><span class="mi">0</span><span class="p" data-group-id="3395593976-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-6">[</span><span class="mi">0</span><span class="p" data-group-id="3395593976-6">]</span><span class="p" data-group-id="3395593976-3">]</span><span class="p" data-group-id="3395593976-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3395593976-7">(</span><span class="p" data-group-id="3395593976-8">[</span><span class="p" data-group-id="3395593976-9">[</span><span class="mi">1</span><span class="p" data-group-id="3395593976-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-10">[</span><span class="mi">1</span><span class="p" data-group-id="3395593976-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-11">[</span><span class="mi">1</span><span class="p" data-group-id="3395593976-11">]</span><span class="p" data-group-id="3395593976-8">]</span><span class="p" data-group-id="3395593976-7">)</span><span class="p" data-group-id="3395593976-1">)</span><span class="w">
-</span><span class="p" data-group-id="3395593976-12">#</span><span class="nc" data-group-id="3395593976-12">Nx.Tensor</span><span class="p" data-group-id="3395593976-12">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="5523657875-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5523657875-2">(</span><span class="p" data-group-id="5523657875-3">[</span><span class="p" data-group-id="5523657875-4">[</span><span class="mi">1</span><span class="p" data-group-id="5523657875-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-5">[</span><span class="mi">0</span><span class="p" data-group-id="5523657875-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-6">[</span><span class="mi">0</span><span class="p" data-group-id="5523657875-6">]</span><span class="p" data-group-id="5523657875-3">]</span><span class="p" data-group-id="5523657875-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5523657875-7">(</span><span class="p" data-group-id="5523657875-8">[</span><span class="p" data-group-id="5523657875-9">[</span><span class="mi">1</span><span class="p" data-group-id="5523657875-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-10">[</span><span class="mi">1</span><span class="p" data-group-id="5523657875-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-11">[</span><span class="mi">1</span><span class="p" data-group-id="5523657875-11">]</span><span class="p" data-group-id="5523657875-8">]</span><span class="p" data-group-id="5523657875-7">)</span><span class="p" data-group-id="5523657875-1">)</span><span class="w">
+</span><span class="p" data-group-id="5523657875-12">#</span><span class="nc" data-group-id="5523657875-12">Nx.Tensor</span><span class="p" data-group-id="5523657875-12">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.3333333432674408</span><span class="w">
-</span><span class="p" data-group-id="3395593976-12">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5523657875-12">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="3395593976-13">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3395593976-14">(</span><span class="p" data-group-id="3395593976-15">[</span><span class="p" data-group-id="3395593976-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3395593976-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-17">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3395593976-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3395593976-18">]</span><span class="p" data-group-id="3395593976-15">]</span><span class="p" data-group-id="3395593976-14">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3395593976-19">(</span><span class="p" data-group-id="3395593976-20">[</span><span class="p" data-group-id="3395593976-21">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3395593976-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-22">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3395593976-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-23">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3395593976-23">]</span><span class="p" data-group-id="3395593976-20">]</span><span class="p" data-group-id="3395593976-19">)</span><span class="p" data-group-id="3395593976-13">)</span><span class="w">
-</span><span class="p" data-group-id="3395593976-24">#</span><span class="nc" data-group-id="3395593976-24">Nx.Tensor</span><span class="p" data-group-id="3395593976-24">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="5523657875-13">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5523657875-14">(</span><span class="p" data-group-id="5523657875-15">[</span><span class="p" data-group-id="5523657875-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5523657875-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-17">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5523657875-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5523657875-18">]</span><span class="p" data-group-id="5523657875-15">]</span><span class="p" data-group-id="5523657875-14">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5523657875-19">(</span><span class="p" data-group-id="5523657875-20">[</span><span class="p" data-group-id="5523657875-21">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5523657875-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-22">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5523657875-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-23">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5523657875-23">]</span><span class="p" data-group-id="5523657875-20">]</span><span class="p" data-group-id="5523657875-19">)</span><span class="p" data-group-id="5523657875-13">)</span><span class="w">
+</span><span class="p" data-group-id="5523657875-24">#</span><span class="nc" data-group-id="5523657875-24">Nx.Tensor</span><span class="p" data-group-id="5523657875-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="3395593976-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5523657875-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="3395593976-25">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3395593976-26">(</span><span class="p" data-group-id="3395593976-27">[</span><span class="p" data-group-id="3395593976-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3395593976-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-29">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3395593976-29">]</span><span class="p" data-group-id="3395593976-27">]</span><span class="p" data-group-id="3395593976-26">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3395593976-30">(</span><span class="p" data-group-id="3395593976-31">[</span><span class="p" data-group-id="3395593976-32">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3395593976-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3395593976-33">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3395593976-33">]</span><span class="p" data-group-id="3395593976-31">]</span><span class="p" data-group-id="3395593976-30">)</span><span class="p" data-group-id="3395593976-25">)</span><span class="w">
-</span><span class="p" data-group-id="3395593976-34">#</span><span class="nc" data-group-id="3395593976-34">Nx.Tensor</span><span class="p" data-group-id="3395593976-34">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="5523657875-25">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5523657875-26">(</span><span class="p" data-group-id="5523657875-27">[</span><span class="p" data-group-id="5523657875-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5523657875-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-29">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5523657875-29">]</span><span class="p" data-group-id="5523657875-27">]</span><span class="p" data-group-id="5523657875-26">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5523657875-30">(</span><span class="p" data-group-id="5523657875-31">[</span><span class="p" data-group-id="5523657875-32">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5523657875-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5523657875-33">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5523657875-33">]</span><span class="p" data-group-id="5523657875-31">]</span><span class="p" data-group-id="5523657875-30">)</span><span class="p" data-group-id="5523657875-25">)</span><span class="w">
+</span><span class="p" data-group-id="5523657875-34">#</span><span class="nc" data-group-id="5523657875-34">Nx.Tensor</span><span class="p" data-group-id="5523657875-34">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="3395593976-34">&gt;</span></code></pre>
+</span><span class="p" data-group-id="5523657875-34">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="accuracy_transform/4">
@@ -417,13 +417,13 @@ <h1 class="signature" translate="no">false_negatives(y_true, y_pred, opts \\ [])
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1777935357-1">(</span><span class="p" data-group-id="1777935357-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1777935357-2">]</span><span class="p" data-group-id="1777935357-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1777935357-3">(</span><span class="p" data-group-id="1777935357-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="1777935357-4">]</span><span class="p" data-group-id="1777935357-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_negatives</span><span class="p" data-group-id="1777935357-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1777935357-5">)</span><span class="w">
-</span><span class="p" data-group-id="1777935357-6">#</span><span class="nc" data-group-id="1777935357-6">Nx.Tensor</span><span class="p" data-group-id="1777935357-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1976111036-1">(</span><span class="p" data-group-id="1976111036-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1976111036-2">]</span><span class="p" data-group-id="1976111036-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1976111036-3">(</span><span class="p" data-group-id="1976111036-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="1976111036-4">]</span><span class="p" data-group-id="1976111036-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_negatives</span><span class="p" data-group-id="1976111036-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1976111036-5">)</span><span class="w">
+</span><span class="p" data-group-id="1976111036-6">#</span><span class="nc" data-group-id="1976111036-6">Nx.Tensor</span><span class="p" data-group-id="1976111036-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">3</span><span class="w">
-</span><span class="p" data-group-id="1777935357-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1976111036-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="false_positives/3">
@@ -461,13 +461,13 @@ <h1 class="signature" translate="no">false_positives(y_true, y_pred, opts \\ [])
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4610811333-1">(</span><span class="p" data-group-id="4610811333-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4610811333-2">]</span><span class="p" data-group-id="4610811333-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4610811333-3">(</span><span class="p" data-group-id="4610811333-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="4610811333-4">]</span><span class="p" data-group-id="4610811333-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="p" data-group-id="4610811333-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4610811333-5">)</span><span class="w">
-</span><span class="p" data-group-id="4610811333-6">#</span><span class="nc" data-group-id="4610811333-6">Nx.Tensor</span><span class="p" data-group-id="4610811333-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3422017657-1">(</span><span class="p" data-group-id="3422017657-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3422017657-2">]</span><span class="p" data-group-id="3422017657-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3422017657-3">(</span><span class="p" data-group-id="3422017657-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="3422017657-4">]</span><span class="p" data-group-id="3422017657-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="p" data-group-id="3422017657-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3422017657-5">)</span><span class="w">
+</span><span class="p" data-group-id="3422017657-6">#</span><span class="nc" data-group-id="3422017657-6">Nx.Tensor</span><span class="p" data-group-id="3422017657-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="4610811333-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3422017657-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mean_absolute_error/2">
@@ -502,13 +502,13 @@ <h1 class="signature" translate="no">mean_absolute_error(y_true, y_pred)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9281389469-1">(</span><span class="p" data-group-id="9281389469-2">[</span><span class="p" data-group-id="9281389469-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9281389469-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9281389469-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9281389469-4">]</span><span class="p" data-group-id="9281389469-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9281389469-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9281389469-5">}</span><span class="p" data-group-id="9281389469-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9281389469-6">(</span><span class="p" data-group-id="9281389469-7">[</span><span class="p" data-group-id="9281389469-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9281389469-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9281389469-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9281389469-9">]</span><span class="p" data-group-id="9281389469-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9281389469-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9281389469-10">}</span><span class="p" data-group-id="9281389469-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="9281389469-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9281389469-11">)</span><span class="w">
-</span><span class="p" data-group-id="9281389469-12">#</span><span class="nc" data-group-id="9281389469-12">Nx.Tensor</span><span class="p" data-group-id="9281389469-12">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1526057959-1">(</span><span class="p" data-group-id="1526057959-2">[</span><span class="p" data-group-id="1526057959-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1526057959-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1526057959-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1526057959-4">]</span><span class="p" data-group-id="1526057959-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1526057959-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1526057959-5">}</span><span class="p" data-group-id="1526057959-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1526057959-6">(</span><span class="p" data-group-id="1526057959-7">[</span><span class="p" data-group-id="1526057959-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1526057959-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1526057959-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1526057959-9">]</span><span class="p" data-group-id="1526057959-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1526057959-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1526057959-10">}</span><span class="p" data-group-id="1526057959-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="1526057959-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1526057959-11">)</span><span class="w">
+</span><span class="p" data-group-id="1526057959-12">#</span><span class="nc" data-group-id="1526057959-12">Nx.Tensor</span><span class="p" data-group-id="1526057959-12">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="9281389469-12">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1526057959-12">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="precision/3">
@@ -552,11 +552,11 @@ <h1 class="signature" translate="no">precision(y_true, y_pred, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">precision</span><span class="p" data-group-id="0228377900-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0228377900-2">(</span><span class="p" data-group-id="0228377900-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0228377900-3">]</span><span class="p" data-group-id="0228377900-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0228377900-4">(</span><span class="p" data-group-id="0228377900-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0228377900-5">]</span><span class="p" data-group-id="0228377900-4">)</span><span class="p" data-group-id="0228377900-1">)</span><span class="w">
-</span><span class="p" data-group-id="0228377900-6">#</span><span class="nc" data-group-id="0228377900-6">Nx.Tensor</span><span class="p" data-group-id="0228377900-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">precision</span><span class="p" data-group-id="3860759131-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3860759131-2">(</span><span class="p" data-group-id="3860759131-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3860759131-3">]</span><span class="p" data-group-id="3860759131-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3860759131-4">(</span><span class="p" data-group-id="3860759131-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3860759131-5">]</span><span class="p" data-group-id="3860759131-4">)</span><span class="p" data-group-id="3860759131-1">)</span><span class="w">
+</span><span class="p" data-group-id="3860759131-6">#</span><span class="nc" data-group-id="3860759131-6">Nx.Tensor</span><span class="p" data-group-id="3860759131-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="0228377900-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3860759131-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="recall/3">
@@ -600,11 +600,11 @@ <h1 class="signature" translate="no">recall(y_true, y_pred, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">recall</span><span class="p" data-group-id="0771303858-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0771303858-2">(</span><span class="p" data-group-id="0771303858-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0771303858-3">]</span><span class="p" data-group-id="0771303858-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0771303858-4">(</span><span class="p" data-group-id="0771303858-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0771303858-5">]</span><span class="p" data-group-id="0771303858-4">)</span><span class="p" data-group-id="0771303858-1">)</span><span class="w">
-</span><span class="p" data-group-id="0771303858-6">#</span><span class="nc" data-group-id="0771303858-6">Nx.Tensor</span><span class="p" data-group-id="0771303858-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">recall</span><span class="p" data-group-id="2582034850-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2582034850-2">(</span><span class="p" data-group-id="2582034850-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2582034850-3">]</span><span class="p" data-group-id="2582034850-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2582034850-4">(</span><span class="p" data-group-id="2582034850-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2582034850-5">]</span><span class="p" data-group-id="2582034850-4">)</span><span class="p" data-group-id="2582034850-1">)</span><span class="w">
+</span><span class="p" data-group-id="2582034850-6">#</span><span class="nc" data-group-id="2582034850-6">Nx.Tensor</span><span class="p" data-group-id="2582034850-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="0771303858-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="2582034850-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="running_average/1">
@@ -635,14 +635,14 @@ <h1 class="signature" translate="no">running_average(metric)</h1>
 </h2>
 <pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">cur_avg</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mf">0.5</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">iteration</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">1</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3772261047-1">(</span><span class="p" data-group-id="3772261047-2">[</span><span class="p" data-group-id="3772261047-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3772261047-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3772261047-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3772261047-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3772261047-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3772261047-5">]</span><span class="p" data-group-id="3772261047-2">]</span><span class="p" data-group-id="3772261047-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3772261047-6">(</span><span class="p" data-group-id="3772261047-7">[</span><span class="p" data-group-id="3772261047-8">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3772261047-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3772261047-9">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3772261047-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3772261047-10">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3772261047-10">]</span><span class="p" data-group-id="3772261047-7">]</span><span class="p" data-group-id="3772261047-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="p" data-group-id="3772261047-11">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3772261047-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="o">.</span><span class="p" data-group-id="3772261047-12">(</span><span class="n">cur_avg</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3772261047-13">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3772261047-13">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="3772261047-12">)</span><span class="w">
-</span><span class="p" data-group-id="3772261047-14">#</span><span class="nc" data-group-id="3772261047-14">Nx.Tensor</span><span class="p" data-group-id="3772261047-14">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6226882302-1">(</span><span class="p" data-group-id="6226882302-2">[</span><span class="p" data-group-id="6226882302-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6226882302-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6226882302-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6226882302-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6226882302-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6226882302-5">]</span><span class="p" data-group-id="6226882302-2">]</span><span class="p" data-group-id="6226882302-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6226882302-6">(</span><span class="p" data-group-id="6226882302-7">[</span><span class="p" data-group-id="6226882302-8">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6226882302-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6226882302-9">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6226882302-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6226882302-10">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6226882302-10">]</span><span class="p" data-group-id="6226882302-7">]</span><span class="p" data-group-id="6226882302-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="p" data-group-id="6226882302-11">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="6226882302-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="o">.</span><span class="p" data-group-id="6226882302-12">(</span><span class="n">cur_avg</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6226882302-13">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6226882302-13">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="6226882302-12">)</span><span class="w">
+</span><span class="p" data-group-id="6226882302-14">#</span><span class="nc" data-group-id="6226882302-14">Nx.Tensor</span><span class="p" data-group-id="6226882302-14">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.75</span><span class="w">
-</span><span class="p" data-group-id="3772261047-14">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6226882302-14">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="running_sum/1">
@@ -673,14 +673,14 @@ <h1 class="signature" translate="no">running_sum(metric)</h1>
 </h2>
 <pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">cur_sum</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">12</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">iteration</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2418506826-1">(</span><span class="p" data-group-id="2418506826-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2418506826-2">]</span><span class="p" data-group-id="2418506826-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2418506826-3">(</span><span class="p" data-group-id="2418506826-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2418506826-4">]</span><span class="p" data-group-id="2418506826-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_sum</span><span class="p" data-group-id="2418506826-5">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2418506826-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="o">.</span><span class="p" data-group-id="2418506826-6">(</span><span class="n">cur_sum</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2418506826-7">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2418506826-7">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="2418506826-6">)</span><span class="w">
-</span><span class="p" data-group-id="2418506826-8">#</span><span class="nc" data-group-id="2418506826-8">Nx.Tensor</span><span class="p" data-group-id="2418506826-8">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6464647236-1">(</span><span class="p" data-group-id="6464647236-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6464647236-2">]</span><span class="p" data-group-id="6464647236-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6464647236-3">(</span><span class="p" data-group-id="6464647236-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6464647236-4">]</span><span class="p" data-group-id="6464647236-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_sum</span><span class="p" data-group-id="6464647236-5">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="6464647236-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="o">.</span><span class="p" data-group-id="6464647236-6">(</span><span class="n">cur_sum</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6464647236-7">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6464647236-7">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="6464647236-6">)</span><span class="w">
+</span><span class="p" data-group-id="6464647236-8">#</span><span class="nc" data-group-id="6464647236-8">Nx.Tensor</span><span class="p" data-group-id="6464647236-8">&lt;</span><span class="w">
   </span><span class="n">s64</span><span class="w">
   </span><span class="mi">13</span><span class="w">
-</span><span class="p" data-group-id="2418506826-8">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6464647236-8">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="sensitivity/3">
@@ -724,11 +724,11 @@ <h1 class="signature" translate="no">sensitivity(y_true, y_pred, opts \\ [])</h1
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">sensitivity</span><span class="p" data-group-id="3054599130-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3054599130-2">(</span><span class="p" data-group-id="3054599130-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3054599130-3">]</span><span class="p" data-group-id="3054599130-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3054599130-4">(</span><span class="p" data-group-id="3054599130-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3054599130-5">]</span><span class="p" data-group-id="3054599130-4">)</span><span class="p" data-group-id="3054599130-1">)</span><span class="w">
-</span><span class="p" data-group-id="3054599130-6">#</span><span class="nc" data-group-id="3054599130-6">Nx.Tensor</span><span class="p" data-group-id="3054599130-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">sensitivity</span><span class="p" data-group-id="9678417755-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9678417755-2">(</span><span class="p" data-group-id="9678417755-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9678417755-3">]</span><span class="p" data-group-id="9678417755-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9678417755-4">(</span><span class="p" data-group-id="9678417755-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9678417755-5">]</span><span class="p" data-group-id="9678417755-4">)</span><span class="p" data-group-id="9678417755-1">)</span><span class="w">
+</span><span class="p" data-group-id="9678417755-6">#</span><span class="nc" data-group-id="9678417755-6">Nx.Tensor</span><span class="p" data-group-id="9678417755-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="3054599130-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="9678417755-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="specificity/3">
@@ -772,11 +772,11 @@ <h1 class="signature" translate="no">specificity(y_true, y_pred, opts \\ [])</h1
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">specificity</span><span class="p" data-group-id="9956616739-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9956616739-2">(</span><span class="p" data-group-id="9956616739-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9956616739-3">]</span><span class="p" data-group-id="9956616739-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9956616739-4">(</span><span class="p" data-group-id="9956616739-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9956616739-5">]</span><span class="p" data-group-id="9956616739-4">)</span><span class="p" data-group-id="9956616739-1">)</span><span class="w">
-</span><span class="p" data-group-id="9956616739-6">#</span><span class="nc" data-group-id="9956616739-6">Nx.Tensor</span><span class="p" data-group-id="9956616739-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">specificity</span><span class="p" data-group-id="7236831560-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7236831560-2">(</span><span class="p" data-group-id="7236831560-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7236831560-3">]</span><span class="p" data-group-id="7236831560-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7236831560-4">(</span><span class="p" data-group-id="7236831560-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7236831560-5">]</span><span class="p" data-group-id="7236831560-4">)</span><span class="p" data-group-id="7236831560-1">)</span><span class="w">
+</span><span class="p" data-group-id="7236831560-6">#</span><span class="nc" data-group-id="7236831560-6">Nx.Tensor</span><span class="p" data-group-id="7236831560-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.0</span><span class="w">
-</span><span class="p" data-group-id="9956616739-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7236831560-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="top_k_categorical_accuracy/3">
@@ -818,23 +818,23 @@ <h1 class="signature" translate="no">top_k_categorical_accuracy(y_true, y_pred,
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="8564284630-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8564284630-2">(</span><span class="p" data-group-id="8564284630-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8564284630-3">]</span><span class="p" data-group-id="8564284630-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8564284630-4">(</span><span class="p" data-group-id="8564284630-5">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="8564284630-5">]</span><span class="p" data-group-id="8564284630-4">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8564284630-1">)</span><span class="w">
-</span><span class="p" data-group-id="8564284630-6">#</span><span class="nc" data-group-id="8564284630-6">Nx.Tensor</span><span class="p" data-group-id="8564284630-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="1579083019-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1579083019-2">(</span><span class="p" data-group-id="1579083019-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1579083019-3">]</span><span class="p" data-group-id="1579083019-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1579083019-4">(</span><span class="p" data-group-id="1579083019-5">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="1579083019-5">]</span><span class="p" data-group-id="1579083019-4">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1579083019-1">)</span><span class="w">
+</span><span class="p" data-group-id="1579083019-6">#</span><span class="nc" data-group-id="1579083019-6">Nx.Tensor</span><span class="p" data-group-id="1579083019-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.0</span><span class="w">
-</span><span class="p" data-group-id="8564284630-6">&gt;</span><span class="w">
+</span><span class="p" data-group-id="1579083019-6">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="8564284630-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8564284630-8">(</span><span class="p" data-group-id="8564284630-9">[</span><span class="p" data-group-id="8564284630-10">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8564284630-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8564284630-11">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8564284630-11">]</span><span class="p" data-group-id="8564284630-9">]</span><span class="p" data-group-id="8564284630-8">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8564284630-12">(</span><span class="p" data-group-id="8564284630-13">[</span><span class="p" data-group-id="8564284630-14">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="8564284630-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8564284630-15">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="8564284630-15">]</span><span class="p" data-group-id="8564284630-13">]</span><span class="p" data-group-id="8564284630-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8564284630-7">)</span><span class="w">
-</span><span class="p" data-group-id="8564284630-16">#</span><span class="nc" data-group-id="8564284630-16">Nx.Tensor</span><span class="p" data-group-id="8564284630-16">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="1579083019-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1579083019-8">(</span><span class="p" data-group-id="1579083019-9">[</span><span class="p" data-group-id="1579083019-10">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1579083019-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1579083019-11">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1579083019-11">]</span><span class="p" data-group-id="1579083019-9">]</span><span class="p" data-group-id="1579083019-8">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1579083019-12">(</span><span class="p" data-group-id="1579083019-13">[</span><span class="p" data-group-id="1579083019-14">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="1579083019-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1579083019-15">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="1579083019-15">]</span><span class="p" data-group-id="1579083019-13">]</span><span class="p" data-group-id="1579083019-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1579083019-7">)</span><span class="w">
+</span><span class="p" data-group-id="1579083019-16">#</span><span class="nc" data-group-id="1579083019-16">Nx.Tensor</span><span class="p" data-group-id="1579083019-16">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="8564284630-16">&gt;</span><span class="w">
+</span><span class="p" data-group-id="1579083019-16">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="8564284630-17">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8564284630-18">(</span><span class="p" data-group-id="8564284630-19">[</span><span class="p" data-group-id="8564284630-20">[</span><span class="mi">0</span><span class="p" data-group-id="8564284630-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8564284630-21">[</span><span class="mi">2</span><span class="p" data-group-id="8564284630-21">]</span><span class="p" data-group-id="8564284630-19">]</span><span class="p" data-group-id="8564284630-18">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8564284630-22">(</span><span class="p" data-group-id="8564284630-23">[</span><span class="p" data-group-id="8564284630-24">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="8564284630-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8564284630-25">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="8564284630-25">]</span><span class="p" data-group-id="8564284630-23">]</span><span class="p" data-group-id="8564284630-22">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8564284630-17">)</span><span class="w">
-</span><span class="p" data-group-id="8564284630-26">#</span><span class="nc" data-group-id="8564284630-26">Nx.Tensor</span><span class="p" data-group-id="8564284630-26">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="1579083019-17">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1579083019-18">(</span><span class="p" data-group-id="1579083019-19">[</span><span class="p" data-group-id="1579083019-20">[</span><span class="mi">0</span><span class="p" data-group-id="1579083019-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1579083019-21">[</span><span class="mi">2</span><span class="p" data-group-id="1579083019-21">]</span><span class="p" data-group-id="1579083019-19">]</span><span class="p" data-group-id="1579083019-18">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1579083019-22">(</span><span class="p" data-group-id="1579083019-23">[</span><span class="p" data-group-id="1579083019-24">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="1579083019-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1579083019-25">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="1579083019-25">]</span><span class="p" data-group-id="1579083019-23">]</span><span class="p" data-group-id="1579083019-22">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1579083019-17">)</span><span class="w">
+</span><span class="p" data-group-id="1579083019-26">#</span><span class="nc" data-group-id="1579083019-26">Nx.Tensor</span><span class="p" data-group-id="1579083019-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="8564284630-26">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1579083019-26">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="true_negatives/3">
@@ -872,13 +872,13 @@ <h1 class="signature" translate="no">true_negatives(y_true, y_pred, opts \\ [])<
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3603502581-1">(</span><span class="p" data-group-id="3603502581-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3603502581-2">]</span><span class="p" data-group-id="3603502581-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3603502581-3">(</span><span class="p" data-group-id="3603502581-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="3603502581-4">]</span><span class="p" data-group-id="3603502581-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_negatives</span><span class="p" data-group-id="3603502581-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3603502581-5">)</span><span class="w">
-</span><span class="p" data-group-id="3603502581-6">#</span><span class="nc" data-group-id="3603502581-6">Nx.Tensor</span><span class="p" data-group-id="3603502581-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3640726313-1">(</span><span class="p" data-group-id="3640726313-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3640726313-2">]</span><span class="p" data-group-id="3640726313-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3640726313-3">(</span><span class="p" data-group-id="3640726313-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="3640726313-4">]</span><span class="p" data-group-id="3640726313-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_negatives</span><span class="p" data-group-id="3640726313-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3640726313-5">)</span><span class="w">
+</span><span class="p" data-group-id="3640726313-6">#</span><span class="nc" data-group-id="3640726313-6">Nx.Tensor</span><span class="p" data-group-id="3640726313-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">1</span><span class="w">
-</span><span class="p" data-group-id="3603502581-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3640726313-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="true_positives/3">
@@ -916,13 +916,13 @@ <h1 class="signature" translate="no">true_positives(y_true, y_pred, opts \\ [])<
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2126613733-1">(</span><span class="p" data-group-id="2126613733-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2126613733-2">]</span><span class="p" data-group-id="2126613733-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2126613733-3">(</span><span class="p" data-group-id="2126613733-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="2126613733-4">]</span><span class="p" data-group-id="2126613733-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_positives</span><span class="p" data-group-id="2126613733-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2126613733-5">)</span><span class="w">
-</span><span class="p" data-group-id="2126613733-6">#</span><span class="nc" data-group-id="2126613733-6">Nx.Tensor</span><span class="p" data-group-id="2126613733-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3685594299-1">(</span><span class="p" data-group-id="3685594299-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3685594299-2">]</span><span class="p" data-group-id="3685594299-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3685594299-3">(</span><span class="p" data-group-id="3685594299-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="3685594299-4">]</span><span class="p" data-group-id="3685594299-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_positives</span><span class="p" data-group-id="3685594299-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3685594299-5">)</span><span class="w">
+</span><span class="p" data-group-id="3685594299-6">#</span><span class="nc" data-group-id="3685594299-6">Nx.Tensor</span><span class="p" data-group-id="3685594299-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">1</span><span class="w">
-</span><span class="p" data-group-id="2126613733-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3685594299-6">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.MixedPrecision.html b/Axon.MixedPrecision.html
index 321a4528..ed16ae13 100644
--- a/Axon.MixedPrecision.html
+++ b/Axon.MixedPrecision.html
@@ -119,24 +119,24 @@ <h1>
 during intermediate computations in the model's forward pass. The <code class="inline">output</code>
 policy dictates what type the model should output.</p><p>Here's an example of creating a mixed precision policy and applying it
 to a model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1038131319-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1038131319-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="1038131319-2">}</span><span class="p" data-group-id="1038131319-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1038131319-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1038131319-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="1038131319-4">(</span><span class="p" data-group-id="1038131319-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="1038131319-5">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="1038131319-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1038131319-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1038131319-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="1038131319-7">(</span><span class="p" data-group-id="1038131319-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="1038131319-8">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="1038131319-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1038131319-9">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="1038131319-9">)</span><span class="w">
-
-</span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="1038131319-10">(</span><span class="w">
-  </span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1038131319-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1038131319-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1038131319-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1038131319-12">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1038131319-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1038131319-13">}</span><span class="w">
-</span><span class="p" data-group-id="1038131319-10">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4788093590-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4788093590-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="4788093590-2">}</span><span class="p" data-group-id="4788093590-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4788093590-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="4788093590-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="4788093590-4">(</span><span class="p" data-group-id="4788093590-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4788093590-5">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="4788093590-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4788093590-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="4788093590-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="4788093590-7">(</span><span class="p" data-group-id="4788093590-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4788093590-8">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="4788093590-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4788093590-9">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="4788093590-9">)</span><span class="w">
+
+</span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="4788093590-10">(</span><span class="w">
+  </span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4788093590-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4788093590-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4788093590-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4788093590-12">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4788093590-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4788093590-13">}</span><span class="w">
+</span><span class="p" data-group-id="4788093590-10">)</span><span class="w">
 
 </span><span class="n">mp_model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">apply_policy</span><span class="p" data-group-id="1038131319-14">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="ss">except</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1038131319-15">[</span><span class="ss">:batch_norm</span><span class="p" data-group-id="1038131319-15">]</span><span class="p" data-group-id="1038131319-14">)</span></code></pre><p>The example above applies the mixed precision policy to every layer in
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">apply_policy</span><span class="p" data-group-id="4788093590-14">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="ss">except</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4788093590-15">[</span><span class="ss">:batch_norm</span><span class="p" data-group-id="4788093590-15">]</span><span class="p" data-group-id="4788093590-14">)</span></code></pre><p>The example above applies the mixed precision policy to every layer in
 the model except Batch Normalization layers. The policy will cast parameters
 and inputs to <code class="inline">{:f, 16}</code> for intermediate computations in the model's forward
 pass before casting the output back to <code class="inline">{:f, 32}</code>.</p>
@@ -213,11 +213,11 @@ <h1 class="signature" translate="no">create_policy(opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="5445630361-1">(</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5445630361-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5445630361-3">}</span><span class="p" data-group-id="5445630361-1">)</span><span class="w">
-</span><span class="p" data-group-id="5445630361-4">%</span><span class="nc" data-group-id="5445630361-4">Policy</span><span class="p" data-group-id="5445630361-4">{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5445630361-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5445630361-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5445630361-7">}</span><span class="p" data-group-id="5445630361-4">}</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="1334413928-1">(</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1334413928-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1334413928-3">}</span><span class="p" data-group-id="1334413928-1">)</span><span class="w">
+</span><span class="p" data-group-id="1334413928-4">%</span><span class="nc" data-group-id="1334413928-4">Policy</span><span class="p" data-group-id="1334413928-4">{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1334413928-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1334413928-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1334413928-7">}</span><span class="p" data-group-id="1334413928-4">}</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="5445630361-8">(</span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-9">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5445630361-9">}</span><span class="p" data-group-id="5445630361-8">)</span><span class="w">
-</span><span class="p" data-group-id="5445630361-10">%</span><span class="nc" data-group-id="5445630361-10">Policy</span><span class="p" data-group-id="5445630361-10">{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5445630361-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5445630361-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5445630361-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5445630361-13">}</span><span class="p" data-group-id="5445630361-10">}</span></code></pre>
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="1334413928-8">(</span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-9">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1334413928-9">}</span><span class="p" data-group-id="1334413928-8">)</span><span class="w">
+</span><span class="p" data-group-id="1334413928-10">%</span><span class="nc" data-group-id="1334413928-10">Policy</span><span class="p" data-group-id="1334413928-10">{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1334413928-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1334413928-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1334413928-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1334413928-13">}</span><span class="p" data-group-id="1334413928-10">}</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Optimizers.html b/Axon.Optimizers.html
index 2ffa7bd1..7247d7c3 100644
--- a/Axon.Optimizers.html
+++ b/Axon.Optimizers.html
@@ -114,7 +114,7 @@ <h1>
   <section id="moduledoc">
 <p>Implementations of common gradient-based optimization algorithms.</p><p>All of the methods in this module are written in terms of
 the update methods defined in <a href="Axon.Updates.html"><code class="inline">Axon.Updates</code></a>. Axon treats
-optimizers as the tuple:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0815386128-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="0815386128-1">}</span></code></pre><p>where <code class="inline">init_fn</code> returns an initial optimizer state and <code class="inline">update_fn</code>
+optimizers as the tuple:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3256462548-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="3256462548-1">}</span></code></pre><p>where <code class="inline">init_fn</code> returns an initial optimizer state and <code class="inline">update_fn</code>
 scales input gradients. <code class="inline">init_fn</code> accepts a model's parameters
 and attaches state to each parameter. <code class="inline">update_fn</code> accepts
 gradients, optimizer state, and current model parameters and
@@ -126,31 +126,31 @@ <h1>
 </h2>
 <p>Consider the following usage of the Adam optimizer in a basic
 update function (assuming <code class="inline">objective</code> and the <code class="inline">dataset</code> are
-defined elsewhere):</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Learning</span><span class="w"> </span><span class="k" data-group-id="2086317488-1">do</span><span class="w">
+defined elsewhere):</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Learning</span><span class="w"> </span><span class="k" data-group-id="7784896732-1">do</span><span class="w">
 
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">init</span><span class="p" data-group-id="2086317488-2">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_fn</span><span class="p" data-group-id="2086317488-2">)</span><span class="w"> </span><span class="k" data-group-id="2086317488-3">do</span><span class="w">
-    </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2086317488-4">(</span><span class="n">params</span><span class="p" data-group-id="2086317488-4">)</span><span class="w">
-  </span><span class="k" data-group-id="2086317488-3">end</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">init</span><span class="p" data-group-id="7784896732-2">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_fn</span><span class="p" data-group-id="7784896732-2">)</span><span class="w"> </span><span class="k" data-group-id="7784896732-3">do</span><span class="w">
+    </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7784896732-4">(</span><span class="n">params</span><span class="p" data-group-id="7784896732-4">)</span><span class="w">
+  </span><span class="k" data-group-id="7784896732-3">end</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">update</span><span class="p" data-group-id="2086317488-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="2086317488-5">)</span><span class="w"> </span><span class="k" data-group-id="2086317488-6">do</span><span class="w">
-    </span><span class="p" data-group-id="2086317488-7">{</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">gradient</span><span class="p" data-group-id="2086317488-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">value_and_grad</span><span class="p" data-group-id="2086317488-8">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">objective</span><span class="p" data-group-id="2086317488-9">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="2086317488-9">)</span><span class="p" data-group-id="2086317488-8">)</span><span class="w">
-    </span><span class="p" data-group-id="2086317488-10">{</span><span class="n">scaled_updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optimizer_state</span><span class="p" data-group-id="2086317488-10">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">update_fn</span><span class="o">.</span><span class="p" data-group-id="2086317488-11">(</span><span class="n">gradient</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="2086317488-11">)</span><span class="w">
-    </span><span class="p" data-group-id="2086317488-12">{</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">apply_updates</span><span class="p" data-group-id="2086317488-13">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">scaled_updates</span><span class="p" data-group-id="2086317488-13">)</span><span class="p">,</span><span class="w"> </span><span class="n">new_optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">loss</span><span class="p" data-group-id="2086317488-12">}</span><span class="w">
-  </span><span class="k" data-group-id="2086317488-6">end</span><span class="w">
-</span><span class="k" data-group-id="2086317488-1">end</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">update</span><span class="p" data-group-id="7784896732-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="7784896732-5">)</span><span class="w"> </span><span class="k" data-group-id="7784896732-6">do</span><span class="w">
+    </span><span class="p" data-group-id="7784896732-7">{</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">gradient</span><span class="p" data-group-id="7784896732-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">value_and_grad</span><span class="p" data-group-id="7784896732-8">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">objective</span><span class="p" data-group-id="7784896732-9">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="7784896732-9">)</span><span class="p" data-group-id="7784896732-8">)</span><span class="w">
+    </span><span class="p" data-group-id="7784896732-10">{</span><span class="n">scaled_updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optimizer_state</span><span class="p" data-group-id="7784896732-10">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">update_fn</span><span class="o">.</span><span class="p" data-group-id="7784896732-11">(</span><span class="n">gradient</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="7784896732-11">)</span><span class="w">
+    </span><span class="p" data-group-id="7784896732-12">{</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">apply_updates</span><span class="p" data-group-id="7784896732-13">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">scaled_updates</span><span class="p" data-group-id="7784896732-13">)</span><span class="p">,</span><span class="w"> </span><span class="n">new_optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">loss</span><span class="p" data-group-id="7784896732-12">}</span><span class="w">
+  </span><span class="k" data-group-id="7784896732-6">end</span><span class="w">
+</span><span class="k" data-group-id="7784896732-1">end</span><span class="w">
 
-</span><span class="p" data-group-id="2086317488-14">{</span><span class="n">model_params</span><span class="p">,</span><span class="w"> </span><span class="c">_key</span><span class="p" data-group-id="2086317488-14">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="2086317488-15">(</span><span class="n">key</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2086317488-16">{</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="2086317488-16">}</span><span class="p" data-group-id="2086317488-15">)</span><span class="w">
-</span><span class="p" data-group-id="2086317488-17">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="2086317488-17">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="2086317488-18">(</span><span class="mf">0.005</span><span class="p" data-group-id="2086317488-18">)</span><span class="w">
+</span><span class="p" data-group-id="7784896732-14">{</span><span class="n">model_params</span><span class="p">,</span><span class="w"> </span><span class="c">_key</span><span class="p" data-group-id="7784896732-14">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="7784896732-15">(</span><span class="n">key</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7784896732-16">{</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="7784896732-16">}</span><span class="p" data-group-id="7784896732-15">)</span><span class="w">
+</span><span class="p" data-group-id="7784896732-17">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="7784896732-17">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="7784896732-18">(</span><span class="mf">0.005</span><span class="p" data-group-id="7784896732-18">)</span><span class="w">
 
 </span><span class="n">optimizer_state</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Learning</span><span class="o">.</span><span class="n">init</span><span class="p" data-group-id="2086317488-19">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_fn</span><span class="p" data-group-id="2086317488-19">)</span><span class="w">
+  </span><span class="nc">Learning</span><span class="o">.</span><span class="n">init</span><span class="p" data-group-id="7784896732-19">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_fn</span><span class="p" data-group-id="7784896732-19">)</span><span class="w">
 
-</span><span class="p" data-group-id="2086317488-20">{</span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="n">new_optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">loss</span><span class="p" data-group-id="2086317488-20">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Learning</span><span class="o">.</span><span class="n">update</span><span class="p" data-group-id="2086317488-21">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="2086317488-21">)</span></code></pre><p>For a simpler approach, you can also use optimizers with the training API:</p><pre><code class="makeup elixir" translate="no"><span class="w">  </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5790767454-1">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="5790767454-2">(</span><span class="mf">0.005</span><span class="p" data-group-id="5790767454-2">)</span><span class="p" data-group-id="5790767454-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5790767454-3">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5790767454-3">)</span></code></pre>
+</span><span class="p" data-group-id="7784896732-20">{</span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="n">new_optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">loss</span><span class="p" data-group-id="7784896732-20">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Learning</span><span class="o">.</span><span class="n">update</span><span class="p" data-group-id="7784896732-21">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_state</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="7784896732-21">)</span></code></pre><p>For a simpler approach, you can also use optimizers with the training API:</p><pre><code class="makeup elixir" translate="no"><span class="w">  </span><span class="n">model</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7477034040-1">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="7477034040-2">(</span><span class="mf">0.005</span><span class="p" data-group-id="7477034040-2">)</span><span class="p" data-group-id="7477034040-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7477034040-3">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7477034040-3">)</span></code></pre>
   </section>
 
 
diff --git a/Axon.Updates.html b/Axon.Updates.html
index 55b15d06..cdb5daf6 100644
--- a/Axon.Updates.html
+++ b/Axon.Updates.html
@@ -116,16 +116,16 @@ <h1>
 usually by scaling or shifting the input with respect
 to some input state. Update methods are composed
 to create more advanced optimization methods such as AdaGrad
-or Adam. Each update returns a tuple:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0663288018-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="0663288018-1">}</span></code></pre><p>Which represent a state initialization and state update
+or Adam. Each update returns a tuple:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4808018607-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">update_fn</span><span class="p" data-group-id="4808018607-1">}</span></code></pre><p>Which represent a state initialization and state update
 function respectively. While each method in the Updates
 API is a regular Elixir function, the two methods they
 return are implemented as <code class="inline">defn</code>, so they can be accelerated
 using any Nx backend or compiler.</p><p>Update methods are just combinators that can be arbitrarily
 composed to create complex optimizers. For example, the Adam
-optimizer in Axon.Optimizers is implemented as:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">adam</span><span class="p" data-group-id="5234859164-1">(</span><span class="n">learning_rate</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="5234859164-2">[</span><span class="p" data-group-id="5234859164-2">]</span><span class="p" data-group-id="5234859164-1">)</span><span class="w"> </span><span class="k" data-group-id="5234859164-3">do</span><span class="w">
-  </span><span class="nc">Updates</span><span class="o">.</span><span class="n">scale_by_adam</span><span class="p" data-group-id="5234859164-4">(</span><span class="n">opts</span><span class="p" data-group-id="5234859164-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Updates</span><span class="o">.</span><span class="n">scale</span><span class="p" data-group-id="5234859164-5">(</span><span class="o">-</span><span class="n">learning_rate</span><span class="p" data-group-id="5234859164-5">)</span><span class="w">
-</span><span class="k" data-group-id="5234859164-3">end</span></code></pre><p>Updates are maps of updates, often associated with parameters of
+optimizer in Axon.Optimizers is implemented as:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">adam</span><span class="p" data-group-id="0815196214-1">(</span><span class="n">learning_rate</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="0815196214-2">[</span><span class="p" data-group-id="0815196214-2">]</span><span class="p" data-group-id="0815196214-1">)</span><span class="w"> </span><span class="k" data-group-id="0815196214-3">do</span><span class="w">
+  </span><span class="nc">Updates</span><span class="o">.</span><span class="n">scale_by_adam</span><span class="p" data-group-id="0815196214-4">(</span><span class="n">opts</span><span class="p" data-group-id="0815196214-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Updates</span><span class="o">.</span><span class="n">scale</span><span class="p" data-group-id="0815196214-5">(</span><span class="o">-</span><span class="n">learning_rate</span><span class="p" data-group-id="0815196214-5">)</span><span class="w">
+</span><span class="k" data-group-id="0815196214-3">end</span></code></pre><p>Updates are maps of updates, often associated with parameters of
 the same names. Using <a href="#apply_updates/3"><code class="inline">Axon.Updates.apply_updates/3</code></a> will merge updates
 and parameters by adding associated parameters and updates, and
 ensuring any given model state is preserved.</p><h2 id="module-custom-combinators" class="section-heading">
@@ -136,34 +136,34 @@ <h1>
 </h2>
 <p>You can create your own combinators using the <a href="#stateless/2"><code class="inline">stateless/2</code></a> and
 <a href="#stateful/3"><code class="inline">stateful/3</code></a> primitives. Every update method in this module is
-implemented in terms of one of these two primitives.</p><p><a href="#stateless/2"><code class="inline">stateless/2</code></a> represents a stateless update:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">scale</span><span class="p" data-group-id="4130025341-1">(</span><span class="n">combinator</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">identity</span><span class="p" data-group-id="4130025341-2">(</span><span class="p" data-group-id="4130025341-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">step_size</span><span class="p" data-group-id="4130025341-1">)</span><span class="w"> </span><span class="k" data-group-id="4130025341-3">do</span><span class="w">
-  </span><span class="n">stateless</span><span class="p" data-group-id="4130025341-4">(</span><span class="n">combinator</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply_scale</span><span class="p" data-group-id="4130025341-5">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="n">step_size</span><span class="p" data-group-id="4130025341-5">)</span><span class="p" data-group-id="4130025341-4">)</span><span class="w">
-</span><span class="k" data-group-id="4130025341-3">end</span><span class="w">
+implemented in terms of one of these two primitives.</p><p><a href="#stateless/2"><code class="inline">stateless/2</code></a> represents a stateless update:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">scale</span><span class="p" data-group-id="4494234692-1">(</span><span class="n">combinator</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">identity</span><span class="p" data-group-id="4494234692-2">(</span><span class="p" data-group-id="4494234692-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">step_size</span><span class="p" data-group-id="4494234692-1">)</span><span class="w"> </span><span class="k" data-group-id="4494234692-3">do</span><span class="w">
+  </span><span class="n">stateless</span><span class="p" data-group-id="4494234692-4">(</span><span class="n">combinator</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply_scale</span><span class="p" data-group-id="4494234692-5">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="n">step_size</span><span class="p" data-group-id="4494234692-5">)</span><span class="p" data-group-id="4494234692-4">)</span><span class="w">
+</span><span class="k" data-group-id="4494234692-3">end</span><span class="w">
 
-</span><span class="kd">defnp</span><span class="w"> </span><span class="nf">apply_scale</span><span class="p" data-group-id="4130025341-6">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_params</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="4130025341-6">)</span><span class="w"> </span><span class="k" data-group-id="4130025341-7">do</span><span class="w">
-  </span><span class="n">deep_new</span><span class="p" data-group-id="4130025341-8">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4130025341-9">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4130025341-10">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="4130025341-10">)</span><span class="w"> </span><span class="k" data-group-id="4130025341-9">end</span><span class="p" data-group-id="4130025341-8">)</span><span class="w">
-</span><span class="k" data-group-id="4130025341-7">end</span></code></pre><p>Notice how the function given to <a href="#stateless/2"><code class="inline">stateless/2</code></a> is defined within <code class="inline">defn</code>.
+</span><span class="kd">defnp</span><span class="w"> </span><span class="nf">apply_scale</span><span class="p" data-group-id="4494234692-6">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_params</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="4494234692-6">)</span><span class="w"> </span><span class="k" data-group-id="4494234692-7">do</span><span class="w">
+  </span><span class="n">deep_new</span><span class="p" data-group-id="4494234692-8">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4494234692-9">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4494234692-10">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="4494234692-10">)</span><span class="w"> </span><span class="k" data-group-id="4494234692-9">end</span><span class="p" data-group-id="4494234692-8">)</span><span class="w">
+</span><span class="k" data-group-id="4494234692-7">end</span></code></pre><p>Notice how the function given to <a href="#stateless/2"><code class="inline">stateless/2</code></a> is defined within <code class="inline">defn</code>.
 This is what allows the anonymous functions returned by <a href="Axon.Updates.html#content"><code class="inline">Axon.Updates</code></a>
-to be used inside <code class="inline">defn</code>.</p><p><a href="#stateful/3"><code class="inline">stateful/3</code></a> represents a stateful update and follows the same pattern:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">my_stateful_update</span><span class="p" data-group-id="8491320951-1">(</span><span class="n">updates</span><span class="p" data-group-id="8491320951-1">)</span><span class="w"> </span><span class="k" data-group-id="8491320951-2">do</span><span class="w">
-  </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">stateful</span><span class="p" data-group-id="8491320951-3">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">init_my_update</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply_my_update</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="8491320951-3">)</span><span class="w">
-</span><span class="k" data-group-id="8491320951-2">end</span><span class="w">
-
-</span><span class="kd">defnp</span><span class="w"> </span><span class="nf">init_my_update</span><span class="p" data-group-id="8491320951-4">(</span><span class="n">params</span><span class="p" data-group-id="8491320951-4">)</span><span class="w"> </span><span class="k" data-group-id="8491320951-5">do</span><span class="w">
-  </span><span class="n">state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">zeros_like</span><span class="p" data-group-id="8491320951-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8491320951-6">)</span><span class="w">
-  </span><span class="p" data-group-id="8491320951-7">%{</span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="8491320951-7">}</span><span class="w">
-</span><span class="k" data-group-id="8491320951-5">end</span><span class="w">
-
-</span><span class="kd">defnp</span><span class="w"> </span><span class="nf">apply_my_update</span><span class="p" data-group-id="8491320951-8">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="8491320951-8">)</span><span class="w"> </span><span class="k" data-group-id="8491320951-9">do</span><span class="w">
-  </span><span class="n">new_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">deep_new</span><span class="p" data-group-id="8491320951-10">(</span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="8491320951-11">fn</span><span class="w"> </span><span class="n">v</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="8491320951-12">(</span><span class="n">v</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01</span><span class="p" data-group-id="8491320951-12">)</span><span class="w"> </span><span class="k" data-group-id="8491320951-11">end</span><span class="p" data-group-id="8491320951-10">)</span><span class="w">
-  </span><span class="n">updates</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">deep_merge</span><span class="p" data-group-id="8491320951-13">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="8491320951-14">fn</span><span class="w"> </span><span class="n">g</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="8491320951-15">(</span><span class="n">g</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="p" data-group-id="8491320951-15">)</span><span class="w"> </span><span class="k" data-group-id="8491320951-14">end</span><span class="p" data-group-id="8491320951-13">)</span><span class="w">
-  </span><span class="p" data-group-id="8491320951-16">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8491320951-17">%{</span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="n">new_state</span><span class="p" data-group-id="8491320951-17">}</span><span class="p" data-group-id="8491320951-16">}</span><span class="w">
-</span><span class="k" data-group-id="8491320951-9">end</span></code></pre><p>State associated with individual parameters should have keys that match the
+to be used inside <code class="inline">defn</code>.</p><p><a href="#stateful/3"><code class="inline">stateful/3</code></a> represents a stateful update and follows the same pattern:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">my_stateful_update</span><span class="p" data-group-id="1935351238-1">(</span><span class="n">updates</span><span class="p" data-group-id="1935351238-1">)</span><span class="w"> </span><span class="k" data-group-id="1935351238-2">do</span><span class="w">
+  </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">stateful</span><span class="p" data-group-id="1935351238-3">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">init_my_update</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply_my_update</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="1935351238-3">)</span><span class="w">
+</span><span class="k" data-group-id="1935351238-2">end</span><span class="w">
+
+</span><span class="kd">defnp</span><span class="w"> </span><span class="nf">init_my_update</span><span class="p" data-group-id="1935351238-4">(</span><span class="n">params</span><span class="p" data-group-id="1935351238-4">)</span><span class="w"> </span><span class="k" data-group-id="1935351238-5">do</span><span class="w">
+  </span><span class="n">state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">zeros_like</span><span class="p" data-group-id="1935351238-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1935351238-6">)</span><span class="w">
+  </span><span class="p" data-group-id="1935351238-7">%{</span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1935351238-7">}</span><span class="w">
+</span><span class="k" data-group-id="1935351238-5">end</span><span class="w">
+
+</span><span class="kd">defnp</span><span class="w"> </span><span class="nf">apply_my_update</span><span class="p" data-group-id="1935351238-8">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1935351238-8">)</span><span class="w"> </span><span class="k" data-group-id="1935351238-9">do</span><span class="w">
+  </span><span class="n">new_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">deep_new</span><span class="p" data-group-id="1935351238-10">(</span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1935351238-11">fn</span><span class="w"> </span><span class="n">v</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="1935351238-12">(</span><span class="n">v</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01</span><span class="p" data-group-id="1935351238-12">)</span><span class="w"> </span><span class="k" data-group-id="1935351238-11">end</span><span class="p" data-group-id="1935351238-10">)</span><span class="w">
+  </span><span class="n">updates</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">deep_merge</span><span class="p" data-group-id="1935351238-13">(</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1935351238-14">fn</span><span class="w"> </span><span class="n">g</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="1935351238-15">(</span><span class="n">g</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="p" data-group-id="1935351238-15">)</span><span class="w"> </span><span class="k" data-group-id="1935351238-14">end</span><span class="p" data-group-id="1935351238-13">)</span><span class="w">
+  </span><span class="p" data-group-id="1935351238-16">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1935351238-17">%{</span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="n">new_state</span><span class="p" data-group-id="1935351238-17">}</span><span class="p" data-group-id="1935351238-16">}</span><span class="w">
+</span><span class="k" data-group-id="1935351238-9">end</span></code></pre><p>State associated with individual parameters should have keys that match the
 keys of the parameter. For example, if you have parameters <code class="inline">%{kernel: kernel}</code>
 with associated states <code class="inline">mu</code> and <code class="inline">nu</code> representing the first and second moments,
-your state should look something like:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3629808206-1">%{</span><span class="w">
-  </span><span class="ss">mu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3629808206-2">%{</span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">kernel_mu</span><span class="p" data-group-id="3629808206-2">}</span><span class="w">
-  </span><span class="ss">nu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3629808206-3">%{</span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">kernel_nu</span><span class="p" data-group-id="3629808206-3">}</span><span class="w">
-</span><span class="p" data-group-id="3629808206-1">}</span></code></pre>
+your state should look something like:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0855418392-1">%{</span><span class="w">
+  </span><span class="ss">mu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0855418392-2">%{</span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">kernel_mu</span><span class="p" data-group-id="0855418392-2">}</span><span class="w">
+  </span><span class="ss">nu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0855418392-3">%{</span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">kernel_nu</span><span class="p" data-group-id="0855418392-3">}</span><span class="w">
+</span><span class="p" data-group-id="0855418392-1">}</span></code></pre>
   </section>
 
 
@@ -857,8 +857,8 @@ <h1 class="signature" translate="no">compose(arg1, arg2)</h1>
 without having to reimplement them. For example, you can implement
 gradient centralization:</p><pre><code class="makeup elixir" translate="no"><span class="kn">import</span><span class="w"> </span><span class="nc">Axon.Updates</span><span class="w">
 
-</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">compose</span><span class="p" data-group-id="7770495531-1">(</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="7770495531-2">(</span><span class="p" data-group-id="7770495531-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">rmsprop</span><span class="p" data-group-id="7770495531-3">(</span><span class="p" data-group-id="7770495531-3">)</span><span class="p" data-group-id="7770495531-1">)</span></code></pre><p>This is equivalent to:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="6913780577-1">(</span><span class="p" data-group-id="6913780577-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">scale_by_rms</span><span class="p" data-group-id="6913780577-2">(</span><span class="p" data-group-id="6913780577-2">)</span></code></pre>
+</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">compose</span><span class="p" data-group-id="2042923101-1">(</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="2042923101-2">(</span><span class="p" data-group-id="2042923101-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">rmsprop</span><span class="p" data-group-id="2042923101-3">(</span><span class="p" data-group-id="2042923101-3">)</span><span class="p" data-group-id="2042923101-1">)</span></code></pre><p>This is equivalent to:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="5949135201-1">(</span><span class="p" data-group-id="5949135201-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">scale_by_rms</span><span class="p" data-group-id="5949135201-2">(</span><span class="p" data-group-id="5949135201-2">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="identity/0">
@@ -1466,7 +1466,7 @@ <h1 class="signature" translate="no">scale_by_yogi(combinator_or_opts \\ [])</h1
   </a>
   References
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="6435327816-1">[</span><span class="nc">Adaptive</span><span class="w"> </span><span class="nc">Methods</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="nc">Nonconvex</span><span class="w"> </span><span class="nc">Optimization</span><span class="p" data-group-id="6435327816-1">]</span><span class="p" data-group-id="6435327816-2">(</span><span class="n">https</span><span class="ss">://</span><span class="n">proceedings</span><span class="o">.</span><span class="n">neurips</span><span class="o">.</span><span class="n">cc</span><span class="o">/</span><span class="n">paper</span><span class="o">/</span><span class="mi">2018</span><span class="o">/</span><span class="n">file</span><span class="o">/</span><span class="mi">90365351</span><span class="n">ccc7437a1309dc64e4db32a3</span><span class="o">-</span><span class="nc">Paper</span><span class="o">.</span><span class="n">pdf</span><span class="p" data-group-id="6435327816-2">)</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="8493087685-1">[</span><span class="nc">Adaptive</span><span class="w"> </span><span class="nc">Methods</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="nc">Nonconvex</span><span class="w"> </span><span class="nc">Optimization</span><span class="p" data-group-id="8493087685-1">]</span><span class="p" data-group-id="8493087685-2">(</span><span class="n">https</span><span class="ss">://</span><span class="n">proceedings</span><span class="o">.</span><span class="n">neurips</span><span class="o">.</span><span class="n">cc</span><span class="o">/</span><span class="n">paper</span><span class="o">/</span><span class="mi">2018</span><span class="o">/</span><span class="n">file</span><span class="o">/</span><span class="mi">90365351</span><span class="n">ccc7437a1309dc64e4db32a3</span><span class="o">-</span><span class="nc">Paper</span><span class="o">.</span><span class="n">pdf</span><span class="p" data-group-id="8493087685-2">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="scale_by_yogi/2">
diff --git a/Axon.epub b/Axon.epub
index d7bc500e..db22a8ae 100644
Binary files a/Axon.epub and b/Axon.epub differ
diff --git a/Axon.html b/Axon.html
index 0ffa8184..5a0d9a20 100644
--- a/Axon.html
+++ b/Axon.html
@@ -123,53 +123,53 @@ <h1>
   Model Creation
 </h2>
 <p>All Axon models start with an input layer, optionally specifying
-the expected shape of the input data:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9221786048-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9221786048-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="9221786048-2">}</span><span class="p" data-group-id="9221786048-1">)</span></code></pre><p>Notice you can specify some dimensions as <code class="inline">nil</code>, indicating
+the expected shape of the input data:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3632042915-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3632042915-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="3632042915-2">}</span><span class="p" data-group-id="3632042915-1">)</span></code></pre><p>Notice you can specify some dimensions as <code class="inline">nil</code>, indicating
 that the dimension size will be filled in at model runtime.
 You can then compose inputs with other layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">input</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7751301528-1">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7751301528-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="7751301528-2">(</span><span class="p" data-group-id="7751301528-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="7751301528-3">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="7751301528-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7751301528-4">(</span><span class="mi">64</span><span class="p" data-group-id="7751301528-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="7751301528-5">(</span><span class="p" data-group-id="7751301528-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7751301528-6">(</span><span class="mi">10</span><span class="p" data-group-id="7751301528-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="7751301528-7">(</span><span class="ss">:softmax</span><span class="p" data-group-id="7751301528-7">)</span></code></pre><p>You can inspect the model for a nice summary:</p><pre><code class="makeup elixir" translate="no"><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8693855720-1">(</span><span class="n">model</span><span class="p" data-group-id="8693855720-1">)</span><span class="w">
-
-</span><span class="p" data-group-id="8693855720-2">#</span><span class="nc" data-group-id="8693855720-2">Axon</span><span class="p" data-group-id="8693855720-2">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8693855720-3">%{</span><span class="s">&quot;input&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8693855720-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="8693855720-4">}</span><span class="p" data-group-id="8693855720-3">}</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3957690041-1">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3957690041-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="3957690041-2">(</span><span class="p" data-group-id="3957690041-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="3957690041-3">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="3957690041-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3957690041-4">(</span><span class="mi">64</span><span class="p" data-group-id="3957690041-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="3957690041-5">(</span><span class="p" data-group-id="3957690041-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3957690041-6">(</span><span class="mi">10</span><span class="p" data-group-id="3957690041-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="3957690041-7">(</span><span class="ss">:softmax</span><span class="p" data-group-id="3957690041-7">)</span></code></pre><p>You can inspect the model for a nice summary:</p><pre><code class="makeup elixir" translate="no"><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6292061164-1">(</span><span class="n">model</span><span class="p" data-group-id="6292061164-1">)</span><span class="w">
+
+</span><span class="p" data-group-id="6292061164-2">#</span><span class="nc" data-group-id="6292061164-2">Axon</span><span class="p" data-group-id="6292061164-2">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6292061164-3">%{</span><span class="s">&quot;input&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6292061164-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="6292061164-4">}</span><span class="p" data-group-id="6292061164-3">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;softmax_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">9</span><span class="w">
-</span><span class="p" data-group-id="8693855720-2">&gt;</span></code></pre><p>Or use the <a href="Axon.Display.html"><code class="inline">Axon.Display</code></a> module to see more in-depth summaries:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="1925408140-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1925408140-2">(</span><span class="p" data-group-id="1925408140-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="1925408140-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1925408140-2">)</span><span class="p" data-group-id="1925408140-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="w">
+</span><span class="p" data-group-id="6292061164-2">&gt;</span></code></pre><p>Or use the <a href="Axon.Display.html"><code class="inline">Axon.Display</code></a> module to see more in-depth summaries:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="5155297734-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5155297734-2">(</span><span class="p" data-group-id="5155297734-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="5155297734-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5155297734-2">)</span><span class="p" data-group-id="5155297734-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="w">
 
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="w">
 </span><span class="o">|</span><span class="w">                                                     </span><span class="nc">Model</span><span class="w">                                                      </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="w">
 </span><span class="o">|</span><span class="w"> </span><span class="nc">Layer</span><span class="w">                                 </span><span class="o">|</span><span class="w"> </span><span class="nc">Input</span><span class="w"> </span><span class="nc">Shape</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="nc">Output</span><span class="w"> </span><span class="nc">Shape</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="nc">Options</span><span class="w">           </span><span class="o">|</span><span class="w"> </span><span class="nc">Parameters</span><span class="w">            </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="1925408140-4">(</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="1925408140-4">)</span><span class="w">                       </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-5">[</span><span class="p" data-group-id="1925408140-5">]</span><span class="w">          </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-6">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="1925408140-6">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1925408140-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="1925408140-7">}</span><span class="w"> </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="5155297734-4">(</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="5155297734-4">)</span><span class="w">                       </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-5">[</span><span class="p" data-group-id="5155297734-5">]</span><span class="w">          </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-6">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="5155297734-6">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5155297734-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="5155297734-7">}</span><span class="w"> </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">optional</span><span class="p">:</span><span class="w"> </span><span class="no">false</span><span class="w">   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dense_0</span><span class="w"> </span><span class="p" data-group-id="1925408140-8">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="1925408140-9">[</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="1925408140-9">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-8">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-10">[</span><span class="p" data-group-id="1925408140-11">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="1925408140-11">}</span><span class="p" data-group-id="1925408140-10">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-12">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-13">[</span><span class="mi">784</span><span class="p" data-group-id="1925408140-13">]</span><span class="p" data-group-id="1925408140-14">[</span><span class="mi">128</span><span class="p" data-group-id="1925408140-14">]</span><span class="w"> </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-15">[</span><span class="mi">128</span><span class="p" data-group-id="1925408140-15">]</span><span class="w">        </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dense_0</span><span class="w"> </span><span class="p" data-group-id="5155297734-8">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="5155297734-9">[</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="5155297734-9">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-8">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-10">[</span><span class="p" data-group-id="5155297734-11">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="5155297734-11">}</span><span class="p" data-group-id="5155297734-10">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-12">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-13">[</span><span class="mi">784</span><span class="p" data-group-id="5155297734-13">]</span><span class="p" data-group-id="5155297734-14">[</span><span class="mi">128</span><span class="p" data-group-id="5155297734-14">]</span><span class="w"> </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-15">[</span><span class="mi">128</span><span class="p" data-group-id="5155297734-15">]</span><span class="w">        </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">relu_0</span><span class="w"> </span><span class="p" data-group-id="1925408140-16">(</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="1925408140-17">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="1925408140-17">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-16">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-18">[</span><span class="p" data-group-id="1925408140-19">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-19">}</span><span class="p" data-group-id="1925408140-18">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-20">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-20">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">relu_0</span><span class="w"> </span><span class="p" data-group-id="5155297734-16">(</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="5155297734-17">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="5155297734-17">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-16">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-18">[</span><span class="p" data-group-id="5155297734-19">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-19">}</span><span class="p" data-group-id="5155297734-18">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-20">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-20">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">batch_norm_0</span><span class="w"> </span><span class="p" data-group-id="1925408140-21">(</span><span class="w"> </span><span class="n">batch_norm</span><span class="p" data-group-id="1925408140-22">[</span><span class="s">&quot;relu_0&quot;</span><span class="p" data-group-id="1925408140-22">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-21">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-23">[</span><span class="p" data-group-id="1925408140-24">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-24">}</span><span class="p" data-group-id="1925408140-23">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-25">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-25">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">epsilon</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-5</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="ss">gamma</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-26">[</span><span class="mi">128</span><span class="p" data-group-id="1925408140-26">]</span><span class="w">       </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">channel_index</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="ss">beta</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-27">[</span><span class="mi">128</span><span class="p" data-group-id="1925408140-27">]</span><span class="w">        </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">momentum</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-28">[</span><span class="mi">128</span><span class="p" data-group-id="1925408140-28">]</span><span class="w">        </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">var</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-29">[</span><span class="mi">128</span><span class="p" data-group-id="1925408140-29">]</span><span class="w">         </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">batch_norm_0</span><span class="w"> </span><span class="p" data-group-id="5155297734-21">(</span><span class="w"> </span><span class="n">batch_norm</span><span class="p" data-group-id="5155297734-22">[</span><span class="s">&quot;relu_0&quot;</span><span class="p" data-group-id="5155297734-22">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-21">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-23">[</span><span class="p" data-group-id="5155297734-24">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-24">}</span><span class="p" data-group-id="5155297734-23">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-25">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-25">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">epsilon</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-5</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="ss">gamma</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-26">[</span><span class="mi">128</span><span class="p" data-group-id="5155297734-26">]</span><span class="w">       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">channel_index</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="ss">beta</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-27">[</span><span class="mi">128</span><span class="p" data-group-id="5155297734-27">]</span><span class="w">        </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">momentum</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-28">[</span><span class="mi">128</span><span class="p" data-group-id="5155297734-28">]</span><span class="w">        </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">var</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-29">[</span><span class="mi">128</span><span class="p" data-group-id="5155297734-29">]</span><span class="w">         </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dropout_0</span><span class="w"> </span><span class="p" data-group-id="1925408140-30">(</span><span class="w"> </span><span class="n">dropout</span><span class="p" data-group-id="1925408140-31">[</span><span class="s">&quot;batch_norm_0&quot;</span><span class="p" data-group-id="1925408140-31">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-30">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-32">[</span><span class="p" data-group-id="1925408140-33">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-33">}</span><span class="p" data-group-id="1925408140-32">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-34">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-34">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="w">         </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dropout_0</span><span class="w"> </span><span class="p" data-group-id="5155297734-30">(</span><span class="w"> </span><span class="n">dropout</span><span class="p" data-group-id="5155297734-31">[</span><span class="s">&quot;batch_norm_0&quot;</span><span class="p" data-group-id="5155297734-31">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-30">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-32">[</span><span class="p" data-group-id="5155297734-33">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-33">}</span><span class="p" data-group-id="5155297734-32">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-34">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-34">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="w">         </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dense_1</span><span class="w"> </span><span class="p" data-group-id="1925408140-35">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="1925408140-36">[</span><span class="s">&quot;dropout_0&quot;</span><span class="p" data-group-id="1925408140-36">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-35">)</span><span class="w">        </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-37">[</span><span class="p" data-group-id="1925408140-38">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="1925408140-38">}</span><span class="p" data-group-id="1925408140-37">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-39">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="1925408140-39">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-40">[</span><span class="mi">128</span><span class="p" data-group-id="1925408140-40">]</span><span class="p" data-group-id="1925408140-41">[</span><span class="mi">64</span><span class="p" data-group-id="1925408140-41">]</span><span class="w">  </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-42">[</span><span class="mi">64</span><span class="p" data-group-id="1925408140-42">]</span><span class="w">         </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dense_1</span><span class="w"> </span><span class="p" data-group-id="5155297734-35">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="5155297734-36">[</span><span class="s">&quot;dropout_0&quot;</span><span class="p" data-group-id="5155297734-36">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-35">)</span><span class="w">        </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-37">[</span><span class="p" data-group-id="5155297734-38">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5155297734-38">}</span><span class="p" data-group-id="5155297734-37">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-39">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="5155297734-39">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-40">[</span><span class="mi">128</span><span class="p" data-group-id="5155297734-40">]</span><span class="p" data-group-id="5155297734-41">[</span><span class="mi">64</span><span class="p" data-group-id="5155297734-41">]</span><span class="w">  </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-42">[</span><span class="mi">64</span><span class="p" data-group-id="5155297734-42">]</span><span class="w">         </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">tanh_0</span><span class="w"> </span><span class="p" data-group-id="1925408140-43">(</span><span class="w"> </span><span class="n">tanh</span><span class="p" data-group-id="1925408140-44">[</span><span class="s">&quot;dense_1&quot;</span><span class="p" data-group-id="1925408140-44">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-43">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-45">[</span><span class="p" data-group-id="1925408140-46">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="1925408140-46">}</span><span class="p" data-group-id="1925408140-45">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-47">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="1925408140-47">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">tanh_0</span><span class="w"> </span><span class="p" data-group-id="5155297734-43">(</span><span class="w"> </span><span class="n">tanh</span><span class="p" data-group-id="5155297734-44">[</span><span class="s">&quot;dense_1&quot;</span><span class="p" data-group-id="5155297734-44">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-43">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-45">[</span><span class="p" data-group-id="5155297734-46">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="5155297734-46">}</span><span class="p" data-group-id="5155297734-45">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-47">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="5155297734-47">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dense_2</span><span class="w"> </span><span class="p" data-group-id="1925408140-48">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="1925408140-49">[</span><span class="s">&quot;tanh_0&quot;</span><span class="p" data-group-id="1925408140-49">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-48">)</span><span class="w">           </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-50">[</span><span class="p" data-group-id="1925408140-51">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="1925408140-51">}</span><span class="p" data-group-id="1925408140-50">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-52">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="1925408140-52">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-53">[</span><span class="mi">64</span><span class="p" data-group-id="1925408140-53">]</span><span class="p" data-group-id="1925408140-54">[</span><span class="mi">10</span><span class="p" data-group-id="1925408140-54">]</span><span class="w">   </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="1925408140-55">[</span><span class="mi">10</span><span class="p" data-group-id="1925408140-55">]</span><span class="w">         </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dense_2</span><span class="w"> </span><span class="p" data-group-id="5155297734-48">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="5155297734-49">[</span><span class="s">&quot;tanh_0&quot;</span><span class="p" data-group-id="5155297734-49">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-48">)</span><span class="w">           </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-50">[</span><span class="p" data-group-id="5155297734-51">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="5155297734-51">}</span><span class="p" data-group-id="5155297734-50">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-52">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5155297734-52">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-53">[</span><span class="mi">64</span><span class="p" data-group-id="5155297734-53">]</span><span class="p" data-group-id="5155297734-54">[</span><span class="mi">10</span><span class="p" data-group-id="5155297734-54">]</span><span class="w">   </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="5155297734-55">[</span><span class="mi">10</span><span class="p" data-group-id="5155297734-55">]</span><span class="w">         </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">softmax_0</span><span class="w"> </span><span class="p" data-group-id="1925408140-56">(</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="1925408140-57">[</span><span class="s">&quot;dense_2&quot;</span><span class="p" data-group-id="1925408140-57">]</span><span class="w"> </span><span class="p" data-group-id="1925408140-56">)</span><span class="w">      </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-58">[</span><span class="p" data-group-id="1925408140-59">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="1925408140-59">}</span><span class="p" data-group-id="1925408140-58">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="1925408140-60">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="1925408140-60">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">softmax_0</span><span class="w"> </span><span class="p" data-group-id="5155297734-56">(</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="5155297734-57">[</span><span class="s">&quot;dense_2&quot;</span><span class="p" data-group-id="5155297734-57">]</span><span class="w"> </span><span class="p" data-group-id="5155297734-56">)</span><span class="w">      </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-58">[</span><span class="p" data-group-id="5155297734-59">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5155297734-59">}</span><span class="p" data-group-id="5155297734-58">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="5155297734-60">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5155297734-60">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span></code></pre><h3 id="module-multiple-inputs" class="section-heading">
   <a href="#module-multiple-inputs" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">multiple-inputs</p>
@@ -179,28 +179,28 @@ <h1>
 <p>Creating a model with multiple inputs is as easy as declaring an
 additional input in your Axon graph. Every input layer present in
 the final Axon graph will be required to be passed as input at the
-time of model execution.</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6311997590-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6311997590-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6311997590-2">}</span><span class="p" data-group-id="6311997590-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6311997590-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6311997590-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6311997590-4">}</span><span class="p" data-group-id="6311997590-3">)</span><span class="w">
+time of model execution.</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2652289179-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2652289179-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2652289179-2">}</span><span class="p" data-group-id="2652289179-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2652289179-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2652289179-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2652289179-4">}</span><span class="p" data-group-id="2652289179-3">)</span><span class="w">
 
 </span><span class="c1"># Both inputs will be used</span><span class="w">
-</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6311997590-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="6311997590-5">)</span><span class="w">
+</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="2652289179-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="2652289179-5">)</span><span class="w">
 
 </span><span class="c1"># Only inp2 will be used</span><span class="w">
-</span><span class="n">model2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6311997590-6">(</span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="6311997590-6">)</span></code></pre><p>Axon graphs are immutable, which means composing and manipulating
+</span><span class="n">model2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="2652289179-6">(</span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="2652289179-6">)</span></code></pre><p>Axon graphs are immutable, which means composing and manipulating
 an Axon graph creates an entirely new graph. Additionally, layer
 names are lazily generated at model execution time. To avoid
 non-deterministic input orderings and names, Axon requires each
 input to have a unique binary identifier. You can then reference
-inputs by name when passing to models at execution time:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0512993007-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0512993007-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0512993007-2">}</span><span class="p" data-group-id="0512993007-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0512993007-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0512993007-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0512993007-4">}</span><span class="p" data-group-id="0512993007-3">)</span><span class="w">
+inputs by name when passing to models at execution time:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8395584168-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8395584168-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8395584168-2">}</span><span class="p" data-group-id="8395584168-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8395584168-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8395584168-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8395584168-4">}</span><span class="p" data-group-id="8395584168-3">)</span><span class="w">
 
-</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="0512993007-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="0512993007-5">)</span><span class="w">
+</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="8395584168-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="8395584168-5">)</span><span class="w">
 
-</span><span class="p" data-group-id="0512993007-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0512993007-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0512993007-7">(</span><span class="n">model1</span><span class="p" data-group-id="0512993007-7">)</span><span class="w">
+</span><span class="p" data-group-id="8395584168-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8395584168-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8395584168-7">(</span><span class="n">model1</span><span class="p" data-group-id="8395584168-7">)</span><span class="w">
 
-</span><span class="n">params1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0512993007-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0512993007-9">(</span><span class="p" data-group-id="0512993007-10">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0512993007-10">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0512993007-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0512993007-11">}</span><span class="p" data-group-id="0512993007-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0512993007-12">%{</span><span class="p" data-group-id="0512993007-12">}</span><span class="p" data-group-id="0512993007-8">)</span><span class="w">
+</span><span class="n">params1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8395584168-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8395584168-9">(</span><span class="p" data-group-id="8395584168-10">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8395584168-10">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8395584168-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8395584168-11">}</span><span class="p" data-group-id="8395584168-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8395584168-12">%{</span><span class="p" data-group-id="8395584168-12">}</span><span class="p" data-group-id="8395584168-8">)</span><span class="w">
 </span><span class="c1"># Inputs are referenced by name</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0512993007-13">(</span><span class="n">params1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0512993007-14">%{</span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="0512993007-14">}</span><span class="p" data-group-id="0512993007-13">)</span></code></pre><h3 id="module-multiple-outputs" class="section-heading">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8395584168-13">(</span><span class="n">params1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8395584168-14">%{</span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="8395584168-14">}</span><span class="p" data-group-id="8395584168-13">)</span></code></pre><h3 id="module-multiple-outputs" class="section-heading">
   <a href="#module-multiple-outputs" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">multiple-outputs</p>
   </a>
@@ -208,13 +208,13 @@ <h1>
 </h3>
 <p>Nx offers robust <a href="https://hexdocs.pm/nx/Nx.Container.html">container</a> support
 which is extended to Axon. Axon allows you to wrap any valid Nx container
-in a layer. Containers are most commonly used to structure outputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6681283749-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6681283749-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6681283749-2">}</span><span class="p" data-group-id="6681283749-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6681283749-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6681283749-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6681283749-4">}</span><span class="p" data-group-id="6681283749-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="6681283749-5">(</span><span class="p" data-group-id="6681283749-6">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="6681283749-6">}</span><span class="p" data-group-id="6681283749-5">)</span></code></pre><p>Containers can be arbitrarily nested:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1657888555-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1657888555-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1657888555-2">}</span><span class="p" data-group-id="1657888555-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1657888555-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1657888555-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1657888555-4">}</span><span class="p" data-group-id="1657888555-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="1657888555-5">(</span><span class="p" data-group-id="1657888555-6">{</span><span class="p" data-group-id="1657888555-7">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1657888555-8">{</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1657888555-9">%{</span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="1657888555-9">}</span><span class="p" data-group-id="1657888555-8">}</span><span class="p" data-group-id="1657888555-7">}</span><span class="p" data-group-id="1657888555-6">}</span><span class="p" data-group-id="1657888555-5">)</span></code></pre><p>You can even use custom structs which implement the container protocol:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0781016449-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0781016449-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0781016449-2">}</span><span class="p" data-group-id="0781016449-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0781016449-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0781016449-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0781016449-4">}</span><span class="p" data-group-id="0781016449-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0781016449-5">(</span><span class="p" data-group-id="0781016449-6">%</span><span class="nc" data-group-id="0781016449-6">MyStruct</span><span class="p" data-group-id="0781016449-6">{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="0781016449-6">}</span><span class="p" data-group-id="0781016449-5">)</span></code></pre><h3 id="module-custom-layers" class="section-heading">
+in a layer. Containers are most commonly used to structure outputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8820241115-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8820241115-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8820241115-2">}</span><span class="p" data-group-id="8820241115-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8820241115-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8820241115-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8820241115-4">}</span><span class="p" data-group-id="8820241115-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="8820241115-5">(</span><span class="p" data-group-id="8820241115-6">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="8820241115-6">}</span><span class="p" data-group-id="8820241115-5">)</span></code></pre><p>Containers can be arbitrarily nested:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3185965194-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3185965194-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3185965194-2">}</span><span class="p" data-group-id="3185965194-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3185965194-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3185965194-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3185965194-4">}</span><span class="p" data-group-id="3185965194-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="3185965194-5">(</span><span class="p" data-group-id="3185965194-6">{</span><span class="p" data-group-id="3185965194-7">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3185965194-8">{</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3185965194-9">%{</span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="3185965194-9">}</span><span class="p" data-group-id="3185965194-8">}</span><span class="p" data-group-id="3185965194-7">}</span><span class="p" data-group-id="3185965194-6">}</span><span class="p" data-group-id="3185965194-5">)</span></code></pre><p>You can even use custom structs which implement the container protocol:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0381274099-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0381274099-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0381274099-2">}</span><span class="p" data-group-id="0381274099-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0381274099-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0381274099-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0381274099-4">}</span><span class="p" data-group-id="0381274099-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0381274099-5">(</span><span class="p" data-group-id="0381274099-6">%</span><span class="nc" data-group-id="0381274099-6">MyStruct</span><span class="p" data-group-id="0381274099-6">{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="0381274099-6">}</span><span class="p" data-group-id="0381274099-5">)</span></code></pre><h3 id="module-custom-layers" class="section-heading">
   <a href="#module-custom-layers" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">custom-layers</p>
   </a>
@@ -225,18 +225,18 @@ <h1>
 layers (aside from special ones such as <code class="inline">input</code>, <code class="inline">constant</code>, and <code class="inline">container</code>)
 make use of this same API.</p><p>Axon layers are really just placeholders for Nx computations with trainable
 parameters and possibly state. To define a custom layer, you just need to
-define a <code class="inline">defn</code> implementation:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="1253091266-1">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="err">\</span><span class="w"> </span><span class="p" data-group-id="1253091266-2">[</span><span class="p" data-group-id="1253091266-2">]</span><span class="p" data-group-id="1253091266-1">)</span><span class="w"> </span><span class="k" data-group-id="1253091266-3">do</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="1253091266-4">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="1253091266-4">)</span><span class="w">
-</span><span class="k" data-group-id="1253091266-3">end</span></code></pre><p>Notice the only stipulation is that your custom layer implementation must
+define a <code class="inline">defn</code> implementation:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="3639047716-1">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="err">\</span><span class="w"> </span><span class="p" data-group-id="3639047716-2">[</span><span class="p" data-group-id="3639047716-2">]</span><span class="p" data-group-id="3639047716-1">)</span><span class="w"> </span><span class="k" data-group-id="3639047716-3">do</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="3639047716-4">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="3639047716-4">)</span><span class="w">
+</span><span class="k" data-group-id="3639047716-3">end</span></code></pre><p>Notice the only stipulation is that your custom layer implementation must
 accept at least 1 input and a list of options. At execution time, every
 layer will be passed a <code class="inline">:mode</code> option which can be used to control behavior
 at training and inference time.</p><p>Inputs to your custom layer can be either Axon graph inputs or trainable
 parameters. You can pass Axon graph inputs as-is to a custom layer. To
-declare trainable parameters, use <a href="#param/3"><code class="inline">Axon.param/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="0445625929-1">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="0445625929-1">)</span></code></pre><p>To create a custom layer, you &quot;wrap&quot; your implementation and inputs into
-a layer using <code class="inline">Axon.layer</code>. You'll notice the API mirrors Elixir's <code class="inline">apply</code>:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">atan2_layer</span><span class="p" data-group-id="7281933730-1">(</span><span class="p" data-group-id="7281933730-2">%</span><span class="nc" data-group-id="7281933730-2">Axon</span><span class="p" data-group-id="7281933730-2">{</span><span class="p" data-group-id="7281933730-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="7281933730-1">)</span><span class="w"> </span><span class="k" data-group-id="7281933730-3">do</span><span class="w">
-  </span><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="7281933730-4">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="7281933730-4">)</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="7281933730-5">(</span><span class="o">&amp;</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7281933730-6">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="7281933730-6">]</span><span class="p" data-group-id="7281933730-5">)</span><span class="w">
-</span><span class="k" data-group-id="7281933730-3">end</span></code></pre><h2 id="module-model-execution" class="section-heading">
+declare trainable parameters, use <a href="#param/3"><code class="inline">Axon.param/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="6592694249-1">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="6592694249-1">)</span></code></pre><p>To create a custom layer, you &quot;wrap&quot; your implementation and inputs into
+a layer using <code class="inline">Axon.layer</code>. You'll notice the API mirrors Elixir's <code class="inline">apply</code>:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">atan2_layer</span><span class="p" data-group-id="1409424223-1">(</span><span class="p" data-group-id="1409424223-2">%</span><span class="nc" data-group-id="1409424223-2">Axon</span><span class="p" data-group-id="1409424223-2">{</span><span class="p" data-group-id="1409424223-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="1409424223-1">)</span><span class="w"> </span><span class="k" data-group-id="1409424223-3">do</span><span class="w">
+  </span><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="1409424223-4">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="1409424223-4">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="1409424223-5">(</span><span class="o">&amp;</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1409424223-6">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="1409424223-6">]</span><span class="p" data-group-id="1409424223-5">)</span><span class="w">
+</span><span class="k" data-group-id="1409424223-3">end</span></code></pre><h2 id="module-model-execution" class="section-heading">
   <a href="#module-model-execution" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">model-execution</p>
   </a>
@@ -245,16 +245,16 @@ <h1>
 <p>Under the hood, Axon models are represented as Elixir structs. You
 can initialize and apply models by building or compiling them with
 <a href="#build/2"><code class="inline">Axon.build/2</code></a> or <a href="#compile/4"><code class="inline">Axon.compile/4</code></a> and then calling the produced
-initialization and predict functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7437675204-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7437675204-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7437675204-2">(</span><span class="n">model</span><span class="p" data-group-id="7437675204-2">)</span><span class="w">
+initialization and predict functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1989694008-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="1989694008-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="1989694008-2">(</span><span class="n">model</span><span class="p" data-group-id="1989694008-2">)</span><span class="w">
 
-</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7437675204-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="7437675204-4">(</span><span class="p" data-group-id="7437675204-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7437675204-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7437675204-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7437675204-6">}</span><span class="p" data-group-id="7437675204-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7437675204-7">%{</span><span class="p" data-group-id="7437675204-7">}</span><span class="p" data-group-id="7437675204-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7437675204-8">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7437675204-8">)</span></code></pre><p>You may either set the default JIT compiler or backend globally, or
-pass a specific compiler to <a href="#build/2"><code class="inline">Axon.build/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">EXLA</span><span class="o">.</span><span class="n">set_as_nx_default</span><span class="p" data-group-id="7577218370-1">(</span><span class="p" data-group-id="7577218370-2">[</span><span class="ss">:tpu</span><span class="p">,</span><span class="w"> </span><span class="ss">:cuda</span><span class="p">,</span><span class="w"> </span><span class="ss">:rocm</span><span class="p">,</span><span class="w"> </span><span class="ss">:host</span><span class="p" data-group-id="7577218370-2">]</span><span class="p" data-group-id="7577218370-1">)</span><span class="w">
+</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1989694008-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1989694008-4">(</span><span class="p" data-group-id="1989694008-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1989694008-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1989694008-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1989694008-6">}</span><span class="p" data-group-id="1989694008-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1989694008-7">%{</span><span class="p" data-group-id="1989694008-7">}</span><span class="p" data-group-id="1989694008-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="1989694008-8">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="1989694008-8">)</span></code></pre><p>You may either set the default JIT compiler or backend globally, or
+pass a specific compiler to <a href="#build/2"><code class="inline">Axon.build/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">EXLA</span><span class="o">.</span><span class="n">set_as_nx_default</span><span class="p" data-group-id="3112828156-1">(</span><span class="p" data-group-id="3112828156-2">[</span><span class="ss">:tpu</span><span class="p">,</span><span class="w"> </span><span class="ss">:cuda</span><span class="p">,</span><span class="w"> </span><span class="ss">:rocm</span><span class="p">,</span><span class="w"> </span><span class="ss">:host</span><span class="p" data-group-id="3112828156-2">]</span><span class="p" data-group-id="3112828156-1">)</span><span class="w">
 
-</span><span class="p" data-group-id="7577218370-3">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7577218370-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7577218370-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="7577218370-4">)</span><span class="w">
+</span><span class="p" data-group-id="3112828156-3">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3112828156-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3112828156-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="3112828156-4">)</span><span class="w">
 
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7577218370-5">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="7577218370-6">(</span><span class="p" data-group-id="7577218370-7">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7577218370-7">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7577218370-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7577218370-8">}</span><span class="p" data-group-id="7577218370-6">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7577218370-9">%{</span><span class="p" data-group-id="7577218370-9">}</span><span class="p" data-group-id="7577218370-5">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7577218370-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7577218370-10">)</span></code></pre><p><code class="inline">predict_fn</code> by default runs in inference mode, which performs certain
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3112828156-5">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3112828156-6">(</span><span class="p" data-group-id="3112828156-7">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3112828156-7">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3112828156-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3112828156-8">}</span><span class="p" data-group-id="3112828156-6">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3112828156-9">%{</span><span class="p" data-group-id="3112828156-9">}</span><span class="p" data-group-id="3112828156-5">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3112828156-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="3112828156-10">)</span></code></pre><p><code class="inline">predict_fn</code> by default runs in inference mode, which performs certain
 optimizations and removes layers such as dropout layers. If constructing
 a training step using <a href="#predict/4"><code class="inline">Axon.predict/4</code></a> or <a href="#build/2"><code class="inline">Axon.build/2</code></a>, be sure to specify
 <code class="inline">mode: :train</code>.</p><h2 id="module-model-training" class="section-heading">
@@ -265,18 +265,18 @@ <h1>
 </h2>
 <p>Combining the Axon model creation API with the optimization and training
 APIs, you can create and train neural networks with ease:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2103119265-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2103119265-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="2103119265-2">}</span><span class="p" data-group-id="2103119265-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2103119265-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="2103119265-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer_norm</span><span class="p" data-group-id="2103119265-4">(</span><span class="p" data-group-id="2103119265-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="2103119265-5">(</span><span class="p" data-group-id="2103119265-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2103119265-6">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="2103119265-6">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9717794586-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9717794586-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="9717794586-2">}</span><span class="p" data-group-id="9717794586-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9717794586-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9717794586-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer_norm</span><span class="p" data-group-id="9717794586-4">(</span><span class="p" data-group-id="9717794586-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="9717794586-5">(</span><span class="p" data-group-id="9717794586-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9717794586-6">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="9717794586-6">)</span><span class="w">
 
 </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="w"> </span><span class="n">model</span><span class="w">
 
 </span><span class="n">model_state</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2103119265-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="2103119265-8">(</span><span class="mf">0.005</span><span class="p" data-group-id="2103119265-8">)</span><span class="p" data-group-id="2103119265-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2103119265-9">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2103119265-9">)</span></code></pre><p>See <a href="Axon.Updates.html"><code class="inline">Axon.Updates</code></a> and <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> for a more in-depth treatment of
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9717794586-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="9717794586-8">(</span><span class="mf">0.005</span><span class="p" data-group-id="9717794586-8">)</span><span class="p" data-group-id="9717794586-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9717794586-9">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9717794586-9">)</span></code></pre><p>See <a href="Axon.Updates.html"><code class="inline">Axon.Updates</code></a> and <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> for a more in-depth treatment of
 model optimization and model training.</p><h2 id="module-using-with-nx-serving" class="section-heading">
   <a href="#module-using-with-nx-serving" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">using-with-nx-serving</p>
@@ -287,44 +287,44 @@ <h1>
 multiple prediction requests and run the inference for all of them at
 once. Conveniently, <a href="https://hexdocs.pm/nx/0.5.1/Nx.html"><code class="inline">Nx</code></a> already has an abstraction for this task in the
 form of <a href="https://hexdocs.pm/nx/0.5.1/Nx.Serving.html"><code class="inline">Nx.Serving</code></a>. Here's how you could define a serving for an <a href="Axon.html#content"><code class="inline">Axon</code></a>
-model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">build_serving</span><span class="p" data-group-id="8438324439-1">(</span><span class="p" data-group-id="8438324439-1">)</span><span class="w"> </span><span class="k" data-group-id="8438324439-2">do</span><span class="w">
+model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">build_serving</span><span class="p" data-group-id="8321287574-1">(</span><span class="p" data-group-id="8321287574-1">)</span><span class="w"> </span><span class="k" data-group-id="8321287574-2">do</span><span class="w">
   </span><span class="c1"># Configuration</span><span class="w">
   </span><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">4</span><span class="w">
-  </span><span class="n">defn_options</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8438324439-3">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8438324439-3">]</span><span class="w">
+  </span><span class="n">defn_options</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8321287574-3">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8321287574-3">]</span><span class="w">
 
-  </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8438324439-4">(</span><span class="w">
+  </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8321287574-4">(</span><span class="w">
     </span><span class="c1"># This function runs on the serving startup</span><span class="w">
-    </span><span class="k" data-group-id="8438324439-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="k" data-group-id="8321287574-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
       </span><span class="c1"># Build the Axon model and load params (usually from file)</span><span class="w">
-      </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">build_model</span><span class="p" data-group-id="8438324439-6">(</span><span class="p" data-group-id="8438324439-6">)</span><span class="w">
-      </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">load_params</span><span class="p" data-group-id="8438324439-7">(</span><span class="p" data-group-id="8438324439-7">)</span><span class="w">
+      </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">build_model</span><span class="p" data-group-id="8321287574-6">(</span><span class="p" data-group-id="8321287574-6">)</span><span class="w">
+      </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">load_params</span><span class="p" data-group-id="8321287574-7">(</span><span class="p" data-group-id="8321287574-7">)</span><span class="w">
 
       </span><span class="c1"># Build the prediction defn function</span><span class="w">
-      </span><span class="p" data-group-id="8438324439-8">{</span><span class="c">_init_fun</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fun</span><span class="p" data-group-id="8438324439-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8438324439-9">(</span><span class="n">model</span><span class="p" data-group-id="8438324439-9">)</span><span class="w">
+      </span><span class="p" data-group-id="8321287574-8">{</span><span class="c">_init_fun</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fun</span><span class="p" data-group-id="8321287574-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8321287574-9">(</span><span class="n">model</span><span class="p" data-group-id="8321287574-9">)</span><span class="w">
 
-      </span><span class="n">inputs_template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8438324439-10">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8438324439-11">(</span><span class="p" data-group-id="8438324439-12">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8438324439-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8438324439-11">)</span><span class="p" data-group-id="8438324439-10">}</span><span class="w">
-      </span><span class="n">template_args</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8438324439-13">[</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_template</span><span class="p" data-group-id="8438324439-14">(</span><span class="n">params</span><span class="p" data-group-id="8438324439-14">)</span><span class="p">,</span><span class="w"> </span><span class="n">inputs_template</span><span class="p" data-group-id="8438324439-13">]</span><span class="w">
+      </span><span class="n">inputs_template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8321287574-10">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8321287574-11">(</span><span class="p" data-group-id="8321287574-12">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8321287574-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8321287574-11">)</span><span class="p" data-group-id="8321287574-10">}</span><span class="w">
+      </span><span class="n">template_args</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8321287574-13">[</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_template</span><span class="p" data-group-id="8321287574-14">(</span><span class="n">params</span><span class="p" data-group-id="8321287574-14">)</span><span class="p">,</span><span class="w"> </span><span class="n">inputs_template</span><span class="p" data-group-id="8321287574-13">]</span><span class="w">
 
       </span><span class="c1"># Compile the prediction function upfront for the configured batch_size</span><span class="w">
-      </span><span class="n">predict_fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">compile</span><span class="p" data-group-id="8438324439-15">(</span><span class="n">predict_fun</span><span class="p">,</span><span class="w"> </span><span class="n">template_args</span><span class="p">,</span><span class="w"> </span><span class="n">defn_options</span><span class="p" data-group-id="8438324439-15">)</span><span class="w">
+      </span><span class="n">predict_fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">compile</span><span class="p" data-group-id="8321287574-15">(</span><span class="n">predict_fun</span><span class="p">,</span><span class="w"> </span><span class="n">template_args</span><span class="p">,</span><span class="w"> </span><span class="n">defn_options</span><span class="p" data-group-id="8321287574-15">)</span><span class="w">
 
       </span><span class="c1"># The returned function is called for every accumulated batch</span><span class="w">
-      </span><span class="k" data-group-id="8438324439-16">fn</span><span class="w"> </span><span class="n">inputs</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-        </span><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">pad</span><span class="p" data-group-id="8438324439-17">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">inputs</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="8438324439-17">)</span><span class="w">
-        </span><span class="n">predict_fun</span><span class="o">.</span><span class="p" data-group-id="8438324439-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="8438324439-18">)</span><span class="w">
-      </span><span class="k" data-group-id="8438324439-16">end</span><span class="w">
-    </span><span class="k" data-group-id="8438324439-5">end</span><span class="p">,</span><span class="w">
+      </span><span class="k" data-group-id="8321287574-16">fn</span><span class="w"> </span><span class="n">inputs</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+        </span><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">pad</span><span class="p" data-group-id="8321287574-17">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">inputs</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="8321287574-17">)</span><span class="w">
+        </span><span class="n">predict_fun</span><span class="o">.</span><span class="p" data-group-id="8321287574-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="8321287574-18">)</span><span class="w">
+      </span><span class="k" data-group-id="8321287574-16">end</span><span class="w">
+    </span><span class="k" data-group-id="8321287574-5">end</span><span class="p">,</span><span class="w">
     </span><span class="ss">batch_size</span><span class="p">:</span><span class="w"> </span><span class="n">batch_size</span><span class="w">
-  </span><span class="p" data-group-id="8438324439-4">)</span><span class="w">
-</span><span class="k" data-group-id="8438324439-2">end</span></code></pre><p>Then you would start the serving server as part of your application's
-supervision tree:</p><pre><code class="makeup elixir" translate="no"><span class="n">children</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3699432289-1">[</span><span class="w">
+  </span><span class="p" data-group-id="8321287574-4">)</span><span class="w">
+</span><span class="k" data-group-id="8321287574-2">end</span></code></pre><p>Then you would start the serving server as part of your application's
+supervision tree:</p><pre><code class="makeup elixir" translate="no"><span class="n">children</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="7541911813-1">[</span><span class="w">
   </span><span class="n">...</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3699432289-2">{</span><span class="nc">Nx.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">serving</span><span class="p">:</span><span class="w"> </span><span class="n">build_serving</span><span class="p" data-group-id="3699432289-3">(</span><span class="p" data-group-id="3699432289-3">)</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">batch_timeout</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="3699432289-2">}</span><span class="w">
-</span><span class="p" data-group-id="3699432289-1">]</span></code></pre><p>With that in place, you can now ask serving for predictions all across
+  </span><span class="p" data-group-id="7541911813-2">{</span><span class="nc">Nx.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">serving</span><span class="p">:</span><span class="w"> </span><span class="n">build_serving</span><span class="p" data-group-id="7541911813-3">(</span><span class="p" data-group-id="7541911813-3">)</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">batch_timeout</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="7541911813-2">}</span><span class="w">
+</span><span class="p" data-group-id="7541911813-1">]</span></code></pre><p>With that in place, you can now ask serving for predictions all across
 your application (controllers, live views, async jobs, etc.). Having a
-tensor input you would do:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0677354831-1">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0677354831-1">}</span><span class="w">
-</span><span class="n">batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="0677354831-2">(</span><span class="p" data-group-id="0677354831-3">[</span><span class="n">inputs</span><span class="p" data-group-id="0677354831-3">]</span><span class="p" data-group-id="0677354831-2">)</span><span class="w">
-</span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">batched_run</span><span class="p" data-group-id="0677354831-4">(</span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="0677354831-4">)</span></code></pre><p>Usually you also want to do pre/post-processing of the model input/output.
+tensor input you would do:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1986677100-1">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1986677100-1">}</span><span class="w">
+</span><span class="n">batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="1986677100-2">(</span><span class="p" data-group-id="1986677100-3">[</span><span class="n">inputs</span><span class="p" data-group-id="1986677100-3">]</span><span class="p" data-group-id="1986677100-2">)</span><span class="w">
+</span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">batched_run</span><span class="p" data-group-id="1986677100-4">(</span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="1986677100-4">)</span></code></pre><p>Usually you also want to do pre/post-processing of the model input/output.
 You could make those preparations directly before/after <a href="https://hexdocs.pm/nx/0.5.1/Nx.Serving.html#batched_run/2"><code class="inline">Nx.Serving.batched_run/2</code></a>,
 however you can also make use of <a href="https://hexdocs.pm/nx/0.5.1/Nx.Serving.html#client_preprocessing/2"><code class="inline">Nx.Serving.client_preprocessing/2</code></a> and
 <a href="https://hexdocs.pm/nx/0.5.1/Nx.Serving.html#client_postprocessing/2"><code class="inline">Nx.Serving.client_postprocessing/2</code></a> to encapsulate that logic as part of
@@ -1560,9 +1560,9 @@ <h1 class="signature" translate="no">constant(tensor, opts \\ [])</h1>
 
 <p>Adds a constant layer to the network.</p><p>Constant layers encapsulate Nx tensors in an Axon layer for ease
 of use with other Axon layers. They can be used interchangeably
-with other Axon layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6185996138-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6185996138-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6185996138-2">}</span><span class="p" data-group-id="6185996138-1">)</span><span class="w">
-</span><span class="n">my_constant</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">constant</span><span class="p" data-group-id="6185996138-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6185996138-4">(</span><span class="p" data-group-id="6185996138-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6185996138-5">}</span><span class="p" data-group-id="6185996138-4">)</span><span class="p" data-group-id="6185996138-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6185996138-6">(</span><span class="n">inp</span><span class="p">,</span><span class="w"> </span><span class="n">my_constant</span><span class="p" data-group-id="6185996138-6">)</span></code></pre><p>Constant layers will be cast according to the mixed precision policy.
+with other Axon layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0219265682-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0219265682-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0219265682-2">}</span><span class="p" data-group-id="0219265682-1">)</span><span class="w">
+</span><span class="n">my_constant</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">constant</span><span class="p" data-group-id="0219265682-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0219265682-4">(</span><span class="p" data-group-id="0219265682-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0219265682-5">}</span><span class="p" data-group-id="0219265682-4">)</span><span class="p" data-group-id="0219265682-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="0219265682-6">(</span><span class="n">inp</span><span class="p">,</span><span class="w"> </span><span class="n">my_constant</span><span class="p" data-group-id="0219265682-6">)</span></code></pre><p>Constant layers will be cast according to the mixed precision policy.
 If it's important for your constant to retain it's type during
 the computation, you will need to set the mixed precision policy to
 ignore constant layers.</p><h2 id="constant/2-options" class="section-heading">
@@ -1610,27 +1610,27 @@ <h1 class="signature" translate="no">container(container, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1658839865-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1658839865-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1658839865-2">}</span><span class="p" data-group-id="1658839865-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1658839865-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1658839865-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1658839865-4">}</span><span class="p" data-group-id="1658839865-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="1658839865-5">(</span><span class="p" data-group-id="1658839865-6">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="1658839865-6">}</span><span class="p" data-group-id="1658839865-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="1658839865-7">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">a</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">b</span><span class="p" data-group-id="1658839865-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="1658839865-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1658839865-9">%{</span><span class="p" data-group-id="1658839865-9">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1658839865-10">%{</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1658839865-11">(</span><span class="p" data-group-id="1658839865-12">[</span><span class="p" data-group-id="1658839865-13">[</span><span class="mf">1.0</span><span class="p" data-group-id="1658839865-13">]</span><span class="p" data-group-id="1658839865-12">]</span><span class="p" data-group-id="1658839865-11">)</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1658839865-14">(</span><span class="p" data-group-id="1658839865-15">[</span><span class="p" data-group-id="1658839865-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="1658839865-16">]</span><span class="p" data-group-id="1658839865-15">]</span><span class="p" data-group-id="1658839865-14">)</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="1658839865-10">}</span><span class="p" data-group-id="1658839865-8">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6165546850-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6165546850-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6165546850-2">}</span><span class="p" data-group-id="6165546850-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6165546850-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6165546850-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6165546850-4">}</span><span class="p" data-group-id="6165546850-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="6165546850-5">(</span><span class="p" data-group-id="6165546850-6">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="6165546850-6">}</span><span class="p" data-group-id="6165546850-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="6165546850-7">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">a</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">b</span><span class="p" data-group-id="6165546850-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6165546850-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6165546850-9">%{</span><span class="p" data-group-id="6165546850-9">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6165546850-10">%{</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6165546850-11">(</span><span class="p" data-group-id="6165546850-12">[</span><span class="p" data-group-id="6165546850-13">[</span><span class="mf">1.0</span><span class="p" data-group-id="6165546850-13">]</span><span class="p" data-group-id="6165546850-12">]</span><span class="p" data-group-id="6165546850-11">)</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6165546850-14">(</span><span class="p" data-group-id="6165546850-15">[</span><span class="p" data-group-id="6165546850-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="6165546850-16">]</span><span class="p" data-group-id="6165546850-15">]</span><span class="p" data-group-id="6165546850-14">)</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="6165546850-10">}</span><span class="p" data-group-id="6165546850-8">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">a</span><span class="w">
-</span><span class="p" data-group-id="1658839865-17">#</span><span class="nc" data-group-id="1658839865-17">Nx.Tensor</span><span class="p" data-group-id="1658839865-17">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1658839865-18">[</span><span class="mi">1</span><span class="p" data-group-id="1658839865-18">]</span><span class="p" data-group-id="1658839865-19">[</span><span class="mi">1</span><span class="p" data-group-id="1658839865-19">]</span><span class="w">
-  </span><span class="p" data-group-id="1658839865-20">[</span><span class="w">
-    </span><span class="p" data-group-id="1658839865-21">[</span><span class="mf">1.0</span><span class="p" data-group-id="1658839865-21">]</span><span class="w">
-  </span><span class="p" data-group-id="1658839865-20">]</span><span class="w">
-</span><span class="p" data-group-id="1658839865-17">&gt;</span><span class="w">
+</span><span class="p" data-group-id="6165546850-17">#</span><span class="nc" data-group-id="6165546850-17">Nx.Tensor</span><span class="p" data-group-id="6165546850-17">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6165546850-18">[</span><span class="mi">1</span><span class="p" data-group-id="6165546850-18">]</span><span class="p" data-group-id="6165546850-19">[</span><span class="mi">1</span><span class="p" data-group-id="6165546850-19">]</span><span class="w">
+  </span><span class="p" data-group-id="6165546850-20">[</span><span class="w">
+    </span><span class="p" data-group-id="6165546850-21">[</span><span class="mf">1.0</span><span class="p" data-group-id="6165546850-21">]</span><span class="w">
+  </span><span class="p" data-group-id="6165546850-20">]</span><span class="w">
+</span><span class="p" data-group-id="6165546850-17">&gt;</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">b</span><span class="w">
-</span><span class="p" data-group-id="1658839865-22">#</span><span class="nc" data-group-id="1658839865-22">Nx.Tensor</span><span class="p" data-group-id="1658839865-22">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1658839865-23">[</span><span class="mi">1</span><span class="p" data-group-id="1658839865-23">]</span><span class="p" data-group-id="1658839865-24">[</span><span class="mi">2</span><span class="p" data-group-id="1658839865-24">]</span><span class="w">
-  </span><span class="p" data-group-id="1658839865-25">[</span><span class="w">
-    </span><span class="p" data-group-id="1658839865-26">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="1658839865-26">]</span><span class="w">
-  </span><span class="p" data-group-id="1658839865-25">]</span><span class="w">
-</span><span class="p" data-group-id="1658839865-22">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6165546850-22">#</span><span class="nc" data-group-id="6165546850-22">Nx.Tensor</span><span class="p" data-group-id="6165546850-22">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6165546850-23">[</span><span class="mi">1</span><span class="p" data-group-id="6165546850-23">]</span><span class="p" data-group-id="6165546850-24">[</span><span class="mi">2</span><span class="p" data-group-id="6165546850-24">]</span><span class="w">
+  </span><span class="p" data-group-id="6165546850-25">[</span><span class="w">
+    </span><span class="p" data-group-id="6165546850-26">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="6165546850-26">]</span><span class="w">
+  </span><span class="p" data-group-id="6165546850-25">]</span><span class="w">
+</span><span class="p" data-group-id="6165546850-22">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="input/2">
@@ -1696,9 +1696,9 @@ <h1 class="signature" translate="no">layer(op, inputs, opts \\ [])</h1>
 to inference function except:</p><ul><li><code class="inline">:name</code> - layer name.</li><li><code class="inline">:op_name</code> - layer operation for inspection and building parameter map.</li><li><code class="inline">:mode</code> - if the layer should run only on <code class="inline">:inference</code> or <code class="inline">:train</code>. Defaults to <code class="inline">:both</code></li></ul><p>Note this means your layer should not use these as input options,
 as they will always be dropped during inference compilation.</p><p>Axon's compiler will additionally forward the following options to
 every layer at inference time:</p><ul><li><code class="inline">:mode</code> - <code class="inline">:inference</code> or <code class="inline">:train</code>. To control layer behavior
-based on inference or train time.</li></ul><p><code class="inline">op</code> is a function of the form:</p><pre><code class="makeup elixir" translate="no"><span class="n">fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4617717299-1">fn</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+based on inference or train time.</li></ul><p><code class="inline">op</code> is a function of the form:</p><pre><code class="makeup elixir" translate="no"><span class="n">fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3905788487-1">fn</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">input</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">weight</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="w">
-</span><span class="k" data-group-id="4617717299-1">end</span></code></pre>
+</span><span class="k" data-group-id="3905788487-1">end</span></code></pre>
   </section>
 </section>
 <section class="detail" id="namespace/2">
@@ -1727,13 +1727,13 @@ <h1 class="signature" translate="no">namespace(axon, name)</h1>
 of layers and offering a straightforward means for accessing
 the parameters of individual model components. A common application
 of namespaces is to use them in with a pre-trained model for
-fine-tuning:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2594347176-1">{</span><span class="n">base</span><span class="p">,</span><span class="w"> </span><span class="n">resnet_params</span><span class="p" data-group-id="2594347176-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">resnet</span><span class="p" data-group-id="2594347176-2">(</span><span class="p" data-group-id="2594347176-2">)</span><span class="w">
-</span><span class="n">base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">base</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">namespace</span><span class="p" data-group-id="2594347176-3">(</span><span class="s">&quot;resnet&quot;</span><span class="p" data-group-id="2594347176-3">)</span><span class="w">
+fine-tuning:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4085804879-1">{</span><span class="n">base</span><span class="p">,</span><span class="w"> </span><span class="n">resnet_params</span><span class="p" data-group-id="4085804879-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">resnet</span><span class="p" data-group-id="4085804879-2">(</span><span class="p" data-group-id="4085804879-2">)</span><span class="w">
+</span><span class="n">base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">base</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">namespace</span><span class="p" data-group-id="4085804879-3">(</span><span class="s">&quot;resnet&quot;</span><span class="p" data-group-id="4085804879-3">)</span><span class="w">
 
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">base</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2594347176-4">(</span><span class="mi">1</span><span class="p" data-group-id="2594347176-4">)</span><span class="w">
-</span><span class="p" data-group-id="2594347176-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="2594347176-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="2594347176-6">(</span><span class="n">model</span><span class="p" data-group-id="2594347176-6">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">base</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4085804879-4">(</span><span class="mi">1</span><span class="p" data-group-id="4085804879-4">)</span><span class="w">
+</span><span class="p" data-group-id="4085804879-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4085804879-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4085804879-6">(</span><span class="n">model</span><span class="p" data-group-id="4085804879-6">)</span><span class="w">
 
-</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2594347176-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="2594347176-8">(</span><span class="p" data-group-id="2594347176-9">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="2594347176-9">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2594347176-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2594347176-10">}</span><span class="p" data-group-id="2594347176-8">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2594347176-11">%{</span><span class="s">&quot;resnset&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">resnet_params</span><span class="p" data-group-id="2594347176-11">}</span><span class="p" data-group-id="2594347176-7">)</span></code></pre><p>Notice you can use <code class="inline">init_fn</code> in conjunction with namespaces
+</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4085804879-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4085804879-8">(</span><span class="p" data-group-id="4085804879-9">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="4085804879-9">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4085804879-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4085804879-10">}</span><span class="p" data-group-id="4085804879-8">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4085804879-11">%{</span><span class="s">&quot;resnset&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">resnet_params</span><span class="p" data-group-id="4085804879-11">}</span><span class="p" data-group-id="4085804879-7">)</span></code></pre><p>Notice you can use <code class="inline">init_fn</code> in conjunction with namespaces
 to specify which portion of a model you'd like to initialize
 from a fixed starting point.</p><p>Namespaces have fixed names, which means it's easy to run into namespace
 collisions. Re-using namespaces, re-using inner parts of a namespace,
@@ -1764,8 +1764,8 @@ <h1 class="signature" translate="no">nx(input, fun, opts \\ [])</h1>
 
 <p>Applies the given <a href="https://hexdocs.pm/nx/0.5.1/Nx.html"><code class="inline">Nx</code></a> expression to the input.</p><p>Nx layers are meant for quick applications of functions without
 trainable parameters. For example, they are useful for applying
-functions which apply accessors to containers:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0285918815-1">(</span><span class="p" data-group-id="0285918815-2">{</span><span class="n">foo</span><span class="p">,</span><span class="w"> </span><span class="n">bar</span><span class="p" data-group-id="0285918815-2">}</span><span class="p" data-group-id="0285918815-1">)</span><span class="w">
-</span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="0285918815-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">elem</span><span class="p" data-group-id="0285918815-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0285918815-4">)</span><span class="p" data-group-id="0285918815-3">)</span></code></pre><h2 id="nx/3-options" class="section-heading">
+functions which apply accessors to containers:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="4078096287-1">(</span><span class="p" data-group-id="4078096287-2">{</span><span class="n">foo</span><span class="p">,</span><span class="w"> </span><span class="n">bar</span><span class="p" data-group-id="4078096287-2">}</span><span class="p" data-group-id="4078096287-1">)</span><span class="w">
+</span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="4078096287-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">elem</span><span class="p" data-group-id="4078096287-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4078096287-4">)</span><span class="p" data-group-id="4078096287-3">)</span></code></pre><h2 id="nx/3-options" class="section-heading">
   <a href="#nx/3-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
   </a>
@@ -1796,38 +1796,38 @@ <h1 class="signature" translate="no">optional(x, opts \\ [])</h1>
   <section class="docstring">
 
 <p>Wraps an Axon model in an optional node.</p><p>By default, when an optional input is missing, all subsequent layers
-are nullified. For example, consider this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">values</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4732455932-1">(</span><span class="s">&quot;values&quot;</span><span class="p" data-group-id="4732455932-1">)</span><span class="w">
-</span><span class="n">mask</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4732455932-2">(</span><span class="s">&quot;mask&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">optional</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4732455932-2">)</span><span class="w">
+are nullified. For example, consider this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">values</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9587428819-1">(</span><span class="s">&quot;values&quot;</span><span class="p" data-group-id="9587428819-1">)</span><span class="w">
+</span><span class="n">mask</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9587428819-2">(</span><span class="s">&quot;mask&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">optional</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9587428819-2">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">values</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4732455932-3">(</span><span class="mi">10</span><span class="p" data-group-id="4732455932-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4732455932-4">(</span><span class="n">mask</span><span class="p" data-group-id="4732455932-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4732455932-5">(</span><span class="mi">1</span><span class="p" data-group-id="4732455932-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="4732455932-6">(</span><span class="p" data-group-id="4732455932-6">)</span></code></pre><p>In case the mask is not provided, the input node will resolve to
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9587428819-3">(</span><span class="mi">10</span><span class="p" data-group-id="9587428819-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="9587428819-4">(</span><span class="n">mask</span><span class="p" data-group-id="9587428819-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9587428819-5">(</span><span class="mi">1</span><span class="p" data-group-id="9587428819-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="9587428819-6">(</span><span class="p" data-group-id="9587428819-6">)</span></code></pre><p>In case the mask is not provided, the input node will resolve to
 <code class="inline">%Axon.None{}</code> and so will all the layers that depend on it. By
 using <a href="#optional/2"><code class="inline">optional/2</code></a> a layer may opt-in to receive <code class="inline">%Axon.None{}</code>.
 To fix our example, we could define a custom layer to apply the
-mask only when present</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">apply_optional_mask</span><span class="p" data-group-id="2556541679-1">(</span><span class="p" data-group-id="2556541679-2">%</span><span class="nc" data-group-id="2556541679-2">Axon</span><span class="p" data-group-id="2556541679-2">{</span><span class="p" data-group-id="2556541679-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2556541679-3">%</span><span class="nc" data-group-id="2556541679-3">Axon</span><span class="p" data-group-id="2556541679-3">{</span><span class="p" data-group-id="2556541679-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="2556541679-1">)</span><span class="w"> </span><span class="k" data-group-id="2556541679-4">do</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="2556541679-5">(</span><span class="w">
-    </span><span class="k" data-group-id="2556541679-6">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="k">case</span><span class="w"> </span><span class="n">mask</span><span class="w"> </span><span class="k" data-group-id="2556541679-7">do</span><span class="w">
-        </span><span class="p" data-group-id="2556541679-8">%</span><span class="nc" data-group-id="2556541679-8">Axon.None</span><span class="p" data-group-id="2556541679-8">{</span><span class="p" data-group-id="2556541679-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w">
-        </span><span class="n">mask</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="2556541679-9">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="2556541679-9">)</span><span class="w">
-      </span><span class="k" data-group-id="2556541679-7">end</span><span class="w">
-    </span><span class="k" data-group-id="2556541679-6">end</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2556541679-10">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">optional</span><span class="p" data-group-id="2556541679-11">(</span><span class="n">mask</span><span class="p" data-group-id="2556541679-11">)</span><span class="p" data-group-id="2556541679-10">]</span><span class="w">
-  </span><span class="p" data-group-id="2556541679-5">)</span><span class="w">
-</span><span class="k" data-group-id="2556541679-4">end</span><span class="w">
+mask only when present</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">apply_optional_mask</span><span class="p" data-group-id="6246637386-1">(</span><span class="p" data-group-id="6246637386-2">%</span><span class="nc" data-group-id="6246637386-2">Axon</span><span class="p" data-group-id="6246637386-2">{</span><span class="p" data-group-id="6246637386-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6246637386-3">%</span><span class="nc" data-group-id="6246637386-3">Axon</span><span class="p" data-group-id="6246637386-3">{</span><span class="p" data-group-id="6246637386-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="6246637386-1">)</span><span class="w"> </span><span class="k" data-group-id="6246637386-4">do</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="6246637386-5">(</span><span class="w">
+    </span><span class="k" data-group-id="6246637386-6">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="k">case</span><span class="w"> </span><span class="n">mask</span><span class="w"> </span><span class="k" data-group-id="6246637386-7">do</span><span class="w">
+        </span><span class="p" data-group-id="6246637386-8">%</span><span class="nc" data-group-id="6246637386-8">Axon.None</span><span class="p" data-group-id="6246637386-8">{</span><span class="p" data-group-id="6246637386-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w">
+        </span><span class="n">mask</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6246637386-9">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="6246637386-9">)</span><span class="w">
+      </span><span class="k" data-group-id="6246637386-7">end</span><span class="w">
+    </span><span class="k" data-group-id="6246637386-6">end</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6246637386-10">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">optional</span><span class="p" data-group-id="6246637386-11">(</span><span class="n">mask</span><span class="p" data-group-id="6246637386-11">)</span><span class="p" data-group-id="6246637386-10">]</span><span class="w">
+  </span><span class="p" data-group-id="6246637386-5">)</span><span class="w">
+</span><span class="k" data-group-id="6246637386-4">end</span><span class="w">
 
 </span><span class="c1"># ...</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">values</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2556541679-12">(</span><span class="mi">10</span><span class="p" data-group-id="2556541679-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">apply_optional_mask</span><span class="p" data-group-id="2556541679-13">(</span><span class="n">mask</span><span class="p" data-group-id="2556541679-13">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2556541679-14">(</span><span class="mi">1</span><span class="p" data-group-id="2556541679-14">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="2556541679-15">(</span><span class="p" data-group-id="2556541679-15">)</span></code></pre><h2 id="optional/2-options" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6246637386-12">(</span><span class="mi">10</span><span class="p" data-group-id="6246637386-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">apply_optional_mask</span><span class="p" data-group-id="6246637386-13">(</span><span class="n">mask</span><span class="p" data-group-id="6246637386-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6246637386-14">(</span><span class="mi">1</span><span class="p" data-group-id="6246637386-14">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="6246637386-15">(</span><span class="p" data-group-id="6246637386-15">)</span></code></pre><h2 id="optional/2-options" class="section-heading">
   <a href="#optional/2-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
   </a>
@@ -2671,7 +2671,7 @@ <h1 class="signature" translate="no">bilinear(input1, input2, units, opts \\ [])
 
   <section class="docstring">
 
-<p>Adds a bilinear layer to the network.</p><p>The bilinear layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="9325343035-1">(</span><span class="n">dot</span><span class="p" data-group-id="9325343035-2">(</span><span class="n">dot</span><span class="p" data-group-id="9325343035-3">(</span><span class="n">input1</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="9325343035-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">input2</span><span class="p" data-group-id="9325343035-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="9325343035-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
+<p>Adds a bilinear layer to the network.</p><p>The bilinear layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="2466002551-1">(</span><span class="n">dot</span><span class="p" data-group-id="2466002551-2">(</span><span class="n">dot</span><span class="p" data-group-id="2466002551-3">(</span><span class="n">input1</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="2466002551-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">input2</span><span class="p" data-group-id="2466002551-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="2466002551-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
 <code class="inline">kernel</code> and <code class="inline">bias</code> are layer parameters. <code class="inline">units</code> specifies the
 number of output units.</p><p>All dimensions but the last of <code class="inline">input1</code> and <code class="inline">input2</code> must match. The
 batch sizes of both inputs must also match or at least one must be <code class="inline">nil</code>.
@@ -2708,7 +2708,7 @@ <h1 class="signature" translate="no">dense(x, units, opts \\ [])</h1>
 
   <section class="docstring">
 
-<p>Adds a dense layer to the network.</p><p>The dense layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="4620614572-1">(</span><span class="n">dot</span><span class="p" data-group-id="4620614572-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="4620614572-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="4620614572-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
+<p>Adds a dense layer to the network.</p><p>The dense layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="6113466350-1">(</span><span class="n">dot</span><span class="p" data-group-id="6113466350-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="6113466350-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="6113466350-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
 <code class="inline">kernel</code> and <code class="inline">bias</code> are layer parameters. <code class="inline">units</code> specifies the
 number of output units.</p><p>Compiles to <a href="Axon.Layers.html#dense/4"><code class="inline">Axon.Layers.dense/4</code></a>.</p><h2 id="dense/3-options" class="section-heading">
   <a href="#dense/3-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -3639,7 +3639,7 @@ <h1 class="signature" translate="no">conv_lstm(x, hidden_state, units, opts)</h1
 
 <p>Adds a convolutional long short-term memory (LSTM) layer to the network
 with the given initial hidden state..</p><p>ConvLSTMs apply <a href="Axon.Layers.html#conv_lstm_cell/5"><code class="inline">Axon.Layers.conv_lstm_cell/5</code></a> over an entire input
-sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0979903700-1">{</span><span class="p" data-group-id="0979903700-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="0979903700-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="0979903700-1">}</span></code></pre><p>You can use the output state as the hidden state of another
+sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8250338019-1">{</span><span class="p" data-group-id="8250338019-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="8250338019-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="8250338019-1">}</span></code></pre><p>You can use the output state as the hidden state of another
 ConvLSTM layer.</p><h2 id="conv_lstm/4-options" class="section-heading">
   <a href="#conv_lstm/4-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
@@ -3726,7 +3726,7 @@ <h1 class="signature" translate="no">gru(x, hidden_state, units, opts)</h1>
 
 <p>Adds a gated recurrent unit (GRU) layer to the network with
 the given initial hidden state.</p><p>GRUs apply <a href="Axon.Layers.html#gru_cell/7"><code class="inline">Axon.Layers.gru_cell/7</code></a> over an entire input
-sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6771462765-1">{</span><span class="p" data-group-id="6771462765-2">{</span><span class="n">new_hidden</span><span class="p" data-group-id="6771462765-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="6771462765-1">}</span></code></pre><p>You can use the output state as the hidden state of another
+sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4120951135-1">{</span><span class="p" data-group-id="4120951135-2">{</span><span class="n">new_hidden</span><span class="p" data-group-id="4120951135-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="4120951135-1">}</span></code></pre><p>You can use the output state as the hidden state of another
 GRU layer.</p><h2 id="gru/4-options" class="section-heading">
   <a href="#gru/4-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
@@ -3813,7 +3813,7 @@ <h1 class="signature" translate="no">lstm(x, hidden_state, units, opts \\ [])</h
 
 <p>Adds a long short-term memory (LSTM) layer to the network
 with the given initial hidden state.</p><p>LSTMs apply <a href="Axon.Layers.html#lstm_cell/7"><code class="inline">Axon.Layers.lstm_cell/7</code></a> over an entire input
-sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5111402364-1">{</span><span class="n">output_sequence</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5111402364-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="5111402364-2">}</span><span class="p" data-group-id="5111402364-1">}</span></code></pre><p>You can use the output state as the hidden state of another
+sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7189484849-1">{</span><span class="n">output_sequence</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7189484849-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="7189484849-2">}</span><span class="p" data-group-id="7189484849-1">}</span></code></pre><p>You can use the output state as the hidden state of another
 LSTM layer.</p><h2 id="lstm/4-options" class="section-heading">
   <a href="#lstm/4-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
@@ -4244,16 +4244,16 @@ <h1 class="signature" translate="no">build(model, opts \\ [])</h1>
   <code class="inline">init_fn</code>
 </h2>
 <p>The <code class="inline">init_fn</code> receives two arguments, the input template and
-an optional map with initial parameters for layers or namespaces:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8749770687-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8749770687-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8749770687-2">(</span><span class="n">model</span><span class="p" data-group-id="8749770687-2">)</span><span class="w">
-</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8749770687-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8749770687-4">(</span><span class="p" data-group-id="8749770687-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8749770687-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8749770687-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8749770687-6">}</span><span class="p" data-group-id="8749770687-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8749770687-7">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="8749770687-7">}</span><span class="p" data-group-id="8749770687-3">)</span></code></pre><h2 id="build/2-predict_fn" class="section-heading">
+an optional map with initial parameters for layers or namespaces:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3941287940-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3941287940-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3941287940-2">(</span><span class="n">model</span><span class="p" data-group-id="3941287940-2">)</span><span class="w">
+</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3941287940-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3941287940-4">(</span><span class="p" data-group-id="3941287940-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3941287940-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3941287940-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3941287940-6">}</span><span class="p" data-group-id="3941287940-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3941287940-7">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="3941287940-7">}</span><span class="p" data-group-id="3941287940-3">)</span></code></pre><h2 id="build/2-predict_fn" class="section-heading">
   <a href="#build/2-predict_fn" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">predict_fn</p>
   </a>
   <code class="inline">predict_fn</code>
 </h2>
 <p>The <code class="inline">predict_fn</code> receives two arguments, the trained parameters
-and the actual inputs:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7164168370-1">{</span><span class="c">_init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7164168370-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7164168370-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="7164168370-2">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7164168370-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="7164168370-3">)</span></code></pre><h2 id="build/2-options" class="section-heading">
+and the actual inputs:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6129006704-1">{</span><span class="c">_init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6129006704-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6129006704-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="6129006704-2">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6129006704-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="6129006704-3">)</span></code></pre><h2 id="build/2-options" class="section-heading">
   <a href="#build/2-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
   </a>
@@ -4334,19 +4334,19 @@ <h1 class="signature" translate="no">deserialize(serialized, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1616792745-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1616792745-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1616792745-2">}</span><span class="p" data-group-id="1616792745-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1616792745-3">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_initializer</span><span class="p">:</span><span class="w"> </span><span class="ss">:zeros</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1616792745-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="1616792745-4">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="1616792745-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="1616792745-5">(</span><span class="n">model</span><span class="p" data-group-id="1616792745-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1616792745-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1616792745-7">(</span><span class="p" data-group-id="1616792745-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1616792745-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1616792745-7">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1616792745-9">%{</span><span class="p" data-group-id="1616792745-9">}</span><span class="p" data-group-id="1616792745-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">serialized</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="1616792745-10">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="1616792745-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="1616792745-11">{</span><span class="n">saved_model</span><span class="p">,</span><span class="w"> </span><span class="n">saved_params</span><span class="p" data-group-id="1616792745-11">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="1616792745-12">(</span><span class="n">serialized</span><span class="p" data-group-id="1616792745-12">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="1616792745-13">{</span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="1616792745-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="1616792745-14">(</span><span class="n">saved_model</span><span class="p" data-group-id="1616792745-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="1616792745-15">(</span><span class="n">saved_params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1616792745-16">(</span><span class="p" data-group-id="1616792745-17">[</span><span class="p" data-group-id="1616792745-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1616792745-18">]</span><span class="p" data-group-id="1616792745-17">]</span><span class="p" data-group-id="1616792745-16">)</span><span class="p" data-group-id="1616792745-15">)</span><span class="w">
-</span><span class="p" data-group-id="1616792745-19">#</span><span class="nc" data-group-id="1616792745-19">Nx.Tensor</span><span class="p" data-group-id="1616792745-19">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1616792745-20">[</span><span class="mi">1</span><span class="p" data-group-id="1616792745-20">]</span><span class="p" data-group-id="1616792745-21">[</span><span class="mi">1</span><span class="p" data-group-id="1616792745-21">]</span><span class="w">
-  </span><span class="p" data-group-id="1616792745-22">[</span><span class="w">
-    </span><span class="p" data-group-id="1616792745-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="1616792745-23">]</span><span class="w">
-  </span><span class="p" data-group-id="1616792745-22">]</span><span class="w">
-</span><span class="p" data-group-id="1616792745-19">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0927737742-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0927737742-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0927737742-2">}</span><span class="p" data-group-id="0927737742-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0927737742-3">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_initializer</span><span class="p">:</span><span class="w"> </span><span class="ss">:zeros</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0927737742-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="0927737742-4">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="0927737742-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0927737742-5">(</span><span class="n">model</span><span class="p" data-group-id="0927737742-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0927737742-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0927737742-7">(</span><span class="p" data-group-id="0927737742-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0927737742-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0927737742-7">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0927737742-9">%{</span><span class="p" data-group-id="0927737742-9">}</span><span class="p" data-group-id="0927737742-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">serialized</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="0927737742-10">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="0927737742-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="0927737742-11">{</span><span class="n">saved_model</span><span class="p">,</span><span class="w"> </span><span class="n">saved_params</span><span class="p" data-group-id="0927737742-11">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="0927737742-12">(</span><span class="n">serialized</span><span class="p" data-group-id="0927737742-12">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="0927737742-13">{</span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0927737742-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0927737742-14">(</span><span class="n">saved_model</span><span class="p" data-group-id="0927737742-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0927737742-15">(</span><span class="n">saved_params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0927737742-16">(</span><span class="p" data-group-id="0927737742-17">[</span><span class="p" data-group-id="0927737742-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0927737742-18">]</span><span class="p" data-group-id="0927737742-17">]</span><span class="p" data-group-id="0927737742-16">)</span><span class="p" data-group-id="0927737742-15">)</span><span class="w">
+</span><span class="p" data-group-id="0927737742-19">#</span><span class="nc" data-group-id="0927737742-19">Nx.Tensor</span><span class="p" data-group-id="0927737742-19">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0927737742-20">[</span><span class="mi">1</span><span class="p" data-group-id="0927737742-20">]</span><span class="p" data-group-id="0927737742-21">[</span><span class="mi">1</span><span class="p" data-group-id="0927737742-21">]</span><span class="w">
+  </span><span class="p" data-group-id="0927737742-22">[</span><span class="w">
+    </span><span class="p" data-group-id="0927737742-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="0927737742-23">]</span><span class="w">
+  </span><span class="p" data-group-id="0927737742-22">]</span><span class="w">
+</span><span class="p" data-group-id="0927737742-19">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="freeze/2">
@@ -4380,18 +4380,18 @@ <h1 class="signature" translate="no">freeze(model, fun_or_predicate \\ :all)</h1
 larger models trained on ImageNet with fresh fully-connected classifiers.
 The combined model is then trained on fresh data, with the convolutional
 base frozen so as not to lose information. You can see this example
-in code here:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="3067573287-1">(</span><span class="p" data-group-id="3067573287-1">)</span><span class="w">
+in code here:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="6127876860-1">(</span><span class="p" data-group-id="6127876860-1">)</span><span class="w">
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">cnn_base</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">freeze</span><span class="p" data-group-id="3067573287-2">(</span><span class="p" data-group-id="3067573287-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="3067573287-3">(</span><span class="p" data-group-id="3067573287-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3067573287-4">(</span><span class="mi">1024</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3067573287-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="3067573287-5">(</span><span class="p" data-group-id="3067573287-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3067573287-6">(</span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="3067573287-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">freeze</span><span class="p" data-group-id="6127876860-2">(</span><span class="p" data-group-id="6127876860-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="6127876860-3">(</span><span class="p" data-group-id="6127876860-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6127876860-4">(</span><span class="mi">1024</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6127876860-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="6127876860-5">(</span><span class="p" data-group-id="6127876860-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6127876860-6">(</span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="6127876860-6">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3067573287-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="3067573287-8">(</span><span class="mf">0.005</span><span class="p" data-group-id="3067573287-8">)</span><span class="p" data-group-id="3067573287-7">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3067573287-9">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="3067573287-9">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.5.1/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6127876860-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="6127876860-8">(</span><span class="mf">0.005</span><span class="p" data-group-id="6127876860-8">)</span><span class="p" data-group-id="6127876860-7">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6127876860-9">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="6127876860-9">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.5.1/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
 which zeros out the gradient with respect to the frozen parameter. Gradients
 of frozen parameters will return <code class="inline">0.0</code>, meaning they won't be changed during
 the update process.</p>
@@ -4466,19 +4466,19 @@ <h1 class="signature" translate="no">serialize(axon, params, opts \\ [])</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0367462431-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0367462431-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0367462431-2">}</span><span class="p" data-group-id="0367462431-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0367462431-3">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_initializer</span><span class="p">:</span><span class="w"> </span><span class="ss">:zeros</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0367462431-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="0367462431-4">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="0367462431-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0367462431-5">(</span><span class="n">model</span><span class="p" data-group-id="0367462431-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0367462431-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0367462431-7">(</span><span class="p" data-group-id="0367462431-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0367462431-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0367462431-7">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0367462431-9">%{</span><span class="p" data-group-id="0367462431-9">}</span><span class="p" data-group-id="0367462431-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">serialized</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="0367462431-10">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="0367462431-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="0367462431-11">{</span><span class="n">saved_model</span><span class="p">,</span><span class="w"> </span><span class="n">saved_params</span><span class="p" data-group-id="0367462431-11">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="0367462431-12">(</span><span class="n">serialized</span><span class="p" data-group-id="0367462431-12">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="0367462431-13">{</span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0367462431-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0367462431-14">(</span><span class="n">saved_model</span><span class="p" data-group-id="0367462431-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0367462431-15">(</span><span class="n">saved_params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0367462431-16">(</span><span class="p" data-group-id="0367462431-17">[</span><span class="p" data-group-id="0367462431-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0367462431-18">]</span><span class="p" data-group-id="0367462431-17">]</span><span class="p" data-group-id="0367462431-16">)</span><span class="p" data-group-id="0367462431-15">)</span><span class="w">
-</span><span class="p" data-group-id="0367462431-19">#</span><span class="nc" data-group-id="0367462431-19">Nx.Tensor</span><span class="p" data-group-id="0367462431-19">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0367462431-20">[</span><span class="mi">1</span><span class="p" data-group-id="0367462431-20">]</span><span class="p" data-group-id="0367462431-21">[</span><span class="mi">1</span><span class="p" data-group-id="0367462431-21">]</span><span class="w">
-  </span><span class="p" data-group-id="0367462431-22">[</span><span class="w">
-    </span><span class="p" data-group-id="0367462431-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="0367462431-23">]</span><span class="w">
-  </span><span class="p" data-group-id="0367462431-22">]</span><span class="w">
-</span><span class="p" data-group-id="0367462431-19">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3585565647-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3585565647-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3585565647-2">}</span><span class="p" data-group-id="3585565647-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3585565647-3">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_initializer</span><span class="p">:</span><span class="w"> </span><span class="ss">:zeros</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3585565647-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="3585565647-4">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="3585565647-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3585565647-5">(</span><span class="n">model</span><span class="p" data-group-id="3585565647-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3585565647-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3585565647-7">(</span><span class="p" data-group-id="3585565647-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3585565647-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3585565647-7">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3585565647-9">%{</span><span class="p" data-group-id="3585565647-9">}</span><span class="p" data-group-id="3585565647-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">serialized</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="3585565647-10">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="3585565647-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="3585565647-11">{</span><span class="n">saved_model</span><span class="p">,</span><span class="w"> </span><span class="n">saved_params</span><span class="p" data-group-id="3585565647-11">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="3585565647-12">(</span><span class="n">serialized</span><span class="p" data-group-id="3585565647-12">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="3585565647-13">{</span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3585565647-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3585565647-14">(</span><span class="n">saved_model</span><span class="p" data-group-id="3585565647-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3585565647-15">(</span><span class="n">saved_params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3585565647-16">(</span><span class="p" data-group-id="3585565647-17">[</span><span class="p" data-group-id="3585565647-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="3585565647-18">]</span><span class="p" data-group-id="3585565647-17">]</span><span class="p" data-group-id="3585565647-16">)</span><span class="p" data-group-id="3585565647-15">)</span><span class="w">
+</span><span class="p" data-group-id="3585565647-19">#</span><span class="nc" data-group-id="3585565647-19">Nx.Tensor</span><span class="p" data-group-id="3585565647-19">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3585565647-20">[</span><span class="mi">1</span><span class="p" data-group-id="3585565647-20">]</span><span class="p" data-group-id="3585565647-21">[</span><span class="mi">1</span><span class="p" data-group-id="3585565647-21">]</span><span class="w">
+  </span><span class="p" data-group-id="3585565647-22">[</span><span class="w">
+    </span><span class="p" data-group-id="3585565647-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="3585565647-23">]</span><span class="w">
+  </span><span class="p" data-group-id="3585565647-22">]</span><span class="w">
+</span><span class="p" data-group-id="3585565647-19">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="unfreeze/2">
@@ -4509,14 +4509,14 @@ <h1 class="signature" translate="no">unfreeze(model, fun_or_predicate \\ :all)</
 returns <code class="inline">true</code> if a parameter should be unfrozen or <code class="inline">false</code> otherwise.</p><p>Unfreezing parameters is useful when fine tuning a model which you
 have previously frozen and performed transfer learning on. You may
 want to unfreeze some of the later frozen layers in a model and
-fine tune them specifically for your application:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="3449533820-1">(</span><span class="p" data-group-id="3449533820-1">)</span><span class="w">
+fine tune them specifically for your application:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="6534018934-1">(</span><span class="p" data-group-id="6534018934-1">)</span><span class="w">
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">frozen_model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">unfreeze</span><span class="p" data-group-id="3449533820-2">(</span><span class="ss">up</span><span class="p">:</span><span class="w"> </span><span class="mi">25</span><span class="p" data-group-id="3449533820-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">unfreeze</span><span class="p" data-group-id="6534018934-2">(</span><span class="ss">up</span><span class="p">:</span><span class="w"> </span><span class="mi">25</span><span class="p" data-group-id="6534018934-2">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3449533820-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="3449533820-4">(</span><span class="mf">0.0005</span><span class="p" data-group-id="3449533820-4">)</span><span class="p" data-group-id="3449533820-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3449533820-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="3449533820-5">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.5.1/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6534018934-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="6534018934-4">(</span><span class="mf">0.0005</span><span class="p" data-group-id="6534018934-4">)</span><span class="p" data-group-id="6534018934-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6534018934-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="6534018934-5">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.5.1/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
 which zeros out the gradient with respect to the frozen parameter. Gradients
 of frozen parameters will return <code class="inline">0.0</code>, meaning they won't be changed during
 the update process.</p>
@@ -4583,13 +4583,13 @@ <h1 class="signature" translate="no">get_op_counts(axon)</h1>
   </a>
   Examples
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3446563150-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3446563150-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3446563150-2">}</span><span class="p" data-group-id="3446563150-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3446563150-3">(</span><span class="mi">2</span><span class="p" data-group-id="3446563150-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="3446563150-4">(</span><span class="n">model</span><span class="p" data-group-id="3446563150-4">)</span><span class="w">
-</span><span class="p" data-group-id="3446563150-5">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">dense</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3446563150-5">}</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6122706641-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6122706641-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6122706641-2">}</span><span class="p" data-group-id="6122706641-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6122706641-3">(</span><span class="mi">2</span><span class="p" data-group-id="6122706641-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="6122706641-4">(</span><span class="n">model</span><span class="p" data-group-id="6122706641-4">)</span><span class="w">
+</span><span class="p" data-group-id="6122706641-5">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">dense</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6122706641-5">}</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3446563150-6">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3446563150-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3446563150-7">}</span><span class="p" data-group-id="3446563150-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="3446563150-8">(</span><span class="p" data-group-id="3446563150-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="3446563150-9">(</span><span class="p" data-group-id="3446563150-9">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="3446563150-10">(</span><span class="n">model</span><span class="p" data-group-id="3446563150-10">)</span><span class="w">
-</span><span class="p" data-group-id="3446563150-11">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">tanh</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3446563150-11">}</span></code></pre>
+</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6122706641-6">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6122706641-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6122706641-7">}</span><span class="p" data-group-id="6122706641-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="6122706641-8">(</span><span class="p" data-group-id="6122706641-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="6122706641-9">(</span><span class="p" data-group-id="6122706641-9">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="6122706641-10">(</span><span class="n">model</span><span class="p" data-group-id="6122706641-10">)</span><span class="w">
+</span><span class="p" data-group-id="6122706641-11">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">tanh</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6122706641-11">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="get_options/1">
@@ -4698,24 +4698,24 @@ <h1 class="signature" translate="no">map_nodes(axon, fun)</h1>
 instrumentation between layers without needing to build
 a new explicitly instrumented version of a model. For example,
 you can use this function to visualize intermediate activations
-of all convolutional layers in a model:</p><pre><code class="makeup elixir" translate="no"><span class="n">instrumented_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="w">  </span><span class="p" data-group-id="2879885511-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="2879885511-2">fn</span><span class="w">
-  </span><span class="p" data-group-id="2879885511-3">%</span><span class="nc" data-group-id="2879885511-3">Axon</span><span class="p" data-group-id="2879885511-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:conv</span><span class="p" data-group-id="2879885511-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="2879885511-4">(</span><span class="n">graph</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">visualize_activations</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2879885511-4">)</span><span class="w">
+of all convolutional layers in a model:</p><pre><code class="makeup elixir" translate="no"><span class="n">instrumented_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="w">  </span><span class="p" data-group-id="0115125212-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0115125212-2">fn</span><span class="w">
+  </span><span class="p" data-group-id="0115125212-3">%</span><span class="nc" data-group-id="0115125212-3">Axon</span><span class="p" data-group-id="0115125212-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:conv</span><span class="p" data-group-id="0115125212-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0115125212-4">(</span><span class="n">graph</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">visualize_activations</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0115125212-4">)</span><span class="w">
 
   </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="n">graph</span><span class="w">
-</span><span class="k" data-group-id="2879885511-2">end</span><span class="p" data-group-id="2879885511-1">)</span></code></pre><p>Another use case is to replace entire classes of layers
+</span><span class="k" data-group-id="0115125212-2">end</span><span class="p" data-group-id="0115125212-1">)</span></code></pre><p>Another use case is to replace entire classes of layers
 with another. For example, you may want to replace all
-relu layers with tanh layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">new_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">map_nodes</span><span class="p" data-group-id="6607975185-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="6607975185-2">fn</span><span class="w">
-  </span><span class="p" data-group-id="6607975185-3">%</span><span class="nc" data-group-id="6607975185-3">Axon</span><span class="p" data-group-id="6607975185-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6607975185-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+relu layers with tanh layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">new_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">map_nodes</span><span class="p" data-group-id="6658999051-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="6658999051-2">fn</span><span class="w">
+  </span><span class="p" data-group-id="6658999051-3">%</span><span class="nc" data-group-id="6658999051-3">Axon</span><span class="p" data-group-id="6658999051-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6658999051-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="c1"># Get nodes immediate parent</span><span class="w">
-    </span><span class="n">parent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_parent</span><span class="p" data-group-id="6607975185-4">(</span><span class="n">graph</span><span class="p" data-group-id="6607975185-4">)</span><span class="w">
+    </span><span class="n">parent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_parent</span><span class="p" data-group-id="6658999051-4">(</span><span class="n">graph</span><span class="p" data-group-id="6658999051-4">)</span><span class="w">
     </span><span class="c1"># Replace node with a tanh</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="6607975185-5">(</span><span class="n">parent</span><span class="p" data-group-id="6607975185-5">)</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="6658999051-5">(</span><span class="n">parent</span><span class="p" data-group-id="6658999051-5">)</span><span class="w">
 
   </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="n">graph</span><span class="w">
-</span><span class="k" data-group-id="6607975185-2">end</span><span class="p" data-group-id="6607975185-1">)</span></code></pre>
+</span><span class="k" data-group-id="6658999051-2">end</span><span class="p" data-group-id="6658999051-1">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="pop_node/1">
@@ -4737,7 +4737,7 @@ <h1 class="signature" translate="no">pop_node(axon)</h1>
 
   <section class="docstring">
 
-<p>Pops the top node off of the graph.</p><p>This returns the popped node and the updated graph:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1179475524-1">{</span><span class="c">_node</span><span class="p">,</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="1179475524-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">pop_node</span><span class="p" data-group-id="1179475524-2">(</span><span class="n">model</span><span class="p" data-group-id="1179475524-2">)</span></code></pre>
+<p>Pops the top node off of the graph.</p><p>This returns the popped node and the updated graph:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5747226185-1">{</span><span class="c">_node</span><span class="p">,</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="5747226185-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">pop_node</span><span class="p" data-group-id="5747226185-2">(</span><span class="n">model</span><span class="p" data-group-id="5747226185-2">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="reduce_nodes/3">
@@ -4771,10 +4771,10 @@ <h1 class="signature" translate="no">reduce_nodes(axon, acc, fun)</h1>
 </h2>
 <p>Internally this function is used in several places to accumulate
 graph metadata. For example, you can use it to count the number
-of a certain type of operation in the graph:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">reduce_nodes</span><span class="p" data-group-id="7406698422-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="7406698422-2">fn</span><span class="w">
-  </span><span class="p" data-group-id="7406698422-3">%</span><span class="nc" data-group-id="7406698422-3">Axon.Nodes</span><span class="p" data-group-id="7406698422-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7406698422-3">}</span><span class="p">,</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w">
+of a certain type of operation in the graph:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">reduce_nodes</span><span class="p" data-group-id="1381568751-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1381568751-2">fn</span><span class="w">
+  </span><span class="p" data-group-id="1381568751-3">%</span><span class="nc" data-group-id="1381568751-3">Axon.Nodes</span><span class="p" data-group-id="1381568751-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1381568751-3">}</span><span class="p">,</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w">
   </span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">acc</span><span class="w">
-</span><span class="k" data-group-id="7406698422-2">end</span><span class="p" data-group-id="7406698422-1">)</span></code></pre>
+</span><span class="k" data-group-id="1381568751-2">end</span><span class="p" data-group-id="1381568751-1">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="set_options/2">
@@ -4867,20 +4867,20 @@ <h1 class="signature" translate="no">attach_hook(axon, fun, opts \\ [])</h1>
 <p>Attaches a hook to the given Axon model.</p><p>Hooks compile down to <a href="https://hexdocs.pm/nx/0.5.1/Nx.Defn.Kernel.html#hook/3"><code class="inline">Nx.Defn.Kernel.hook/3</code></a> and provide the same
 functionality for adding side-effecting operations to a compiled
 model. For example, you can use hooks to inspect intermediate activations,
-send data to an external service, and more.</p><p>Hooks can be configured to be invoked on the following events:</p><ul><li><code class="inline">:initialize</code> - on model initialization.</li><li><code class="inline">:pre_forward</code> - before layer forward pass is invoked.</li><li><code class="inline">:forward</code> - after layer forward pass is invoked.</li><li><code class="inline">:backward</code> - after layer backward pass is invoked.</li></ul><p>To invoke a hook on every single event, you may pass <code class="inline">:all</code> to <code class="inline">on:</code>.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7519879202-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7519879202-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7519879202-2">}</span><span class="p" data-group-id="7519879202-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="7519879202-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="7519879202-3">)</span></code></pre><p>The default event is <code class="inline">:forward</code>, assuming you want a hook invoked
+send data to an external service, and more.</p><p>Hooks can be configured to be invoked on the following events:</p><ul><li><code class="inline">:initialize</code> - on model initialization.</li><li><code class="inline">:pre_forward</code> - before layer forward pass is invoked.</li><li><code class="inline">:forward</code> - after layer forward pass is invoked.</li><li><code class="inline">:backward</code> - after layer backward pass is invoked.</li></ul><p>To invoke a hook on every single event, you may pass <code class="inline">:all</code> to <code class="inline">on:</code>.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3549847013-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3549847013-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3549847013-2">}</span><span class="p" data-group-id="3549847013-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="3549847013-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="3549847013-3">)</span></code></pre><p>The default event is <code class="inline">:forward</code>, assuming you want a hook invoked
 on the layers forward pass.</p><p>You may configure hooks to run in one of only training or inference
 mode using the <code class="inline">:mode</code> option. The default mode is <code class="inline">:both</code> to be invoked
-during both train and inference mode.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5348251235-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5348251235-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5348251235-2">}</span><span class="p" data-group-id="5348251235-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="5348251235-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="5348251235-3">)</span></code></pre><p>You can also attach multiple hooks to a single layer. Hooks are invoked in
+during both train and inference mode.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1322680201-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1322680201-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1322680201-2">}</span><span class="p" data-group-id="1322680201-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="1322680201-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="1322680201-3">)</span></code></pre><p>You can also attach multiple hooks to a single layer. Hooks are invoked in
 the order in which they are declared. If order is important, you should attach
-hooks in the order you want them to be executed:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5376023367-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5376023367-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5376023367-2">}</span><span class="p" data-group-id="5376023367-1">)</span><span class="w">
+hooks in the order you want them to be executed:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5243148777-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5243148777-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5243148777-2">}</span><span class="p" data-group-id="5243148777-1">)</span><span class="w">
 </span><span class="c1"># I will be executed first</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="5376023367-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5376023367-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="5243148777-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5243148777-3">)</span><span class="w">
 </span><span class="c1"># I will be executed second</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="5376023367-4">(</span><span class="k" data-group-id="5376023367-5">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="5376023367-6">(</span><span class="s">&quot;HERE&quot;</span><span class="p" data-group-id="5376023367-6">)</span><span class="w"> </span><span class="k" data-group-id="5376023367-5">end</span><span class="p" data-group-id="5376023367-4">)</span></code></pre><p>Hooks are executed at their point of attachment. You must insert hooks at each point
-you want a hook to execute during model execution.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6733965014-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6733965014-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6733965014-2">}</span><span class="p" data-group-id="6733965014-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="6733965014-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6733965014-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6733965014-4">(</span><span class="p" data-group-id="6733965014-4">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="6733965014-5">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6733965014-5">)</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="5243148777-4">(</span><span class="k" data-group-id="5243148777-5">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="5243148777-6">(</span><span class="s">&quot;HERE&quot;</span><span class="p" data-group-id="5243148777-6">)</span><span class="w"> </span><span class="k" data-group-id="5243148777-5">end</span><span class="p" data-group-id="5243148777-4">)</span></code></pre><p>Hooks are executed at their point of attachment. You must insert hooks at each point
+you want a hook to execute during model execution.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0896775091-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0896775091-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0896775091-2">}</span><span class="p" data-group-id="0896775091-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0896775091-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0896775091-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0896775091-4">(</span><span class="p" data-group-id="0896775091-4">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0896775091-5">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0896775091-5">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="trace_backward/5">
@@ -4984,7 +4984,7 @@ <h1 class="signature" translate="no">trace_init(model, template, params \\ %{},
 expression with the given options.</p><p>The returned expression is an Nx expression which can be
 traversed and lowered to an IR or inspected for debugging
 purposes.</p><p>You may optionally specify initial parameters for some layers or
-namespaces by passing a partial parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">trace_init</span><span class="p" data-group-id="3560942596-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3560942596-2">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="3560942596-2">}</span><span class="p" data-group-id="3560942596-1">)</span></code></pre><p>The parameter map will be merged with the initialized model
+namespaces by passing a partial parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">trace_init</span><span class="p" data-group-id="0118208905-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0118208905-2">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="0118208905-2">}</span><span class="p" data-group-id="0118208905-1">)</span></code></pre><p>The parameter map will be merged with the initialized model
 parameters.</p><h2 id="trace_init/4-options" class="section-heading">
   <a href="#trace_init/4-options" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">options</p>
diff --git a/accelerating_axon.html b/accelerating_axon.html
index fe424b21..c7f0134a 100644
--- a/accelerating_axon.html
+++ b/accelerating_axon.html
@@ -115,81 +115,81 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3987340091-1">(</span><span class="p" data-group-id="3987340091-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3987340091-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="3987340091-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3987340091-4">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;exla&quot;</span><span class="p" data-group-id="3987340091-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3987340091-5">{</span><span class="ss">:torchx</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;torchx&quot;</span><span class="p" data-group-id="3987340091-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3987340091-6">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3987340091-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3987340091-7">{</span><span class="ss">:benchee</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;akoutmos/benchee&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">branch</span><span class="p">:</span><span class="w"> </span><span class="ss">:adding_table_support</span><span class="p" data-group-id="3987340091-7">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3987340091-8">{</span><span class="ss">:kino_benchee</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;livebook-dev/kino_benchee&quot;</span><span class="p" data-group-id="3987340091-8">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3987340091-9">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3987340091-9">}</span><span class="w">
-</span><span class="p" data-group-id="3987340091-2">]</span><span class="p" data-group-id="3987340091-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-nx-compilers-in-axon" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1764108109-1">(</span><span class="p" data-group-id="1764108109-2">[</span><span class="w">
+  </span><span class="p" data-group-id="1764108109-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="1764108109-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1764108109-4">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;exla&quot;</span><span class="p" data-group-id="1764108109-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1764108109-5">{</span><span class="ss">:torchx</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;torchx&quot;</span><span class="p" data-group-id="1764108109-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1764108109-6">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1764108109-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1764108109-7">{</span><span class="ss">:benchee</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;akoutmos/benchee&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">branch</span><span class="p">:</span><span class="w"> </span><span class="ss">:adding_table_support</span><span class="p" data-group-id="1764108109-7">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1764108109-8">{</span><span class="ss">:kino_benchee</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;livebook-dev/kino_benchee&quot;</span><span class="p" data-group-id="1764108109-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1764108109-9">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1764108109-9">}</span><span class="w">
+</span><span class="p" data-group-id="1764108109-2">]</span><span class="p" data-group-id="1764108109-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-nx-compilers-in-axon" class="section-heading">
   <a href="#using-nx-compilers-in-axon" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">using-nx-compilers-in-axon</p>
   </a>
   Using Nx Compilers in Axon
 </h2>
 <p>Axon is built entirely on top of Nx's numerical definitions <code class="inline">defn</code>. Functions declared with <code class="inline">defn</code> tell Nx to use <em>just-in-time compilation</em> to compile and execute the given numerical definition with an available Nx compiler. Numerical definitions enable acceleration on CPU/GPU/TPU via pluggable compilers. At the time of this writing, Nx has 2 officially supported compiler/backends on top of the default <code class="inline">BinaryBackend</code>:</p><ol><li>EXLA - Acceleration via Google's <a href="https://www.tensorflow.org/xla">XLA project</a></li><li>TorchX - Bindings to <a href="https://pytorch.org/cppdocs/">LibTorch</a></li></ol><p>By default, Nx and Axon run all computations using the <code class="inline">BinaryBackend</code> which is a pure Elixir implementation of various numerical routines. The <code class="inline">BinaryBackend</code> is guaranteed to run wherever an Elixir installation runs; however, it is <strong>very</strong> slow. Due to the computational expense of neural networks, you should basically never use the <code class="inline">BinaryBackend</code> and instead opt for one of the available accelerated libraries.</p><p>There are several ways to make use of Nx compilers from within Axon. First, create a simple model for benchmarking purposes:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3136810630-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3136810630-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3136810630-2">(</span><span class="mi">32</span><span class="p" data-group-id="3136810630-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3136810630-3">(</span><span class="p" data-group-id="3136810630-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3136810630-4">(</span><span class="mi">1</span><span class="p" data-group-id="3136810630-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="3136810630-5">(</span><span class="p" data-group-id="3136810630-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7332267169-1">#</span><span class="nc" data-group-id="7332267169-1">Axon</span><span class="p" data-group-id="7332267169-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7332267169-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="7332267169-2">}</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0895544312-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0895544312-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0895544312-2">(</span><span class="mi">32</span><span class="p" data-group-id="0895544312-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0895544312-3">(</span><span class="p" data-group-id="0895544312-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0895544312-4">(</span><span class="mi">1</span><span class="p" data-group-id="0895544312-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="0895544312-5">(</span><span class="p" data-group-id="0895544312-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2337712295-1">#</span><span class="nc" data-group-id="2337712295-1">Axon</span><span class="p" data-group-id="2337712295-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2337712295-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="2337712295-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;softmax_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="w">
-</span><span class="p" data-group-id="7332267169-1">&gt;</span></code></pre><p>By default, Axon will respect the default <code class="inline">defn</code> compilation options. You can set compilation options globally or per-process:</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Sets the global compilation options</span><span class="w">
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="4829223542-1">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4829223542-1">)</span><span class="w">
+</span><span class="p" data-group-id="2337712295-1">&gt;</span></code></pre><p>By default, Axon will respect the default <code class="inline">defn</code> compilation options. You can set compilation options globally or per-process:</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Sets the global compilation options</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="4415780053-1">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4415780053-1">)</span><span class="w">
 </span><span class="c1"># Sets the process-level compilation options</span><span class="w">
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="4829223542-2">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4829223542-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1449707613-1">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1449707613-1">]</span></code></pre><p>When you call <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>, Axon automatically marks your initialization and forward functions as JIT compiled functions. When you invoke them, they will compile a specialized version of the function using your default compiler options:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="7162908536-1">(</span><span class="p" data-group-id="7162908536-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7162908536-2">}</span><span class="p" data-group-id="7162908536-1">)</span><span class="w">
-</span><span class="p" data-group-id="7162908536-3">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7162908536-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7162908536-4">(</span><span class="n">model</span><span class="p" data-group-id="7162908536-4">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7162908536-5">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7162908536-6">%{</span><span class="p" data-group-id="7162908536-6">}</span><span class="p" data-group-id="7162908536-5">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7162908536-7">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7162908536-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="w">
-</span><span class="mi">10</span><span class="p">:</span><span class="mi">34</span><span class="p">:</span><span class="mf">02.503</span><span class="w"> </span><span class="p" data-group-id="2277247069-1">[</span><span class="n">info</span><span class="p" data-group-id="2277247069-1">]</span><span class="w">  </span><span class="nc">XLA</span><span class="w"> </span><span class="n">service</span><span class="w"> </span><span class="mh">0x7fbd5468c170</span><span class="w"> </span><span class="n">initialized</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">platform</span><span class="w"> </span><span class="nc">Host</span><span class="w"> </span><span class="p" data-group-id="2277247069-2">(</span><span class="n">this</span><span class="w"> </span><span class="n">does</span><span class="w"> </span><span class="ow">not</span><span class="w"> </span><span class="n">guarantee</span><span class="w"> </span><span class="n">that</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">used</span><span class="p" data-group-id="2277247069-2">)</span><span class="o">.</span><span class="w"> </span><span class="ss">Devices</span><span class="p">:</span><span class="w">
-
-</span><span class="mi">10</span><span class="p">:</span><span class="mi">34</span><span class="p">:</span><span class="mf">02.785</span><span class="w"> </span><span class="p" data-group-id="2277247069-3">[</span><span class="n">info</span><span class="p" data-group-id="2277247069-3">]</span><span class="w">    </span><span class="nc">StreamExecutor</span><span class="w"> </span><span class="n">device</span><span class="w"> </span><span class="p" data-group-id="2277247069-4">(</span><span class="mi">0</span><span class="p" data-group-id="2277247069-4">)</span><span class="p">:</span><span class="w"> </span><span class="nc">Host</span><span class="p">,</span><span class="w"> </span><span class="nc">Default</span><span class="w"> </span><span class="nc">Version</span><span class="w">
-</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2056932238-1">#</span><span class="nc" data-group-id="2056932238-1">Nx.Tensor</span><span class="p" data-group-id="2056932238-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2056932238-2">[</span><span class="mi">2</span><span class="p" data-group-id="2056932238-2">]</span><span class="p" data-group-id="2056932238-3">[</span><span class="mi">1</span><span class="p" data-group-id="2056932238-3">]</span><span class="w">
-  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">host</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.184501844</span><span class="o">.</span><span class="mf">1168769032.259095</span><span class="p" data-group-id="2056932238-1">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2056932238-4">[</span><span class="w">
-    </span><span class="p" data-group-id="2056932238-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="2056932238-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2056932238-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="2056932238-6">]</span><span class="w">
-  </span><span class="p" data-group-id="2056932238-4">]</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="4415780053-2">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4415780053-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1631386293-1">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1631386293-1">]</span></code></pre><p>When you call <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>, Axon automatically marks your initialization and forward functions as JIT compiled functions. When you invoke them, they will compile a specialized version of the function using your default compiler options:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="4851272689-1">(</span><span class="p" data-group-id="4851272689-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="4851272689-2">}</span><span class="p" data-group-id="4851272689-1">)</span><span class="w">
+</span><span class="p" data-group-id="4851272689-3">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4851272689-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4851272689-4">(</span><span class="n">model</span><span class="p" data-group-id="4851272689-4">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4851272689-5">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4851272689-6">%{</span><span class="p" data-group-id="4851272689-6">}</span><span class="p" data-group-id="4851272689-5">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4851272689-7">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="4851272689-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="w">
+</span><span class="mi">10</span><span class="p">:</span><span class="mi">34</span><span class="p">:</span><span class="mf">02.503</span><span class="w"> </span><span class="p" data-group-id="6417276473-1">[</span><span class="n">info</span><span class="p" data-group-id="6417276473-1">]</span><span class="w">  </span><span class="nc">XLA</span><span class="w"> </span><span class="n">service</span><span class="w"> </span><span class="mh">0x7fbd5468c170</span><span class="w"> </span><span class="n">initialized</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">platform</span><span class="w"> </span><span class="nc">Host</span><span class="w"> </span><span class="p" data-group-id="6417276473-2">(</span><span class="n">this</span><span class="w"> </span><span class="n">does</span><span class="w"> </span><span class="ow">not</span><span class="w"> </span><span class="n">guarantee</span><span class="w"> </span><span class="n">that</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">used</span><span class="p" data-group-id="6417276473-2">)</span><span class="o">.</span><span class="w"> </span><span class="ss">Devices</span><span class="p">:</span><span class="w">
+
+</span><span class="mi">10</span><span class="p">:</span><span class="mi">34</span><span class="p">:</span><span class="mf">02.785</span><span class="w"> </span><span class="p" data-group-id="6417276473-3">[</span><span class="n">info</span><span class="p" data-group-id="6417276473-3">]</span><span class="w">    </span><span class="nc">StreamExecutor</span><span class="w"> </span><span class="n">device</span><span class="w"> </span><span class="p" data-group-id="6417276473-4">(</span><span class="mi">0</span><span class="p" data-group-id="6417276473-4">)</span><span class="p">:</span><span class="w"> </span><span class="nc">Host</span><span class="p">,</span><span class="w"> </span><span class="nc">Default</span><span class="w"> </span><span class="nc">Version</span><span class="w">
+</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2170737698-1">#</span><span class="nc" data-group-id="2170737698-1">Nx.Tensor</span><span class="p" data-group-id="2170737698-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2170737698-2">[</span><span class="mi">2</span><span class="p" data-group-id="2170737698-2">]</span><span class="p" data-group-id="2170737698-3">[</span><span class="mi">1</span><span class="p" data-group-id="2170737698-3">]</span><span class="w">
+  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">host</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.184501844</span><span class="o">.</span><span class="mf">1168769032.259095</span><span class="p" data-group-id="2170737698-1">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2170737698-4">[</span><span class="w">
+    </span><span class="p" data-group-id="2170737698-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="2170737698-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2170737698-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="2170737698-6">]</span><span class="w">
+  </span><span class="p" data-group-id="2170737698-4">]</span><span class="w">
 </span><span class="o">&gt;</span></code></pre><p>Notice that the inspected tensor indicates the computation has been dispatched to EXLA and the tensor's data points to an EXLA buffer.</p><p>If you feel like setting the global or process-level compilation options is too intrusive, you can opt for more explicit behavior in a few ways. First, you can specify the JIT compiler when you build the model:</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Set back to defaults</span><span class="w">
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="2605357778-1">(</span><span class="p" data-group-id="2605357778-2">[</span><span class="p" data-group-id="2605357778-2">]</span><span class="p" data-group-id="2605357778-1">)</span><span class="w">
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="2605357778-3">(</span><span class="p" data-group-id="2605357778-4">[</span><span class="p" data-group-id="2605357778-4">]</span><span class="p" data-group-id="2605357778-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0351597357-1">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0351597357-1">]</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2601215483-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="2601215483-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="2601215483-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2601215483-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2601215483-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2601215483-4">%{</span><span class="p" data-group-id="2601215483-4">}</span><span class="p" data-group-id="2601215483-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="2601215483-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="2601215483-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5053918110-1">#</span><span class="nc" data-group-id="5053918110-1">Nx.Tensor</span><span class="p" data-group-id="5053918110-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5053918110-2">[</span><span class="mi">2</span><span class="p" data-group-id="5053918110-2">]</span><span class="p" data-group-id="5053918110-3">[</span><span class="mi">1</span><span class="p" data-group-id="5053918110-3">]</span><span class="w">
-  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">host</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.184501844</span><span class="o">.</span><span class="mf">1168769032.259101</span><span class="p" data-group-id="5053918110-1">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5053918110-4">[</span><span class="w">
-    </span><span class="p" data-group-id="5053918110-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="5053918110-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5053918110-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="5053918110-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5053918110-4">]</span><span class="w">
-</span><span class="o">&gt;</span></code></pre><p>You can also instead JIT compile functions explicitly via the <code class="inline">Nx.Defn.jit</code> or compiler-specific JIT APIs. This is useful when running benchmarks against various backends:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3654659004-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3654659004-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3654659004-2">(</span><span class="n">model</span><span class="p" data-group-id="3654659004-2">)</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="6398213433-1">(</span><span class="p" data-group-id="6398213433-2">[</span><span class="p" data-group-id="6398213433-2">]</span><span class="p" data-group-id="6398213433-1">)</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="6398213433-3">(</span><span class="p" data-group-id="6398213433-4">[</span><span class="p" data-group-id="6398213433-4">]</span><span class="p" data-group-id="6398213433-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2367865928-1">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2367865928-1">]</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4816256193-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4816256193-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4816256193-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4816256193-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4816256193-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4816256193-4">%{</span><span class="p" data-group-id="4816256193-4">}</span><span class="p" data-group-id="4816256193-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4816256193-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="4816256193-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9563541177-1">#</span><span class="nc" data-group-id="9563541177-1">Nx.Tensor</span><span class="p" data-group-id="9563541177-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9563541177-2">[</span><span class="mi">2</span><span class="p" data-group-id="9563541177-2">]</span><span class="p" data-group-id="9563541177-3">[</span><span class="mi">1</span><span class="p" data-group-id="9563541177-3">]</span><span class="w">
+  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">host</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.184501844</span><span class="o">.</span><span class="mf">1168769032.259101</span><span class="p" data-group-id="9563541177-1">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9563541177-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9563541177-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="9563541177-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9563541177-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="9563541177-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9563541177-4">]</span><span class="w">
+</span><span class="o">&gt;</span></code></pre><p>You can also instead JIT compile functions explicitly via the <code class="inline">Nx.Defn.jit</code> or compiler-specific JIT APIs. This is useful when running benchmarks against various backends:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1490026213-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="1490026213-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="1490026213-2">(</span><span class="n">model</span><span class="p" data-group-id="1490026213-2">)</span><span class="w">
 
 </span><span class="c1"># These will both JIT compile with EXLA</span><span class="w">
-</span><span class="n">exla_init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="3654659004-3">(</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3654659004-3">)</span><span class="w">
-</span><span class="n">exla_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">EXLA</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="3654659004-4">(</span><span class="n">predict_fn</span><span class="p" data-group-id="3654659004-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9140190007-1">#</span><span class="nc" data-group-id="9140190007-1">Function</span><span class="p" data-group-id="9140190007-1">&lt;</span><span class="mf">136.40088443</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="9140190007-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5596782216-1">(</span><span class="w">
-  </span><span class="p" data-group-id="5596782216-2">%{</span><span class="w">
-    </span><span class="s">&quot;elixir init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="5596782216-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5596782216-4">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5596782216-5">%{</span><span class="p" data-group-id="5596782216-5">}</span><span class="p" data-group-id="5596782216-4">)</span><span class="w"> </span><span class="k" data-group-id="5596782216-3">end</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;exla init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="5596782216-6">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_init_fn</span><span class="o">.</span><span class="p" data-group-id="5596782216-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5596782216-8">%{</span><span class="p" data-group-id="5596782216-8">}</span><span class="p" data-group-id="5596782216-7">)</span><span class="w"> </span><span class="k" data-group-id="5596782216-6">end</span><span class="w">
-  </span><span class="p" data-group-id="5596782216-2">}</span><span class="p">,</span><span class="w">
+</span><span class="n">exla_init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="1490026213-3">(</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1490026213-3">)</span><span class="w">
+</span><span class="n">exla_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">EXLA</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="1490026213-4">(</span><span class="n">predict_fn</span><span class="p" data-group-id="1490026213-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2128426876-1">#</span><span class="nc" data-group-id="2128426876-1">Function</span><span class="p" data-group-id="2128426876-1">&lt;</span><span class="mf">136.40088443</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2128426876-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2388000841-1">(</span><span class="w">
+  </span><span class="p" data-group-id="2388000841-2">%{</span><span class="w">
+    </span><span class="s">&quot;elixir init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="2388000841-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2388000841-4">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2388000841-5">%{</span><span class="p" data-group-id="2388000841-5">}</span><span class="p" data-group-id="2388000841-4">)</span><span class="w"> </span><span class="k" data-group-id="2388000841-3">end</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;exla init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="2388000841-6">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_init_fn</span><span class="o">.</span><span class="p" data-group-id="2388000841-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2388000841-8">%{</span><span class="p" data-group-id="2388000841-8">}</span><span class="p" data-group-id="2388000841-7">)</span><span class="w"> </span><span class="k" data-group-id="2388000841-6">end</span><span class="w">
+  </span><span class="p" data-group-id="2388000841-2">}</span><span class="p">,</span><span class="w">
   </span><span class="ss">time</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w">
   </span><span class="ss">memory_time</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w">
   </span><span class="ss">warmup</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="5596782216-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">init</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
+</span><span class="p" data-group-id="2388000841-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">init</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="1594770676-1">(</span><span class="p" data-group-id="1594770676-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="9438077915-1">(</span><span class="p" data-group-id="9438077915-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">exla</span><span class="w"> </span><span class="n">init</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="1594770676-2">(</span><span class="p" data-group-id="1594770676-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="9438077915-2">(</span><span class="p" data-group-id="9438077915-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="nc">Operating</span><span class="w"> </span><span class="ss">System</span><span class="p">:</span><span class="w"> </span><span class="nc">Linux</span><span class="w">
-</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="1594770676-3">(</span><span class="nc">R</span><span class="p" data-group-id="1594770676-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="1594770676-4">(</span><span class="nc">TM</span><span class="p" data-group-id="1594770676-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
+</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="9438077915-3">(</span><span class="nc">R</span><span class="p" data-group-id="9438077915-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="9438077915-4">(</span><span class="nc">TM</span><span class="p" data-group-id="9438077915-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
 </span><span class="nc">Number</span><span class="w"> </span><span class="n">of</span><span class="w"> </span><span class="nc">Available</span><span class="w"> </span><span class="ss">Cores</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
 </span><span class="nc">Available</span><span class="w"> </span><span class="ss">memory</span><span class="p">:</span><span class="w"> </span><span class="mf">24.95</span><span class="w"> </span><span class="nc">GB</span><span class="w">
 </span><span class="nc">Elixir</span><span class="w"> </span><span class="mf">1.13</span><span class="o">.</span><span class="mi">4</span><span class="w">
@@ -221,26 +221,26 @@ <h1>
 </span><span class="n">exla</span><span class="w"> </span><span class="n">init</span><span class="w">           </span><span class="mf">9.80</span><span class="w"> </span><span class="nc">KB</span><span class="w">
 </span><span class="n">elixir</span><span class="w"> </span><span class="n">init</span><span class="w">       </span><span class="mf">644.63</span><span class="w"> </span><span class="nc">KB</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mf">65.80</span><span class="n">x</span><span class="w"> </span><span class="n">memory</span><span class="w"> </span><span class="n">usage</span><span class="w"> </span><span class="o">+</span><span class="mf">634.83</span><span class="w"> </span><span class="nc">KB</span><span class="w">
 
-</span><span class="o">*</span><span class="o">*</span><span class="nc">All</span><span class="w"> </span><span class="n">measurements</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">memory</span><span class="w"> </span><span class="n">usage</span><span class="w"> </span><span class="n">were</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">same</span><span class="o">*</span><span class="o">*</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7179366465-1">(</span><span class="w">
-  </span><span class="p" data-group-id="7179366465-2">%{</span><span class="w">
-    </span><span class="s">&quot;elixir predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="7179366465-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7179366465-4">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7179366465-4">)</span><span class="w"> </span><span class="k" data-group-id="7179366465-3">end</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;exla predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="7179366465-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_predict_fn</span><span class="o">.</span><span class="p" data-group-id="7179366465-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7179366465-6">)</span><span class="w"> </span><span class="k" data-group-id="7179366465-5">end</span><span class="w">
-  </span><span class="p" data-group-id="7179366465-2">}</span><span class="p">,</span><span class="w">
+</span><span class="o">*</span><span class="o">*</span><span class="nc">All</span><span class="w"> </span><span class="n">measurements</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">memory</span><span class="w"> </span><span class="n">usage</span><span class="w"> </span><span class="n">were</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">same</span><span class="o">*</span><span class="o">*</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4611087080-1">(</span><span class="w">
+  </span><span class="p" data-group-id="4611087080-2">%{</span><span class="w">
+    </span><span class="s">&quot;elixir predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="4611087080-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4611087080-4">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="4611087080-4">)</span><span class="w"> </span><span class="k" data-group-id="4611087080-3">end</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;exla predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="4611087080-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_predict_fn</span><span class="o">.</span><span class="p" data-group-id="4611087080-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="4611087080-6">)</span><span class="w"> </span><span class="k" data-group-id="4611087080-5">end</span><span class="w">
+  </span><span class="p" data-group-id="4611087080-2">}</span><span class="p">,</span><span class="w">
   </span><span class="ss">time</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w">
   </span><span class="ss">memory_time</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w">
   </span><span class="ss">warmup</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="7179366465-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">predict</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
+</span><span class="p" data-group-id="4611087080-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">predict</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="7443711013-1">(</span><span class="p" data-group-id="7443711013-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="4762643754-1">(</span><span class="p" data-group-id="4762643754-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">exla</span><span class="w"> </span><span class="n">predict</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="7443711013-2">(</span><span class="p" data-group-id="7443711013-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="4762643754-2">(</span><span class="p" data-group-id="4762643754-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="nc">Operating</span><span class="w"> </span><span class="ss">System</span><span class="p">:</span><span class="w"> </span><span class="nc">Linux</span><span class="w">
-</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="7443711013-3">(</span><span class="nc">R</span><span class="p" data-group-id="7443711013-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="7443711013-4">(</span><span class="nc">TM</span><span class="p" data-group-id="7443711013-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
+</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="4762643754-3">(</span><span class="nc">R</span><span class="p" data-group-id="4762643754-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="4762643754-4">(</span><span class="nc">TM</span><span class="p" data-group-id="4762643754-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
 </span><span class="nc">Number</span><span class="w"> </span><span class="n">of</span><span class="w"> </span><span class="nc">Available</span><span class="w"> </span><span class="ss">Cores</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
 </span><span class="nc">Available</span><span class="w"> </span><span class="ss">memory</span><span class="p">:</span><span class="w"> </span><span class="mf">24.95</span><span class="w"> </span><span class="nc">GB</span><span class="w">
 </span><span class="nc">Elixir</span><span class="w"> </span><span class="mf">1.13</span><span class="o">.</span><span class="mi">4</span><span class="w">
@@ -279,29 +279,29 @@ <h1>
   Using Nx Backends in Axon
 </h2>
 <p>In addition to JIT-compilation, Axon also supports the usage of Nx backends. Nx backends are slightly different than Nx compilers in the sense that they do not fuse calls within numerical definitions. Backends are more eager, sacrificing a bit of performance for convenience. Torchx and EXLA both support running via backends.</p><p>Again, Axon will respect the global and process-level Nx backend configuration options. You can set the default backend using:</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Global default backend</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="4851930114-1">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="4851930114-1">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="8591459452-1">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="8591459452-1">)</span><span class="w">
 </span><span class="c1"># Process default backend</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="4851930114-2">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="4851930114-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5571596231-1">{</span><span class="nc">Nx.BinaryBackend</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5571596231-2">[</span><span class="p" data-group-id="5571596231-2">]</span><span class="p" data-group-id="5571596231-1">}</span></code></pre><p>Now when you invoke model functions, it will run them with the given backend:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9484510582-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9484510582-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9484510582-2">(</span><span class="n">model</span><span class="p" data-group-id="9484510582-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9484510582-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9484510582-4">%{</span><span class="p" data-group-id="9484510582-4">}</span><span class="p" data-group-id="9484510582-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9484510582-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="9484510582-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9469122323-1">#</span><span class="nc" data-group-id="9469122323-1">Nx.Tensor</span><span class="p" data-group-id="9469122323-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9469122323-2">[</span><span class="mi">2</span><span class="p" data-group-id="9469122323-2">]</span><span class="p" data-group-id="9469122323-3">[</span><span class="mi">1</span><span class="p" data-group-id="9469122323-3">]</span><span class="w">
-  </span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="9469122323-4">(</span><span class="n">cpu</span><span class="p" data-group-id="9469122323-4">)</span><span class="w">
-  </span><span class="p" data-group-id="9469122323-5">[</span><span class="w">
-    </span><span class="p" data-group-id="9469122323-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="9469122323-6">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9469122323-7">[</span><span class="mf">1.0</span><span class="p" data-group-id="9469122323-7">]</span><span class="w">
-  </span><span class="p" data-group-id="9469122323-5">]</span><span class="w">
-</span><span class="p" data-group-id="9469122323-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># Global default backend</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="5581804721-1">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="5581804721-1">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="8591459452-2">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="8591459452-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2177897024-1">{</span><span class="nc">Nx.BinaryBackend</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2177897024-2">[</span><span class="p" data-group-id="2177897024-2">]</span><span class="p" data-group-id="2177897024-1">}</span></code></pre><p>Now when you invoke model functions, it will run them with the given backend:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7389021908-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7389021908-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7389021908-2">(</span><span class="n">model</span><span class="p" data-group-id="7389021908-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7389021908-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7389021908-4">%{</span><span class="p" data-group-id="7389021908-4">}</span><span class="p" data-group-id="7389021908-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7389021908-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7389021908-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6721562021-1">#</span><span class="nc" data-group-id="6721562021-1">Nx.Tensor</span><span class="p" data-group-id="6721562021-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6721562021-2">[</span><span class="mi">2</span><span class="p" data-group-id="6721562021-2">]</span><span class="p" data-group-id="6721562021-3">[</span><span class="mi">1</span><span class="p" data-group-id="6721562021-3">]</span><span class="w">
+  </span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="6721562021-4">(</span><span class="n">cpu</span><span class="p" data-group-id="6721562021-4">)</span><span class="w">
+  </span><span class="p" data-group-id="6721562021-5">[</span><span class="w">
+    </span><span class="p" data-group-id="6721562021-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="6721562021-6">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6721562021-7">[</span><span class="mf">1.0</span><span class="p" data-group-id="6721562021-7">]</span><span class="w">
+  </span><span class="p" data-group-id="6721562021-5">]</span><span class="w">
+</span><span class="p" data-group-id="6721562021-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># Global default backend</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="1134213699-1">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="1134213699-1">)</span><span class="w">
 </span><span class="c1"># Process default backend</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="5581804721-2">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="5581804721-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5993488107-1">{</span><span class="nc">Torchx.Backend</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5993488107-2">[</span><span class="p" data-group-id="5993488107-2">]</span><span class="p" data-group-id="5993488107-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9127536757-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9127536757-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9127536757-2">(</span><span class="n">model</span><span class="p" data-group-id="9127536757-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9127536757-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9127536757-4">%{</span><span class="p" data-group-id="9127536757-4">}</span><span class="p" data-group-id="9127536757-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9127536757-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="9127536757-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4088831474-1">#</span><span class="nc" data-group-id="4088831474-1">Nx.Tensor</span><span class="p" data-group-id="4088831474-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4088831474-2">[</span><span class="mi">2</span><span class="p" data-group-id="4088831474-2">]</span><span class="p" data-group-id="4088831474-3">[</span><span class="mi">1</span><span class="p" data-group-id="4088831474-3">]</span><span class="w">
-  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">host</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.184501844</span><span class="o">.</span><span class="mf">1169293320.110725</span><span class="p" data-group-id="4088831474-1">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4088831474-4">[</span><span class="w">
-    </span><span class="p" data-group-id="4088831474-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="4088831474-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4088831474-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="4088831474-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4088831474-4">]</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="1134213699-2">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="1134213699-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3960804784-1">{</span><span class="nc">Torchx.Backend</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3960804784-2">[</span><span class="p" data-group-id="3960804784-2">]</span><span class="p" data-group-id="3960804784-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3837128899-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3837128899-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3837128899-2">(</span><span class="n">model</span><span class="p" data-group-id="3837128899-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3837128899-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3837128899-4">%{</span><span class="p" data-group-id="3837128899-4">}</span><span class="p" data-group-id="3837128899-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3837128899-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="3837128899-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9398350504-1">#</span><span class="nc" data-group-id="9398350504-1">Nx.Tensor</span><span class="p" data-group-id="9398350504-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9398350504-2">[</span><span class="mi">2</span><span class="p" data-group-id="9398350504-2">]</span><span class="p" data-group-id="9398350504-3">[</span><span class="mi">1</span><span class="p" data-group-id="9398350504-3">]</span><span class="w">
+  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">host</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.184501844</span><span class="o">.</span><span class="mf">1169293320.110725</span><span class="p" data-group-id="9398350504-1">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9398350504-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9398350504-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="9398350504-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9398350504-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="9398350504-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9398350504-4">]</span><span class="w">
 </span><span class="o">&gt;</span></code></pre><p>Unlike with JIT-compilation, you must set the backend at the top-level in order to invoke it. You should be careful using multiple backends in the same project as attempting to mix tensors between backends may result in strange performance bugs or errors.</p><p>With most larger models, using a JIT compiler will be more performant than using a backend.</p><h2 id="a-note-on-cpus-gpus-tpus" class="section-heading">
   <a href="#a-note-on-cpus-gpus-tpus" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">a-note-on-cpus-gpus-tpus</p>
diff --git a/complex_models.html b/complex_models.html
index fa6364e5..a85aa5eb 100644
--- a/complex_models.html
+++ b/complex_models.html
@@ -115,27 +115,27 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="7380135997-1">(</span><span class="p" data-group-id="7380135997-2">[</span><span class="w">
-  </span><span class="p" data-group-id="7380135997-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="7380135997-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7380135997-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7380135997-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7380135997-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="7380135997-5">}</span><span class="w">
-</span><span class="p" data-group-id="7380135997-2">]</span><span class="p" data-group-id="7380135997-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-more-complex-models" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9257038779-1">(</span><span class="p" data-group-id="9257038779-2">[</span><span class="w">
+  </span><span class="p" data-group-id="9257038779-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="9257038779-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9257038779-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9257038779-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9257038779-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="9257038779-5">}</span><span class="w">
+</span><span class="p" data-group-id="9257038779-2">]</span><span class="p" data-group-id="9257038779-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-more-complex-models" class="section-heading">
   <a href="#creating-more-complex-models" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-more-complex-models</p>
   </a>
   Creating more complex models
 </h2>
-<p>Not all models you'd want to create fit cleanly in the <em>sequential</em> paradigm. Some models require a more flexible API. Fortunately, because Axon models are just Elixir data structures, you can manipulate them and decompose architectures as you would any other Elixir program:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9631396289-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9631396289-1">)</span><span class="w">
+<p>Not all models you'd want to create fit cleanly in the <em>sequential</em> paradigm. Some models require a more flexible API. Fortunately, because Axon models are just Elixir data structures, you can manipulate them and decompose architectures as you would any other Elixir program:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3172224837-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3172224837-1">)</span><span class="w">
 
-</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9631396289-2">(</span><span class="mi">32</span><span class="p" data-group-id="9631396289-2">)</span><span class="w">
-</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9631396289-3">(</span><span class="mi">64</span><span class="p" data-group-id="9631396289-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9631396289-4">(</span><span class="p" data-group-id="9631396289-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9631396289-5">(</span><span class="mi">32</span><span class="p" data-group-id="9631396289-5">)</span><span class="w">
+</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3172224837-2">(</span><span class="mi">32</span><span class="p" data-group-id="3172224837-2">)</span><span class="w">
+</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3172224837-3">(</span><span class="mi">64</span><span class="p" data-group-id="3172224837-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3172224837-4">(</span><span class="p" data-group-id="3172224837-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3172224837-5">(</span><span class="mi">32</span><span class="p" data-group-id="3172224837-5">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="9631396289-6">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="9631396289-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6366007258-1">#</span><span class="nc" data-group-id="6366007258-1">Axon</span><span class="p" data-group-id="6366007258-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6366007258-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6366007258-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="3172224837-6">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="3172224837-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2926401363-1">#</span><span class="nc" data-group-id="2926401363-1">Axon</span><span class="p" data-group-id="2926401363-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2926401363-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="2926401363-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;add_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="w">
-</span><span class="p" data-group-id="6366007258-1">&gt;</span></code></pre><p>In the snippet above, your model branches <code class="inline">input</code> into <code class="inline">x1</code> and <code class="inline">x2</code>. Each branch performs a different set of transformations; however, at the end the branches are merged with an <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a>. You might sometimes see layers like <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a> called <em>combinators</em>. Really they're just layers that operate on multiple Axon models at once - typically to merge some branches together.</p><p><code class="inline">out</code> represents your final Axon model.</p><p>If you visualize this model, you can see the full effect of the branching in this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3571570225-1">(</span><span class="p" data-group-id="3571570225-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3571570225-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3571570225-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="3571570225-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="3571570225-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="2926401363-1">&gt;</span></code></pre><p>In the snippet above, your model branches <code class="inline">input</code> into <code class="inline">x1</code> and <code class="inline">x2</code>. Each branch performs a different set of transformations; however, at the end the branches are merged with an <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a>. You might sometimes see layers like <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a> called <em>combinators</em>. Really they're just layers that operate on multiple Axon models at once - typically to merge some branches together.</p><p><code class="inline">out</code> represents your final Axon model.</p><p>If you visualize this model, you can see the full effect of the branching in this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0032219645-1">(</span><span class="p" data-group-id="0032219645-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0032219645-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0032219645-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0032219645-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="0032219645-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 6[&quot;dense_0 (:dense) {2, 32}&quot;];
 9[&quot;dense_1 (:dense) {2, 64}&quot;];
@@ -149,43 +149,43 @@ <h1>
 10 --&gt; 13;
 9 --&gt; 10;
 3 --&gt; 9;
-3 --&gt; 6;</code></pre><p>And you can use <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> on <code class="inline">out</code> as you would any other Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7428813051-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7428813051-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7428813051-2">(</span><span class="n">out</span><span class="p" data-group-id="7428813051-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5950980357-1">{</span><span class="p" data-group-id="5950980357-2">#</span><span class="nc" data-group-id="5950980357-2">Function</span><span class="p" data-group-id="5950980357-2">&lt;</span><span class="mf">135.51955502</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="5950980357-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="5950980357-3">#</span><span class="nc" data-group-id="5950980357-3">Function</span><span class="p" data-group-id="5950980357-3">&lt;</span><span class="mf">135.51955502</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="5950980357-3">&gt;</span><span class="p" data-group-id="5950980357-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5537843624-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5537843624-2">%{</span><span class="p" data-group-id="5537843624-2">}</span><span class="p" data-group-id="5537843624-1">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5537843624-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5537843624-4">(</span><span class="p" data-group-id="5537843624-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5537843624-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5537843624-4">)</span><span class="p" data-group-id="5537843624-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6135378324-1">#</span><span class="nc" data-group-id="6135378324-1">Nx.Tensor</span><span class="p" data-group-id="6135378324-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6135378324-2">[</span><span class="mi">2</span><span class="p" data-group-id="6135378324-2">]</span><span class="p" data-group-id="6135378324-3">[</span><span class="mi">32</span><span class="p" data-group-id="6135378324-3">]</span><span class="w">
-  </span><span class="p" data-group-id="6135378324-4">[</span><span class="w">
-    </span><span class="p" data-group-id="6135378324-5">[</span><span class="o">-</span><span class="mf">3.4256787300109863</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.866683840751648</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2629307508468628</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2555718421936035</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2740533351898193</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0403499603271484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.7904915809631348</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4799132347106934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.16396951675415</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.545778274536133</span><span class="p">,</span><span class="w"> </span><span class="mf">3.146249532699585</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0786540508270264</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4500746726989746</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1419837474822998</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7993628978729248</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3798861503601074</span><span class="p">,</span><span class="w"> </span><span class="mf">4.787802696228027</span><span class="p">,</span><span class="w"> </span><span class="mf">1.290929913520813</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8274409770965576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5016275644302368</span><span class="p">,</span><span class="w"> </span><span class="mf">3.441028118133545</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.8077948093414307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25549376010894775</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.555987596511841</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.643674850463867</span><span class="p">,</span><span class="w"> </span><span class="mf">2.164360523223877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30402517318725586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.54134464263916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.699089527130127</span><span class="p">,</span><span class="w"> </span><span class="mf">4.074007511138916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7711544036865234</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.988246202468872</span><span class="p" data-group-id="6135378324-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6135378324-6">[</span><span class="o">-</span><span class="mf">11.235082626342773</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5991168022155762</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.076810836791992</span><span class="p">,</span><span class="w"> </span><span class="mf">11.091293334960938</span><span class="p">,</span><span class="w"> </span><span class="mf">4.669280052185059</span><span class="p">,</span><span class="w"> </span><span class="mf">12.756690979003906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4954360723495483</span><span class="p">,</span><span class="w"> </span><span class="mf">4.8143310546875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">14.211947441101074</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">11.360504150390625</span><span class="p">,</span><span class="w"> </span><span class="mf">6.239661693572998</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9994411468505859</span><span class="p">,</span><span class="w"> </span><span class="mf">8.645132064819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5422897338867188</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4019453525543213</span><span class="p">,</span><span class="w"> </span><span class="mf">9.633858680725098</span><span class="p">,</span><span class="w"> </span><span class="mf">10.077424049377441</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3623824119567871</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6135378324-6">]</span><span class="w">
-  </span><span class="p" data-group-id="6135378324-4">]</span><span class="w">
-</span><span class="p" data-group-id="6135378324-1">&gt;</span></code></pre><p>As your architectures grow in complexity, you might find yourself reaching for better abstractions to organize your model creation code. For example, PyTorch models are often organized into <code class="inline">nn.Module</code>. The equivalent of an <code class="inline">nn.Module</code> in Axon is a regular Elixir function. If you're translating models from PyTorch to Axon, it's natural to create one Elixir function per <code class="inline">nn.Module</code>.</p><p>You should write your models as you would write any other Elixir code - you don't need to worry about any framework specific constructs:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">MyModel</span><span class="w"> </span><span class="k" data-group-id="4601299658-1">do</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">model</span><span class="p" data-group-id="4601299658-2">(</span><span class="p" data-group-id="4601299658-2">)</span><span class="w"> </span><span class="k" data-group-id="4601299658-3">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4601299658-4">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4601299658-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">conv_block</span><span class="p" data-group-id="4601299658-5">(</span><span class="p" data-group-id="4601299658-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="4601299658-6">(</span><span class="p" data-group-id="4601299658-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="4601299658-7">(</span><span class="p" data-group-id="4601299658-7">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="4601299658-8">(</span><span class="p" data-group-id="4601299658-8">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4601299658-9">(</span><span class="mi">1</span><span class="p" data-group-id="4601299658-9">)</span><span class="w">
-  </span><span class="k" data-group-id="4601299658-3">end</span><span class="w">
-
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">conv_block</span><span class="p" data-group-id="4601299658-10">(</span><span class="n">input</span><span class="p" data-group-id="4601299658-10">)</span><span class="w"> </span><span class="k" data-group-id="4601299658-11">do</span><span class="w">
+3 --&gt; 6;</code></pre><p>And you can use <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> on <code class="inline">out</code> as you would any other Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9233874544-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9233874544-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9233874544-2">(</span><span class="n">out</span><span class="p" data-group-id="9233874544-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9068766852-1">{</span><span class="p" data-group-id="9068766852-2">#</span><span class="nc" data-group-id="9068766852-2">Function</span><span class="p" data-group-id="9068766852-2">&lt;</span><span class="mf">135.51955502</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="9068766852-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="9068766852-3">#</span><span class="nc" data-group-id="9068766852-3">Function</span><span class="p" data-group-id="9068766852-3">&lt;</span><span class="mf">135.51955502</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="9068766852-3">&gt;</span><span class="p" data-group-id="9068766852-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4561170158-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4561170158-2">%{</span><span class="p" data-group-id="4561170158-2">}</span><span class="p" data-group-id="4561170158-1">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4561170158-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4561170158-4">(</span><span class="p" data-group-id="4561170158-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4561170158-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4561170158-4">)</span><span class="p" data-group-id="4561170158-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8560546328-1">#</span><span class="nc" data-group-id="8560546328-1">Nx.Tensor</span><span class="p" data-group-id="8560546328-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8560546328-2">[</span><span class="mi">2</span><span class="p" data-group-id="8560546328-2">]</span><span class="p" data-group-id="8560546328-3">[</span><span class="mi">32</span><span class="p" data-group-id="8560546328-3">]</span><span class="w">
+  </span><span class="p" data-group-id="8560546328-4">[</span><span class="w">
+    </span><span class="p" data-group-id="8560546328-5">[</span><span class="o">-</span><span class="mf">3.4256787300109863</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.866683840751648</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2629307508468628</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2555718421936035</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2740533351898193</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0403499603271484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.7904915809631348</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4799132347106934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.16396951675415</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.545778274536133</span><span class="p">,</span><span class="w"> </span><span class="mf">3.146249532699585</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0786540508270264</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4500746726989746</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1419837474822998</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7993628978729248</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3798861503601074</span><span class="p">,</span><span class="w"> </span><span class="mf">4.787802696228027</span><span class="p">,</span><span class="w"> </span><span class="mf">1.290929913520813</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8274409770965576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5016275644302368</span><span class="p">,</span><span class="w"> </span><span class="mf">3.441028118133545</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.8077948093414307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25549376010894775</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.555987596511841</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.643674850463867</span><span class="p">,</span><span class="w"> </span><span class="mf">2.164360523223877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30402517318725586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.54134464263916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.699089527130127</span><span class="p">,</span><span class="w"> </span><span class="mf">4.074007511138916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7711544036865234</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.988246202468872</span><span class="p" data-group-id="8560546328-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8560546328-6">[</span><span class="o">-</span><span class="mf">11.235082626342773</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5991168022155762</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.076810836791992</span><span class="p">,</span><span class="w"> </span><span class="mf">11.091293334960938</span><span class="p">,</span><span class="w"> </span><span class="mf">4.669280052185059</span><span class="p">,</span><span class="w"> </span><span class="mf">12.756690979003906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4954360723495483</span><span class="p">,</span><span class="w"> </span><span class="mf">4.8143310546875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">14.211947441101074</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">11.360504150390625</span><span class="p">,</span><span class="w"> </span><span class="mf">6.239661693572998</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9994411468505859</span><span class="p">,</span><span class="w"> </span><span class="mf">8.645132064819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5422897338867188</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4019453525543213</span><span class="p">,</span><span class="w"> </span><span class="mf">9.633858680725098</span><span class="p">,</span><span class="w"> </span><span class="mf">10.077424049377441</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3623824119567871</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8560546328-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8560546328-4">]</span><span class="w">
+</span><span class="p" data-group-id="8560546328-1">&gt;</span></code></pre><p>As your architectures grow in complexity, you might find yourself reaching for better abstractions to organize your model creation code. For example, PyTorch models are often organized into <code class="inline">nn.Module</code>. The equivalent of an <code class="inline">nn.Module</code> in Axon is a regular Elixir function. If you're translating models from PyTorch to Axon, it's natural to create one Elixir function per <code class="inline">nn.Module</code>.</p><p>You should write your models as you would write any other Elixir code - you don't need to worry about any framework specific constructs:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">MyModel</span><span class="w"> </span><span class="k" data-group-id="8124603655-1">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">model</span><span class="p" data-group-id="8124603655-2">(</span><span class="p" data-group-id="8124603655-2">)</span><span class="w"> </span><span class="k" data-group-id="8124603655-3">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8124603655-4">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8124603655-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">conv_block</span><span class="p" data-group-id="8124603655-5">(</span><span class="p" data-group-id="8124603655-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="8124603655-6">(</span><span class="p" data-group-id="8124603655-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="8124603655-7">(</span><span class="p" data-group-id="8124603655-7">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="8124603655-8">(</span><span class="p" data-group-id="8124603655-8">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8124603655-9">(</span><span class="mi">1</span><span class="p" data-group-id="8124603655-9">)</span><span class="w">
+  </span><span class="k" data-group-id="8124603655-3">end</span><span class="w">
+
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">conv_block</span><span class="p" data-group-id="8124603655-10">(</span><span class="n">input</span><span class="p" data-group-id="8124603655-10">)</span><span class="w"> </span><span class="k" data-group-id="8124603655-11">do</span><span class="w">
     </span><span class="n">residual</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w">
 
-    </span><span class="n">x</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="4601299658-12">(</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">padding</span><span class="p">:</span><span class="w"> </span><span class="ss">:same</span><span class="p" data-group-id="4601299658-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="4601299658-13">(</span><span class="p" data-group-id="4601299658-13">)</span><span class="w">
+    </span><span class="n">x</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="8124603655-12">(</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">padding</span><span class="p">:</span><span class="w"> </span><span class="ss">:same</span><span class="p" data-group-id="8124603655-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="8124603655-13">(</span><span class="p" data-group-id="8124603655-13">)</span><span class="w">
 
     </span><span class="n">x</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="4601299658-14">(</span><span class="n">residual</span><span class="p" data-group-id="4601299658-14">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="4601299658-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4601299658-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4601299658-16">}</span><span class="p" data-group-id="4601299658-15">)</span><span class="w">
-  </span><span class="k" data-group-id="4601299658-11">end</span><span class="w">
-
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">dense_block</span><span class="p" data-group-id="4601299658-17">(</span><span class="n">input</span><span class="p" data-group-id="4601299658-17">)</span><span class="w"> </span><span class="k" data-group-id="4601299658-18">do</span><span class="w">
-    </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4601299658-19">(</span><span class="mi">32</span><span class="p" data-group-id="4601299658-19">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4601299658-20">(</span><span class="p" data-group-id="4601299658-20">)</span><span class="w">
-  </span><span class="k" data-group-id="4601299658-18">end</span><span class="w">
-</span><span class="k" data-group-id="4601299658-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7106936030-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">MyModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7106936030-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7106936030-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7106936030-3">{</span><span class="ss">:dense_block</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7106936030-3">}</span><span class="p" data-group-id="7106936030-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">MyModel</span><span class="o">.</span><span class="n">model</span><span class="p" data-group-id="8496128689-1">(</span><span class="p" data-group-id="8496128689-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3053067259-1">#</span><span class="nc" data-group-id="3053067259-1">Axon</span><span class="p" data-group-id="3053067259-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3053067259-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="3053067259-2">}</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="8124603655-14">(</span><span class="n">residual</span><span class="p" data-group-id="8124603655-14">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="8124603655-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8124603655-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8124603655-16">}</span><span class="p" data-group-id="8124603655-15">)</span><span class="w">
+  </span><span class="k" data-group-id="8124603655-11">end</span><span class="w">
+
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">dense_block</span><span class="p" data-group-id="8124603655-17">(</span><span class="n">input</span><span class="p" data-group-id="8124603655-17">)</span><span class="w"> </span><span class="k" data-group-id="8124603655-18">do</span><span class="w">
+    </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8124603655-19">(</span><span class="mi">32</span><span class="p" data-group-id="8124603655-19">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8124603655-20">(</span><span class="p" data-group-id="8124603655-20">)</span><span class="w">
+  </span><span class="k" data-group-id="8124603655-18">end</span><span class="w">
+</span><span class="k" data-group-id="8124603655-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2232924566-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">MyModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2232924566-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="2232924566-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2232924566-3">{</span><span class="ss">:dense_block</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2232924566-3">}</span><span class="p" data-group-id="2232924566-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">MyModel</span><span class="o">.</span><span class="n">model</span><span class="p" data-group-id="5698745126-1">(</span><span class="p" data-group-id="5698745126-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6441571084-1">#</span><span class="nc" data-group-id="6441571084-1">Axon</span><span class="p" data-group-id="6441571084-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6441571084-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6441571084-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;dense_2&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">12</span><span class="w">
-</span><span class="p" data-group-id="3053067259-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4006971616-1">(</span><span class="p" data-group-id="4006971616-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4006971616-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4006971616-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="4006971616-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="4006971616-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="6441571084-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1725658252-1">(</span><span class="p" data-group-id="1725658252-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1725658252-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1725658252-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="1725658252-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="1725658252-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 16[/&quot;data (:input) {1, 28, 28, 3}&quot;/];
 19[&quot;conv_0 (:conv) {1, 28, 28, 3}&quot;];
 20[&quot;mish_0 (:mish) {1, 28, 28, 3}&quot;];
diff --git a/credit_card_fraud.html b/credit_card_fraud.html
index b22da571..07832b38 100644
--- a/credit_card_fraud.html
+++ b/credit_card_fraud.html
@@ -115,18 +115,18 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1524429308-1">(</span><span class="p" data-group-id="1524429308-2">[</span><span class="w">
-  </span><span class="p" data-group-id="1524429308-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="1524429308-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1524429308-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1524429308-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1524429308-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="1524429308-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1524429308-6">{</span><span class="ss">:explorer</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="1524429308-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1524429308-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="1524429308-7">}</span><span class="w">
-</span><span class="p" data-group-id="1524429308-2">]</span><span class="p" data-group-id="1524429308-1">)</span><span class="w">
-
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="1524429308-8">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1524429308-8">)</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="1524429308-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="1524429308-9">)</span><span class="w">
-
-</span><span class="kn">alias</span><span class="w"> </span><span class="nc">Explorer</span><span class="o">.</span><span class="p" data-group-id="1524429308-10">{</span><span class="nc">DataFrame</span><span class="p">,</span><span class="w"> </span><span class="nc">Series</span><span class="p" data-group-id="1524429308-10">}</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="7753656309-1">(</span><span class="p" data-group-id="7753656309-2">[</span><span class="w">
+  </span><span class="p" data-group-id="7753656309-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="7753656309-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7753656309-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7753656309-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7753656309-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="7753656309-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7753656309-6">{</span><span class="ss">:explorer</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="7753656309-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7753656309-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="7753656309-7">}</span><span class="w">
+</span><span class="p" data-group-id="7753656309-2">]</span><span class="p" data-group-id="7753656309-1">)</span><span class="w">
+
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="7753656309-8">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7753656309-8">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="7753656309-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="7753656309-9">)</span><span class="w">
+
+</span><span class="kn">alias</span><span class="w"> </span><span class="nc">Explorer</span><span class="o">.</span><span class="p" data-group-id="7753656309-10">{</span><span class="nc">DataFrame</span><span class="p">,</span><span class="w"> </span><span class="nc">Series</span><span class="p" data-group-id="7753656309-10">}</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">introduction</p>
   </a>
@@ -138,58 +138,58 @@ <h1>
   </a>
   Data processing
 </h2>
-<p>The first step is to prepare the data for training and evaluation. Please download the dataset in the CSV format from <a href="https://www.kaggle.com/mlg-ulb/creditcardfraud">https://www.kaggle.com/mlg-ulb/creditcardfraud</a> (this requires a Kaggla account). Once done, put the file path in the input below.</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">text</span><span class="p" data-group-id="8125458816-1">(</span><span class="s">&quot;Data path (CSV)&quot;</span><span class="p" data-group-id="8125458816-1">)</span></code></pre><p>Now, let's read the data into an <code class="inline">Explorer.Dataframe</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">read</span><span class="p" data-group-id="5551834223-1">(</span><span class="n">data_path_input</span><span class="p" data-group-id="5551834223-1">)</span><span class="w">
+<p>The first step is to prepare the data for training and evaluation. Please download the dataset in the CSV format from <a href="https://www.kaggle.com/mlg-ulb/creditcardfraud">https://www.kaggle.com/mlg-ulb/creditcardfraud</a> (this requires a Kaggla account). Once done, put the file path in the input below.</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">text</span><span class="p" data-group-id="0500623265-1">(</span><span class="s">&quot;Data path (CSV)&quot;</span><span class="p" data-group-id="0500623265-1">)</span></code></pre><p>Now, let's read the data into an <code class="inline">Explorer.Dataframe</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">read</span><span class="p" data-group-id="7476595415-1">(</span><span class="n">data_path_input</span><span class="p" data-group-id="7476595415-1">)</span><span class="w">
 
-</span><span class="n">df</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">from_csv!</span><span class="p" data-group-id="5551834223-2">(</span><span class="n">data_path</span><span class="p">,</span><span class="w"> </span><span class="ss">dtypes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5551834223-3">[</span><span class="p" data-group-id="5551834223-4">{</span><span class="s">&quot;Time&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:float</span><span class="p" data-group-id="5551834223-4">}</span><span class="p" data-group-id="5551834223-3">]</span><span class="p" data-group-id="5551834223-2">)</span></code></pre><p>For further processing, we will need a couple helper functions. We will group them in a module for convenience.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="w"> </span><span class="k" data-group-id="3836053383-1">do</span><span class="w">
+</span><span class="n">df</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">from_csv!</span><span class="p" data-group-id="7476595415-2">(</span><span class="n">data_path</span><span class="p">,</span><span class="w"> </span><span class="ss">dtypes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7476595415-3">[</span><span class="p" data-group-id="7476595415-4">{</span><span class="s">&quot;Time&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:float</span><span class="p" data-group-id="7476595415-4">}</span><span class="p" data-group-id="7476595415-3">]</span><span class="p" data-group-id="7476595415-2">)</span></code></pre><p>For further processing, we will need a couple helper functions. We will group them in a module for convenience.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="w"> </span><span class="k" data-group-id="4418446470-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_train_test</span><span class="p" data-group-id="3836053383-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">portion</span><span class="p" data-group-id="3836053383-2">)</span><span class="w"> </span><span class="k" data-group-id="3836053383-3">do</span><span class="w">
-    </span><span class="n">num_examples</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="3836053383-4">(</span><span class="n">df</span><span class="p" data-group-id="3836053383-4">)</span><span class="w">
-    </span><span class="n">num_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">ceil</span><span class="p" data-group-id="3836053383-5">(</span><span class="n">portion</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">num_examples</span><span class="p" data-group-id="3836053383-5">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_train_test</span><span class="p" data-group-id="4418446470-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">portion</span><span class="p" data-group-id="4418446470-2">)</span><span class="w"> </span><span class="k" data-group-id="4418446470-3">do</span><span class="w">
+    </span><span class="n">num_examples</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="4418446470-4">(</span><span class="n">df</span><span class="p" data-group-id="4418446470-4">)</span><span class="w">
+    </span><span class="n">num_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">ceil</span><span class="p" data-group-id="4418446470-5">(</span><span class="n">portion</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">num_examples</span><span class="p" data-group-id="4418446470-5">)</span><span class="w">
     </span><span class="n">num_test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">num_examples</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">num_train</span><span class="w">
 
-    </span><span class="n">train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="3836053383-6">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p" data-group-id="3836053383-6">)</span><span class="w">
-    </span><span class="n">test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="3836053383-7">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p">,</span><span class="w"> </span><span class="n">num_test</span><span class="p" data-group-id="3836053383-7">)</span><span class="w">
-    </span><span class="p" data-group-id="3836053383-8">{</span><span class="n">train</span><span class="p">,</span><span class="w"> </span><span class="n">test</span><span class="p" data-group-id="3836053383-8">}</span><span class="w">
-  </span><span class="k" data-group-id="3836053383-3">end</span><span class="w">
+    </span><span class="n">train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="4418446470-6">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p" data-group-id="4418446470-6">)</span><span class="w">
+    </span><span class="n">test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="4418446470-7">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p">,</span><span class="w"> </span><span class="n">num_test</span><span class="p" data-group-id="4418446470-7">)</span><span class="w">
+    </span><span class="p" data-group-id="4418446470-8">{</span><span class="n">train</span><span class="p">,</span><span class="w"> </span><span class="n">test</span><span class="p" data-group-id="4418446470-8">}</span><span class="w">
+  </span><span class="k" data-group-id="4418446470-3">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_features_targets</span><span class="p" data-group-id="3836053383-9">(</span><span class="n">df</span><span class="p" data-group-id="3836053383-9">)</span><span class="w"> </span><span class="k" data-group-id="3836053383-10">do</span><span class="w">
-    </span><span class="n">features</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="3836053383-11">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="3836053383-12">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="3836053383-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:drop</span><span class="p" data-group-id="3836053383-11">)</span><span class="w">
-    </span><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="3836053383-13">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="3836053383-14">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="3836053383-14">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:keep</span><span class="p" data-group-id="3836053383-13">)</span><span class="w">
-    </span><span class="p" data-group-id="3836053383-15">{</span><span class="n">features</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="3836053383-15">}</span><span class="w">
-  </span><span class="k" data-group-id="3836053383-10">end</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_features_targets</span><span class="p" data-group-id="4418446470-9">(</span><span class="n">df</span><span class="p" data-group-id="4418446470-9">)</span><span class="w"> </span><span class="k" data-group-id="4418446470-10">do</span><span class="w">
+    </span><span class="n">features</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="4418446470-11">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="4418446470-12">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="4418446470-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:drop</span><span class="p" data-group-id="4418446470-11">)</span><span class="w">
+    </span><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="4418446470-13">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="4418446470-14">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="4418446470-14">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:keep</span><span class="p" data-group-id="4418446470-13">)</span><span class="w">
+    </span><span class="p" data-group-id="4418446470-15">{</span><span class="n">features</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="4418446470-15">}</span><span class="w">
+  </span><span class="k" data-group-id="4418446470-10">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">df_to_tensor</span><span class="p" data-group-id="3836053383-16">(</span><span class="n">df</span><span class="p" data-group-id="3836053383-16">)</span><span class="w"> </span><span class="k" data-group-id="3836053383-17">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">df_to_tensor</span><span class="p" data-group-id="4418446470-16">(</span><span class="n">df</span><span class="p" data-group-id="4418446470-16">)</span><span class="w"> </span><span class="k" data-group-id="4418446470-17">do</span><span class="w">
     </span><span class="n">df</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">names</span><span class="p" data-group-id="3836053383-18">(</span><span class="p" data-group-id="3836053383-18">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="3836053383-19">(</span><span class="o">&amp;</span><span class="nc">Series</span><span class="o">.</span><span class="n">to_tensor</span><span class="p" data-group-id="3836053383-20">(</span><span class="n">df</span><span class="p" data-group-id="3836053383-21">[</span><span class="ni">&amp;1</span><span class="p" data-group-id="3836053383-21">]</span><span class="p" data-group-id="3836053383-20">)</span><span class="p" data-group-id="3836053383-19">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="3836053383-22">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3836053383-22">)</span><span class="w">
-  </span><span class="k" data-group-id="3836053383-17">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">names</span><span class="p" data-group-id="4418446470-18">(</span><span class="p" data-group-id="4418446470-18">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="4418446470-19">(</span><span class="o">&amp;</span><span class="nc">Series</span><span class="o">.</span><span class="n">to_tensor</span><span class="p" data-group-id="4418446470-20">(</span><span class="n">df</span><span class="p" data-group-id="4418446470-21">[</span><span class="ni">&amp;1</span><span class="p" data-group-id="4418446470-21">]</span><span class="p" data-group-id="4418446470-20">)</span><span class="p" data-group-id="4418446470-19">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="4418446470-22">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4418446470-22">)</span><span class="w">
+  </span><span class="k" data-group-id="4418446470-17">end</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">normalize_features</span><span class="p" data-group-id="3836053383-23">(</span><span class="n">tensor</span><span class="p" data-group-id="3836053383-23">)</span><span class="w"> </span><span class="k" data-group-id="3836053383-24">do</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">normalize_features</span><span class="p" data-group-id="4418446470-23">(</span><span class="n">tensor</span><span class="p" data-group-id="4418446470-23">)</span><span class="w"> </span><span class="k" data-group-id="4418446470-24">do</span><span class="w">
     </span><span class="n">max</span><span class="w"> </span><span class="o">=</span><span class="w">
       </span><span class="n">tensor</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="3836053383-25">(</span><span class="p" data-group-id="3836053383-25">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reduce_max</span><span class="p" data-group-id="3836053383-26">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3836053383-27">[</span><span class="mi">0</span><span class="p" data-group-id="3836053383-27">]</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3836053383-26">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="4418446470-25">(</span><span class="p" data-group-id="4418446470-25">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reduce_max</span><span class="p" data-group-id="4418446470-26">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4418446470-27">[</span><span class="mi">0</span><span class="p" data-group-id="4418446470-27">]</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4418446470-26">)</span><span class="w">
 
     </span><span class="n">tensor</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">max</span><span class="w">
-  </span><span class="k" data-group-id="3836053383-24">end</span><span class="w">
-</span><span class="k" data-group-id="3836053383-1">end</span></code></pre><p>With that, we can start converting the data into the desired format. First, we split the data into training and test data (in proportion 80% into a training set and 20% into a test set).</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5120684755-1">{</span><span class="n">train_df</span><span class="p">,</span><span class="w"> </span><span class="n">test_df</span><span class="p" data-group-id="5120684755-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_train_test</span><span class="p" data-group-id="5120684755-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="5120684755-2">)</span><span class="w">
-</span><span class="p" data-group-id="5120684755-3">{</span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="5120684755-4">(</span><span class="n">train_df</span><span class="p" data-group-id="5120684755-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="5120684755-5">(</span><span class="n">test_df</span><span class="p" data-group-id="5120684755-5">)</span><span class="p" data-group-id="5120684755-3">}</span></code></pre><p>Next, we separate features from labels and convert both to tensors. In case of features we additionally normalize each of them, dividing by the maximum absolute value of that feature.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3567329679-1">{</span><span class="n">train_features</span><span class="p">,</span><span class="w"> </span><span class="n">train_targets</span><span class="p" data-group-id="3567329679-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="3567329679-2">(</span><span class="n">train_df</span><span class="p" data-group-id="3567329679-2">)</span><span class="w">
-</span><span class="p" data-group-id="3567329679-3">{</span><span class="n">test_features</span><span class="p">,</span><span class="w"> </span><span class="n">test_targets</span><span class="p" data-group-id="3567329679-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="3567329679-4">(</span><span class="n">test_df</span><span class="p" data-group-id="3567329679-4">)</span><span class="w">
+  </span><span class="k" data-group-id="4418446470-24">end</span><span class="w">
+</span><span class="k" data-group-id="4418446470-1">end</span></code></pre><p>With that, we can start converting the data into the desired format. First, we split the data into training and test data (in proportion 80% into a training set and 20% into a test set).</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5354245322-1">{</span><span class="n">train_df</span><span class="p">,</span><span class="w"> </span><span class="n">test_df</span><span class="p" data-group-id="5354245322-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_train_test</span><span class="p" data-group-id="5354245322-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="5354245322-2">)</span><span class="w">
+</span><span class="p" data-group-id="5354245322-3">{</span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="5354245322-4">(</span><span class="n">train_df</span><span class="p" data-group-id="5354245322-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="5354245322-5">(</span><span class="n">test_df</span><span class="p" data-group-id="5354245322-5">)</span><span class="p" data-group-id="5354245322-3">}</span></code></pre><p>Next, we separate features from labels and convert both to tensors. In case of features we additionally normalize each of them, dividing by the maximum absolute value of that feature.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1639342931-1">{</span><span class="n">train_features</span><span class="p">,</span><span class="w"> </span><span class="n">train_targets</span><span class="p" data-group-id="1639342931-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="1639342931-2">(</span><span class="n">train_df</span><span class="p" data-group-id="1639342931-2">)</span><span class="w">
+</span><span class="p" data-group-id="1639342931-3">{</span><span class="n">test_features</span><span class="p">,</span><span class="w"> </span><span class="n">test_targets</span><span class="p" data-group-id="1639342931-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="1639342931-4">(</span><span class="n">test_df</span><span class="p" data-group-id="1639342931-4">)</span><span class="w">
 
 </span><span class="n">train_inputs</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_features</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="3567329679-5">(</span><span class="p" data-group-id="3567329679-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="3567329679-6">(</span><span class="p" data-group-id="3567329679-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="1639342931-5">(</span><span class="p" data-group-id="1639342931-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="1639342931-6">(</span><span class="p" data-group-id="1639342931-6">)</span><span class="w">
 
 </span><span class="n">test_inputs</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_features</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="3567329679-7">(</span><span class="p" data-group-id="3567329679-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="3567329679-8">(</span><span class="p" data-group-id="3567329679-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="1639342931-7">(</span><span class="p" data-group-id="1639342931-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="1639342931-8">(</span><span class="p" data-group-id="1639342931-8">)</span><span class="w">
 
-</span><span class="n">train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="3567329679-9">(</span><span class="n">train_targets</span><span class="p" data-group-id="3567329679-9">)</span><span class="w">
-</span><span class="n">test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="3567329679-10">(</span><span class="n">test_targets</span><span class="p" data-group-id="3567329679-10">)</span><span class="w">
+</span><span class="n">train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="1639342931-9">(</span><span class="n">train_targets</span><span class="p" data-group-id="1639342931-9">)</span><span class="w">
+</span><span class="n">test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="1639342931-10">(</span><span class="n">test_targets</span><span class="p" data-group-id="1639342931-10">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="building-the-model" class="section-heading">
   <a href="#building-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -198,43 +198,43 @@ <h1>
   Building the model
 </h2>
 <p>Our model for predicting whether a transaction was fraudulent or not is a dense neural network. It consists of two dense layers with 256 neurons, ReLU activation functions, one dropout layer, and a dense layer with one neuron (since the problem is a binary prediction) followed by a sigmoid activation function.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3394469407-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="3394469407-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3394469407-2">(</span><span class="mi">256</span><span class="p" data-group-id="3394469407-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3394469407-3">(</span><span class="p" data-group-id="3394469407-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3394469407-4">(</span><span class="mi">256</span><span class="p" data-group-id="3394469407-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3394469407-5">(</span><span class="p" data-group-id="3394469407-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="3394469407-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3</span><span class="p" data-group-id="3394469407-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3394469407-7">(</span><span class="mi">1</span><span class="p" data-group-id="3394469407-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="3394469407-8">(</span><span class="p" data-group-id="3394469407-8">)</span></code></pre><h2 id="training-our-model" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7344170713-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="7344170713-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7344170713-2">(</span><span class="mi">256</span><span class="p" data-group-id="7344170713-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7344170713-3">(</span><span class="p" data-group-id="7344170713-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7344170713-4">(</span><span class="mi">256</span><span class="p" data-group-id="7344170713-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7344170713-5">(</span><span class="p" data-group-id="7344170713-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="7344170713-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3</span><span class="p" data-group-id="7344170713-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7344170713-7">(</span><span class="mi">1</span><span class="p" data-group-id="7344170713-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="7344170713-8">(</span><span class="p" data-group-id="7344170713-8">)</span></code></pre><h2 id="training-our-model" class="section-heading">
   <a href="#training-our-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training-our-model</p>
   </a>
   Training our model
 </h2>
-<p>Now we have both data and model architecture prepared, it's time to train!</p><p>Note the disproportion in the data samples:</p><pre><code class="makeup elixir" translate="no"><span class="n">fraud</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="0156344586-1">(</span><span class="n">train_targets</span><span class="p" data-group-id="0156344586-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="0156344586-2">(</span><span class="p" data-group-id="0156344586-2">)</span><span class="w">
-</span><span class="n">legit</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="0156344586-3">(</span><span class="n">train_targets</span><span class="p" data-group-id="0156344586-3">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">fraud</span><span class="w">
+<p>Now we have both data and model architecture prepared, it's time to train!</p><p>Note the disproportion in the data samples:</p><pre><code class="makeup elixir" translate="no"><span class="n">fraud</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="5592990137-1">(</span><span class="n">train_targets</span><span class="p" data-group-id="5592990137-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="5592990137-2">(</span><span class="p" data-group-id="5592990137-2">)</span><span class="w">
+</span><span class="n">legit</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="5592990137-3">(</span><span class="n">train_targets</span><span class="p" data-group-id="5592990137-3">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">fraud</span><span class="w">
 
-</span><span class="n">batched_train_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="0156344586-4">(</span><span class="n">train_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="0156344586-4">)</span><span class="w">
-</span><span class="n">batched_train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="0156344586-5">(</span><span class="n">train_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="0156344586-5">)</span><span class="w">
-</span><span class="n">batched_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="0156344586-6">(</span><span class="n">batched_train_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_targets</span><span class="p" data-group-id="0156344586-6">)</span><span class="w">
+</span><span class="n">batched_train_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="5592990137-4">(</span><span class="n">train_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="5592990137-4">)</span><span class="w">
+</span><span class="n">batched_train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="5592990137-5">(</span><span class="n">train_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="5592990137-5">)</span><span class="w">
+</span><span class="n">batched_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="5592990137-6">(</span><span class="n">batched_train_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_targets</span><span class="p" data-group-id="5592990137-6">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0156344586-7">(</span><span class="s">&quot;# of legit transactions (train): </span><span class="si" data-group-id="0156344586-8">#{</span><span class="n">legit</span><span class="si" data-group-id="0156344586-8">}</span><span class="s">&quot;</span><span class="p" data-group-id="0156344586-7">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0156344586-9">(</span><span class="s">&quot;# of fraudulent transactions (train): </span><span class="si" data-group-id="0156344586-10">#{</span><span class="n">fraud</span><span class="si" data-group-id="0156344586-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="0156344586-9">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0156344586-11">(</span><span class="s">&quot;% fraudlent transactions (train): </span><span class="si" data-group-id="0156344586-12">#{</span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="0156344586-13">(</span><span class="n">fraud</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="p" data-group-id="0156344586-14">(</span><span class="n">legit</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">fraud</span><span class="p" data-group-id="0156344586-14">)</span><span class="p" data-group-id="0156344586-13">)</span><span class="si" data-group-id="0156344586-12">}</span><span class="s">%&quot;</span><span class="p" data-group-id="0156344586-11">)</span></code></pre><p>As always, we define our train loop. We are using <em>binary cross-entropy</em> as our loss function and Adam as the optimizer with a learning rate of 0.01. Then we immediately start the training passing our train portion of the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="8146897832-1">(</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5592990137-7">(</span><span class="s">&quot;# of legit transactions (train): </span><span class="si" data-group-id="5592990137-8">#{</span><span class="n">legit</span><span class="si" data-group-id="5592990137-8">}</span><span class="s">&quot;</span><span class="p" data-group-id="5592990137-7">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5592990137-9">(</span><span class="s">&quot;# of fraudulent transactions (train): </span><span class="si" data-group-id="5592990137-10">#{</span><span class="n">fraud</span><span class="si" data-group-id="5592990137-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="5592990137-9">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5592990137-11">(</span><span class="s">&quot;% fraudlent transactions (train): </span><span class="si" data-group-id="5592990137-12">#{</span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="5592990137-13">(</span><span class="n">fraud</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="p" data-group-id="5592990137-14">(</span><span class="n">legit</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">fraud</span><span class="p" data-group-id="5592990137-14">)</span><span class="p" data-group-id="5592990137-13">)</span><span class="si" data-group-id="5592990137-12">}</span><span class="s">%&quot;</span><span class="p" data-group-id="5592990137-11">)</span></code></pre><p>As always, we define our train loop. We are using <em>binary cross-entropy</em> as our loss function and Adam as the optimizer with a learning rate of 0.01. Then we immediately start the training passing our train portion of the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="5691744702-1">(</span><span class="w">
     </span><span class="ni">&amp;1</span><span class="p">,</span><span class="w">
     </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w">
     </span><span class="ss">negative_weight</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">legit</span><span class="p">,</span><span class="w">
     </span><span class="ss">positive_weight</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">fraud</span><span class="p">,</span><span class="w">
     </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="w">
-  </span><span class="p" data-group-id="8146897832-1">)</span><span class="w">
+  </span><span class="p" data-group-id="5691744702-1">)</span><span class="w">
 
-</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="8146897832-2">(</span><span class="mf">1.0e-2</span><span class="p" data-group-id="8146897832-2">)</span><span class="w">
+</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="5691744702-2">(</span><span class="mf">1.0e-2</span><span class="p" data-group-id="5691744702-2">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8146897832-3">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="8146897832-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8146897832-4">(</span><span class="n">batched_train</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8146897832-5">%{</span><span class="p" data-group-id="8146897832-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">30</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8146897832-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5691744702-3">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="5691744702-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5691744702-4">(</span><span class="n">batched_train</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5691744702-5">%{</span><span class="p" data-group-id="5691744702-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">30</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5691744702-4">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="model-evaluation" class="section-heading">
   <a href="#model-evaluation" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -242,39 +242,39 @@ <h1>
   </a>
   Model evaluation
 </h2>
-<p>After the training, there is only one thing left: testing. Here, we will focus on the number of true positive, true negative, false positive, and false negative values, but also on the likelihood of denying legit and fraudulent transactions.</p><pre><code class="makeup elixir" translate="no"><span class="n">batched_test_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="0431197935-1">(</span><span class="n">test_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="0431197935-1">)</span><span class="w">
-</span><span class="n">batched_test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="0431197935-2">(</span><span class="n">test_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="0431197935-2">)</span><span class="w">
-</span><span class="n">batched_test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="0431197935-3">(</span><span class="n">batched_test_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_targets</span><span class="p" data-group-id="0431197935-3">)</span><span class="w">
-
-</span><span class="n">summarize</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="0431197935-4">fn</span><span class="w"> </span><span class="p" data-group-id="0431197935-5">%</span><span class="nc" data-group-id="0431197935-5">Axon.Loop.State</span><span class="p" data-group-id="0431197935-5">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="0431197935-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="0431197935-6">(</span><span class="n">metrics</span><span class="p" data-group-id="0431197935-7">[</span><span class="s">&quot;fp&quot;</span><span class="p" data-group-id="0431197935-7">]</span><span class="p" data-group-id="0431197935-6">)</span><span class="w">
-  </span><span class="n">legit_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="0431197935-8">(</span><span class="n">metrics</span><span class="p" data-group-id="0431197935-9">[</span><span class="s">&quot;tn&quot;</span><span class="p" data-group-id="0431197935-9">]</span><span class="p" data-group-id="0431197935-8">)</span><span class="w">
-  </span><span class="n">fraud_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="0431197935-10">(</span><span class="n">metrics</span><span class="p" data-group-id="0431197935-11">[</span><span class="s">&quot;fn&quot;</span><span class="p" data-group-id="0431197935-11">]</span><span class="p" data-group-id="0431197935-10">)</span><span class="w">
-  </span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="0431197935-12">(</span><span class="n">metrics</span><span class="p" data-group-id="0431197935-13">[</span><span class="s">&quot;tp&quot;</span><span class="p" data-group-id="0431197935-13">]</span><span class="p" data-group-id="0431197935-12">)</span><span class="w">
+<p>After the training, there is only one thing left: testing. Here, we will focus on the number of true positive, true negative, false positive, and false negative values, but also on the likelihood of denying legit and fraudulent transactions.</p><pre><code class="makeup elixir" translate="no"><span class="n">batched_test_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7593700505-1">(</span><span class="n">test_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="7593700505-1">)</span><span class="w">
+</span><span class="n">batched_test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7593700505-2">(</span><span class="n">test_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="7593700505-2">)</span><span class="w">
+</span><span class="n">batched_test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="7593700505-3">(</span><span class="n">batched_test_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_targets</span><span class="p" data-group-id="7593700505-3">)</span><span class="w">
+
+</span><span class="n">summarize</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7593700505-4">fn</span><span class="w"> </span><span class="p" data-group-id="7593700505-5">%</span><span class="nc" data-group-id="7593700505-5">Axon.Loop.State</span><span class="p" data-group-id="7593700505-5">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="7593700505-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="7593700505-6">(</span><span class="n">metrics</span><span class="p" data-group-id="7593700505-7">[</span><span class="s">&quot;fp&quot;</span><span class="p" data-group-id="7593700505-7">]</span><span class="p" data-group-id="7593700505-6">)</span><span class="w">
+  </span><span class="n">legit_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="7593700505-8">(</span><span class="n">metrics</span><span class="p" data-group-id="7593700505-9">[</span><span class="s">&quot;tn&quot;</span><span class="p" data-group-id="7593700505-9">]</span><span class="p" data-group-id="7593700505-8">)</span><span class="w">
+  </span><span class="n">fraud_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="7593700505-10">(</span><span class="n">metrics</span><span class="p" data-group-id="7593700505-11">[</span><span class="s">&quot;fn&quot;</span><span class="p" data-group-id="7593700505-11">]</span><span class="p" data-group-id="7593700505-10">)</span><span class="w">
+  </span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="7593700505-12">(</span><span class="n">metrics</span><span class="p" data-group-id="7593700505-13">[</span><span class="s">&quot;tp&quot;</span><span class="p" data-group-id="7593700505-13">]</span><span class="p" data-group-id="7593700505-12">)</span><span class="w">
   </span><span class="n">total_fraud</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">fraud_transactions_accepted</span><span class="w">
   </span><span class="n">total_legit</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">legit_transactions_accepted</span><span class="w">
 
-  </span><span class="n">fraud_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="0431197935-14">(</span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_fraud</span><span class="p" data-group-id="0431197935-14">)</span><span class="w">
-  </span><span class="n">legit_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="0431197935-15">(</span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_legit</span><span class="p" data-group-id="0431197935-15">)</span><span class="w">
+  </span><span class="n">fraud_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="7593700505-14">(</span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_fraud</span><span class="p" data-group-id="7593700505-14">)</span><span class="w">
+  </span><span class="n">legit_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="7593700505-15">(</span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_legit</span><span class="p" data-group-id="7593700505-15">)</span><span class="w">
 
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="0431197935-16">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="0431197935-16">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0431197935-17">(</span><span class="s">&quot;Legit Transactions Declined: </span><span class="si" data-group-id="0431197935-18">#{</span><span class="n">legit_transactions_declined</span><span class="si" data-group-id="0431197935-18">}</span><span class="s">&quot;</span><span class="p" data-group-id="0431197935-17">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0431197935-19">(</span><span class="s">&quot;Fraudulent Transactions Caught: </span><span class="si" data-group-id="0431197935-20">#{</span><span class="n">fraud_transactions_declined</span><span class="si" data-group-id="0431197935-20">}</span><span class="s">&quot;</span><span class="p" data-group-id="0431197935-19">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0431197935-21">(</span><span class="s">&quot;Fraudulent Transactions Missed: </span><span class="si" data-group-id="0431197935-22">#{</span><span class="n">fraud_transactions_accepted</span><span class="si" data-group-id="0431197935-22">}</span><span class="s">&quot;</span><span class="p" data-group-id="0431197935-21">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0431197935-23">(</span><span class="s">&quot;Likelihood of catching fraud: </span><span class="si" data-group-id="0431197935-24">#{</span><span class="n">fraud_denial_percent</span><span class="si" data-group-id="0431197935-24">}</span><span class="s">%&quot;</span><span class="p" data-group-id="0431197935-23">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0431197935-25">(</span><span class="s">&quot;Likelihood of denying legit transaction: </span><span class="si" data-group-id="0431197935-26">#{</span><span class="n">legit_denial_percent</span><span class="si" data-group-id="0431197935-26">}</span><span class="s">%&quot;</span><span class="p" data-group-id="0431197935-25">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="7593700505-16">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="7593700505-16">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7593700505-17">(</span><span class="s">&quot;Legit Transactions Declined: </span><span class="si" data-group-id="7593700505-18">#{</span><span class="n">legit_transactions_declined</span><span class="si" data-group-id="7593700505-18">}</span><span class="s">&quot;</span><span class="p" data-group-id="7593700505-17">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7593700505-19">(</span><span class="s">&quot;Fraudulent Transactions Caught: </span><span class="si" data-group-id="7593700505-20">#{</span><span class="n">fraud_transactions_declined</span><span class="si" data-group-id="7593700505-20">}</span><span class="s">&quot;</span><span class="p" data-group-id="7593700505-19">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7593700505-21">(</span><span class="s">&quot;Fraudulent Transactions Missed: </span><span class="si" data-group-id="7593700505-22">#{</span><span class="n">fraud_transactions_accepted</span><span class="si" data-group-id="7593700505-22">}</span><span class="s">&quot;</span><span class="p" data-group-id="7593700505-21">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7593700505-23">(</span><span class="s">&quot;Likelihood of catching fraud: </span><span class="si" data-group-id="7593700505-24">#{</span><span class="n">fraud_denial_percent</span><span class="si" data-group-id="7593700505-24">}</span><span class="s">%&quot;</span><span class="p" data-group-id="7593700505-23">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7593700505-25">(</span><span class="s">&quot;Likelihood of denying legit transaction: </span><span class="si" data-group-id="7593700505-26">#{</span><span class="n">legit_denial_percent</span><span class="si" data-group-id="7593700505-26">}</span><span class="s">%&quot;</span><span class="p" data-group-id="7593700505-25">)</span><span class="w">
 
-  </span><span class="p" data-group-id="0431197935-27">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0431197935-27">}</span><span class="w">
-</span><span class="k" data-group-id="0431197935-4">end</span><span class="w">
+  </span><span class="p" data-group-id="7593700505-27">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7593700505-27">}</span><span class="w">
+</span><span class="k" data-group-id="7593700505-4">end</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="0431197935-28">(</span><span class="p" data-group-id="0431197935-28">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0431197935-29">(</span><span class="ss">:true_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="0431197935-29">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0431197935-30">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="0431197935-30">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0431197935-31">(</span><span class="ss">:false_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="0431197935-31">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0431197935-32">(</span><span class="ss">:false_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="0431197935-32">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="0431197935-33">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">summarize</span><span class="p" data-group-id="0431197935-33">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0431197935-34">(</span><span class="n">batched_test</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0431197935-34">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="7593700505-28">(</span><span class="p" data-group-id="7593700505-28">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7593700505-29">(</span><span class="ss">:true_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="7593700505-29">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7593700505-30">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="7593700505-30">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7593700505-31">(</span><span class="ss">:false_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="7593700505-31">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7593700505-32">(</span><span class="ss">:false_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="7593700505-32">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="7593700505-33">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">summarize</span><span class="p" data-group-id="7593700505-33">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7593700505-34">(</span><span class="n">batched_test</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7593700505-34">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre>
 <div class="bottom-actions">
diff --git a/custom_layers.html b/custom_layers.html
index 1f5f555b..b506a69a 100644
--- a/custom_layers.html
+++ b/custom_layers.html
@@ -115,104 +115,104 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3533836889-1">(</span><span class="p" data-group-id="3533836889-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3533836889-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="3533836889-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3533836889-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3533836889-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3533836889-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="3533836889-5">}</span><span class="w">
-</span><span class="p" data-group-id="3533836889-2">]</span><span class="p" data-group-id="3533836889-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-custom-layers" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="7449911112-1">(</span><span class="p" data-group-id="7449911112-2">[</span><span class="w">
+  </span><span class="p" data-group-id="7449911112-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="7449911112-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7449911112-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7449911112-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7449911112-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="7449911112-5">}</span><span class="w">
+</span><span class="p" data-group-id="7449911112-2">]</span><span class="p" data-group-id="7449911112-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-custom-layers" class="section-heading">
   <a href="#creating-custom-layers" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-custom-layers</p>
   </a>
   Creating custom layers
 </h2>
-<p>While Axon has a plethora of built-in layers, more than likely you'll run into a case where you need something not provided by the framework. In these instances, you can use <em>custom layers</em>.</p><p>To Axon, layers are really just <code class="inline">defn</code> implementations with special Axon inputs. Every layer in Axon (including the built-in layers), are implemented with the <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> function. The API of <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> intentionally mirrors the API of <a href="https://hexdocs.pm/elixir/Kernel.html#apply/2"><code class="inline">Kernel.apply/2</code></a>. To declare a custom layer you need 2 things:</p><ol><li>A <code class="inline">defn</code> implementation</li><li>Inputs</li></ol><p>The <code class="inline">defn</code> implementation looks like any other <code class="inline">defn</code> you'd write; however, it must always account for additional <code class="inline">opts</code> as an argument:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="w"> </span><span class="k" data-group-id="1862736838-1">do</span><span class="w">
+<p>While Axon has a plethora of built-in layers, more than likely you'll run into a case where you need something not provided by the framework. In these instances, you can use <em>custom layers</em>.</p><p>To Axon, layers are really just <code class="inline">defn</code> implementations with special Axon inputs. Every layer in Axon (including the built-in layers), are implemented with the <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> function. The API of <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> intentionally mirrors the API of <a href="https://hexdocs.pm/elixir/Kernel.html#apply/2"><code class="inline">Kernel.apply/2</code></a>. To declare a custom layer you need 2 things:</p><ol><li>A <code class="inline">defn</code> implementation</li><li>Inputs</li></ol><p>The <code class="inline">defn</code> implementation looks like any other <code class="inline">defn</code> you'd write; however, it must always account for additional <code class="inline">opts</code> as an argument:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="w"> </span><span class="k" data-group-id="9590683852-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="1862736838-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1862736838-3">[</span><span class="p" data-group-id="1862736838-3">]</span><span class="p" data-group-id="1862736838-2">)</span><span class="w"> </span><span class="k" data-group-id="1862736838-4">do</span><span class="w">
-    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="1862736838-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1862736838-5">)</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="9590683852-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="9590683852-3">[</span><span class="p" data-group-id="9590683852-3">]</span><span class="p" data-group-id="9590683852-2">)</span><span class="w"> </span><span class="k" data-group-id="9590683852-4">do</span><span class="w">
+    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="9590683852-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9590683852-5">)</span><span class="w">
 
     </span><span class="n">input</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="1862736838-6">(</span><span class="p" data-group-id="1862736838-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="1862736838-7">(</span><span class="n">opts</span><span class="p" data-group-id="1862736838-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="1862736838-8">]</span><span class="p" data-group-id="1862736838-7">)</span><span class="w">
-  </span><span class="k" data-group-id="1862736838-4">end</span><span class="w">
-</span><span class="k" data-group-id="1862736838-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1248982237-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1248982237-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1248982237-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1248982237-3">{</span><span class="ss">:my_layer</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1248982237-3">}</span><span class="p" data-group-id="1248982237-1">}</span></code></pre><p>Regardless of the options you configure your layer to accept, the <code class="inline">defn</code> implementation will always receive a <code class="inline">:mode</code> option indicating whether or not the model is running in training or inference mode. You can customize the behavior of your layer depending on the mode.</p><p>With an implementation defined, you need only to call <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> to apply our custom layer to an Axon input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3672959854-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3672959854-1">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="9590683852-6">(</span><span class="p" data-group-id="9590683852-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="9590683852-7">(</span><span class="n">opts</span><span class="p" data-group-id="9590683852-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="9590683852-8">]</span><span class="p" data-group-id="9590683852-7">)</span><span class="w">
+  </span><span class="k" data-group-id="9590683852-4">end</span><span class="w">
+</span><span class="k" data-group-id="9590683852-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5194083369-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5194083369-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5194083369-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5194083369-3">{</span><span class="ss">:my_layer</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5194083369-3">}</span><span class="p" data-group-id="5194083369-1">}</span></code></pre><p>Regardless of the options you configure your layer to accept, the <code class="inline">defn</code> implementation will always receive a <code class="inline">:mode</code> option indicating whether or not the model is running in training or inference mode. You can customize the behavior of your layer depending on the mode.</p><p>With an implementation defined, you need only to call <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> to apply our custom layer to an Axon input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6259620307-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6259620307-1">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="3672959854-2">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3672959854-3">[</span><span class="n">input</span><span class="p" data-group-id="3672959854-3">]</span><span class="p" data-group-id="3672959854-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2821128223-1">#</span><span class="nc" data-group-id="2821128223-1">Axon</span><span class="p" data-group-id="2821128223-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2821128223-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="2821128223-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="6259620307-2">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6259620307-3">[</span><span class="n">input</span><span class="p" data-group-id="6259620307-3">]</span><span class="p" data-group-id="6259620307-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5226353239-1">#</span><span class="nc" data-group-id="5226353239-1">Axon</span><span class="p" data-group-id="5226353239-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5226353239-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="5226353239-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;custom_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="2821128223-1">&gt;</span></code></pre><p>Now you can inspect and execute your model as normal:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="9078176079-1">(</span><span class="p" data-group-id="9078176079-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="9078176079-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="9078176079-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="9078176079-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="9078176079-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="5226353239-1">&gt;</span></code></pre><p>Now you can inspect and execute your model as normal:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4660080304-1">(</span><span class="p" data-group-id="4660080304-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4660080304-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4660080304-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="4660080304-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="4660080304-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 4[&quot;custom_0 (:custom) {2, 8}&quot;];
-3 --&gt; 4;</code></pre><p>Notice that by default custom layers render with a default operation marked as <code class="inline">:custom</code>. This can make it difficult to determine which layer is which during inspection. You can control the rendering by passing <code class="inline">:op_name</code> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="3711901543-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3711901543-2">[</span><span class="n">input</span><span class="p" data-group-id="3711901543-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="3711901543-1">)</span><span class="w">
+3 --&gt; 4;</code></pre><p>Notice that by default custom layers render with a default operation marked as <code class="inline">:custom</code>. This can make it difficult to determine which layer is which during inspection. You can control the rendering by passing <code class="inline">:op_name</code> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="7096449129-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7096449129-2">[</span><span class="n">input</span><span class="p" data-group-id="7096449129-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="7096449129-1">)</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="3711901543-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="3711901543-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="7096449129-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="7096449129-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 5[&quot;my_layer_0 (:my_layer) {2, 8}&quot;];
 3 --&gt; 5;</code></pre><p>You can also control the name of your layer via the <code class="inline">:name</code> option. All other options are forwarded to the layer implementation function:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="4349632892-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4349632892-2">[</span><span class="n">input</span><span class="p" data-group-id="4349632892-2">]</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="0599678399-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0599678399-2">[</span><span class="n">input</span><span class="p" data-group-id="0599678399-2">]</span><span class="p">,</span><span class="w">
     </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;layer&quot;</span><span class="p">,</span><span class="w">
     </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p">,</span><span class="w">
     </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">2.0</span><span class="w">
-  </span><span class="p" data-group-id="4349632892-1">)</span><span class="w">
+  </span><span class="p" data-group-id="0599678399-1">)</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="4349632892-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="4349632892-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0599678399-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="0599678399-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 6[&quot;layer (:my_layer) {2, 8}&quot;];
-3 --&gt; 6;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0548676206-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0548676206-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0548676206-2">(</span><span class="n">out</span><span class="p" data-group-id="0548676206-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0548676206-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0548676206-4">%{</span><span class="p" data-group-id="0548676206-4">}</span><span class="p" data-group-id="0548676206-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9527776757-1">%{</span><span class="p" data-group-id="9527776757-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6494340581-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6494340581-2">(</span><span class="p" data-group-id="6494340581-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6494340581-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6494340581-2">)</span><span class="p" data-group-id="6494340581-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4829855516-1">#</span><span class="nc" data-group-id="4829855516-1">Nx.Tensor</span><span class="p" data-group-id="4829855516-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4829855516-2">[</span><span class="mi">2</span><span class="p" data-group-id="4829855516-2">]</span><span class="p" data-group-id="4829855516-3">[</span><span class="mi">8</span><span class="p" data-group-id="4829855516-3">]</span><span class="w">
-  </span><span class="p" data-group-id="4829855516-4">[</span><span class="w">
-    </span><span class="p" data-group-id="4829855516-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6829419136047363</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8185948133468628</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28224000334739685</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.513604998588562</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9178485870361328</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.558830976486206</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3139731884002686</span><span class="p" data-group-id="4829855516-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4829855516-6">[</span><span class="mf">1.978716492652893</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8242369890213013</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0880422592163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9999804496765137</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.073145866394043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8403340578079224</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9812147617340088</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3005757331848145</span><span class="p" data-group-id="4829855516-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4829855516-4">]</span><span class="w">
-</span><span class="p" data-group-id="4829855516-1">&gt;</span></code></pre><p>Notice that this model does not have any trainable parameters because none of the layers have trainable parameters. You can introduce trainable parameters by passing inputs created with <a href="Axon.html#param/3"><code class="inline">Axon.param/3</code></a> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>. For example, you can modify your original custom layer to take an additional trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="w"> </span><span class="k" data-group-id="6144622187-1">do</span><span class="w">
+3 --&gt; 6;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4544683457-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4544683457-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4544683457-2">(</span><span class="n">out</span><span class="p" data-group-id="4544683457-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4544683457-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4544683457-4">%{</span><span class="p" data-group-id="4544683457-4">}</span><span class="p" data-group-id="4544683457-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1365920565-1">%{</span><span class="p" data-group-id="1365920565-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="2789519607-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2789519607-2">(</span><span class="p" data-group-id="2789519607-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="2789519607-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="2789519607-2">)</span><span class="p" data-group-id="2789519607-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2053568130-1">#</span><span class="nc" data-group-id="2053568130-1">Nx.Tensor</span><span class="p" data-group-id="2053568130-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2053568130-2">[</span><span class="mi">2</span><span class="p" data-group-id="2053568130-2">]</span><span class="p" data-group-id="2053568130-3">[</span><span class="mi">8</span><span class="p" data-group-id="2053568130-3">]</span><span class="w">
+  </span><span class="p" data-group-id="2053568130-4">[</span><span class="w">
+    </span><span class="p" data-group-id="2053568130-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6829419136047363</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8185948133468628</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28224000334739685</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.513604998588562</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9178485870361328</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.558830976486206</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3139731884002686</span><span class="p" data-group-id="2053568130-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2053568130-6">[</span><span class="mf">1.978716492652893</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8242369890213013</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0880422592163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9999804496765137</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.073145866394043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8403340578079224</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9812147617340088</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3005757331848145</span><span class="p" data-group-id="2053568130-6">]</span><span class="w">
+  </span><span class="p" data-group-id="2053568130-4">]</span><span class="w">
+</span><span class="p" data-group-id="2053568130-1">&gt;</span></code></pre><p>Notice that this model does not have any trainable parameters because none of the layers have trainable parameters. You can introduce trainable parameters by passing inputs created with <a href="Axon.html#param/3"><code class="inline">Axon.param/3</code></a> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>. For example, you can modify your original custom layer to take an additional trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="w"> </span><span class="k" data-group-id="7567496036-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="6144622187-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="6144622187-3">[</span><span class="p" data-group-id="6144622187-3">]</span><span class="p" data-group-id="6144622187-2">)</span><span class="w"> </span><span class="k" data-group-id="6144622187-4">do</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="7567496036-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="7567496036-3">[</span><span class="p" data-group-id="7567496036-3">]</span><span class="p" data-group-id="7567496036-2">)</span><span class="w"> </span><span class="k" data-group-id="7567496036-4">do</span><span class="w">
     </span><span class="n">input</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="6144622187-5">(</span><span class="p" data-group-id="6144622187-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6144622187-6">(</span><span class="n">alpha</span><span class="p" data-group-id="6144622187-6">)</span><span class="w">
-  </span><span class="k" data-group-id="6144622187-4">end</span><span class="w">
-</span><span class="k" data-group-id="6144622187-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8524655640-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8524655640-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8524655640-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8524655640-3">{</span><span class="ss">:my_layer</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8524655640-3">}</span><span class="p" data-group-id="8524655640-1">}</span></code></pre><p>And then construct the layer with a regular Axon input and a trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="9727282713-1">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="9727282713-2">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="9727282713-3">{</span><span class="p" data-group-id="9727282713-3">}</span><span class="w"> </span><span class="k" data-group-id="9727282713-2">end</span><span class="p" data-group-id="9727282713-1">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="7567496036-5">(</span><span class="p" data-group-id="7567496036-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="7567496036-6">(</span><span class="n">alpha</span><span class="p" data-group-id="7567496036-6">)</span><span class="w">
+  </span><span class="k" data-group-id="7567496036-4">end</span><span class="w">
+</span><span class="k" data-group-id="7567496036-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1089884744-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1089884744-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1089884744-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1089884744-3">{</span><span class="ss">:my_layer</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1089884744-3">}</span><span class="p" data-group-id="1089884744-1">}</span></code></pre><p>And then construct the layer with a regular Axon input and a trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="3023047506-1">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="3023047506-2">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="3023047506-3">{</span><span class="p" data-group-id="3023047506-3">}</span><span class="w"> </span><span class="k" data-group-id="3023047506-2">end</span><span class="p" data-group-id="3023047506-1">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="9727282713-4">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9727282713-5">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="9727282713-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="9727282713-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3866809684-1">#</span><span class="nc" data-group-id="3866809684-1">Axon</span><span class="p" data-group-id="3866809684-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3866809684-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="3866809684-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="3023047506-4">(</span><span class="o">&amp;</span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3023047506-5">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="3023047506-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="3023047506-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6041029285-1">#</span><span class="nc" data-group-id="6041029285-1">Axon</span><span class="p" data-group-id="6041029285-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6041029285-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6041029285-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;my_layer_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="3866809684-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4935636839-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4935636839-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4935636839-2">(</span><span class="n">out</span><span class="p" data-group-id="4935636839-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4935636839-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4935636839-4">%{</span><span class="p" data-group-id="4935636839-4">}</span><span class="p" data-group-id="4935636839-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4270997126-1">%{</span><span class="w">
-  </span><span class="s">&quot;my_layer_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4270997126-2">%{</span><span class="w">
-    </span><span class="s">&quot;alpha&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4270997126-3">#</span><span class="nc" data-group-id="4270997126-3">Nx.Tensor</span><span class="p" data-group-id="4270997126-3">&lt;</span><span class="w">
+</span><span class="p" data-group-id="6041029285-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0018078327-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0018078327-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0018078327-2">(</span><span class="n">out</span><span class="p" data-group-id="0018078327-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0018078327-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0018078327-4">%{</span><span class="p" data-group-id="0018078327-4">}</span><span class="p" data-group-id="0018078327-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9491701757-1">%{</span><span class="w">
+  </span><span class="s">&quot;my_layer_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9491701757-2">%{</span><span class="w">
+    </span><span class="s">&quot;alpha&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9491701757-3">#</span><span class="nc" data-group-id="9491701757-3">Nx.Tensor</span><span class="p" data-group-id="9491701757-3">&lt;</span><span class="w">
       </span><span class="n">f32</span><span class="w">
       </span><span class="mf">1.194254994392395</span><span class="w">
-    </span><span class="p" data-group-id="4270997126-3">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4270997126-2">}</span><span class="w">
-</span><span class="p" data-group-id="4270997126-1">}</span></code></pre><p>Notice how your model now initializes with a trainable parameter <code class="inline">&quot;alpha&quot;</code> for your custom layer. Each parameter requires a unique (per-layer) string name and a function which determines the parameter's shape from the layer's input shapes.</p><p>If you plan on re-using custom layers in many locations, it's recommended that you wrap them in an Elixir function as an interface:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="w"> </span><span class="k" data-group-id="8942462859-1">do</span><span class="w">
+    </span><span class="p" data-group-id="9491701757-3">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9491701757-2">}</span><span class="w">
+</span><span class="p" data-group-id="9491701757-1">}</span></code></pre><p>Notice how your model now initializes with a trainable parameter <code class="inline">&quot;alpha&quot;</code> for your custom layer. Each parameter requires a unique (per-layer) string name and a function which determines the parameter's shape from the layer's input shapes.</p><p>If you plan on re-using custom layers in many locations, it's recommended that you wrap them in an Elixir function as an interface:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="w"> </span><span class="k" data-group-id="3367191434-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="8942462859-2">(</span><span class="p" data-group-id="8942462859-3">%</span><span class="nc" data-group-id="8942462859-3">Axon</span><span class="p" data-group-id="8942462859-3">{</span><span class="p" data-group-id="8942462859-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="8942462859-4">[</span><span class="p" data-group-id="8942462859-4">]</span><span class="p" data-group-id="8942462859-2">)</span><span class="w"> </span><span class="k" data-group-id="8942462859-5">do</span><span class="w">
-    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Keyword</span><span class="o">.</span><span class="n">validate!</span><span class="p" data-group-id="8942462859-6">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8942462859-7">[</span><span class="ss">:name</span><span class="p" data-group-id="8942462859-7">]</span><span class="p" data-group-id="8942462859-6">)</span><span class="w">
-    </span><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="8942462859-8">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="8942462859-9">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="8942462859-10">{</span><span class="p" data-group-id="8942462859-10">}</span><span class="w"> </span><span class="k" data-group-id="8942462859-9">end</span><span class="p" data-group-id="8942462859-8">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="3367191434-2">(</span><span class="p" data-group-id="3367191434-3">%</span><span class="nc" data-group-id="3367191434-3">Axon</span><span class="p" data-group-id="3367191434-3">{</span><span class="p" data-group-id="3367191434-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="3367191434-4">[</span><span class="p" data-group-id="3367191434-4">]</span><span class="p" data-group-id="3367191434-2">)</span><span class="w"> </span><span class="k" data-group-id="3367191434-5">do</span><span class="w">
+    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Keyword</span><span class="o">.</span><span class="n">validate!</span><span class="p" data-group-id="3367191434-6">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3367191434-7">[</span><span class="ss">:name</span><span class="p" data-group-id="3367191434-7">]</span><span class="p" data-group-id="3367191434-6">)</span><span class="w">
+    </span><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="3367191434-8">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="3367191434-9">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="3367191434-10">{</span><span class="p" data-group-id="3367191434-10">}</span><span class="w"> </span><span class="k" data-group-id="3367191434-9">end</span><span class="p" data-group-id="3367191434-8">)</span><span class="w">
 
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="8942462859-11">(</span><span class="o">&amp;</span><span class="n">my_layer_impl</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8942462859-12">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="8942462859-12">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="8942462859-13">[</span><span class="ss">:name</span><span class="p" data-group-id="8942462859-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="8942462859-11">)</span><span class="w">
-  </span><span class="k" data-group-id="8942462859-5">end</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="3367191434-11">(</span><span class="o">&amp;</span><span class="n">my_layer_impl</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3367191434-12">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="3367191434-12">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="3367191434-13">[</span><span class="ss">:name</span><span class="p" data-group-id="3367191434-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="3367191434-11">)</span><span class="w">
+  </span><span class="k" data-group-id="3367191434-5">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">my_layer_impl</span><span class="p" data-group-id="8942462859-14">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="8942462859-15">[</span><span class="p" data-group-id="8942462859-15">]</span><span class="p" data-group-id="8942462859-14">)</span><span class="w"> </span><span class="k" data-group-id="8942462859-16">do</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">my_layer_impl</span><span class="p" data-group-id="3367191434-14">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="3367191434-15">[</span><span class="p" data-group-id="3367191434-15">]</span><span class="p" data-group-id="3367191434-14">)</span><span class="w"> </span><span class="k" data-group-id="3367191434-16">do</span><span class="w">
     </span><span class="n">input</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="8942462859-17">(</span><span class="p" data-group-id="8942462859-17">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="8942462859-18">(</span><span class="n">alpha</span><span class="p" data-group-id="8942462859-18">)</span><span class="w">
-  </span><span class="k" data-group-id="8942462859-16">end</span><span class="w">
-</span><span class="k" data-group-id="8942462859-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9969470610-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9969470610-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">13</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="9969470610-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9969470610-3">{</span><span class="ss">:my_layer_impl</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9969470610-3">}</span><span class="p" data-group-id="9969470610-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="3367191434-17">(</span><span class="p" data-group-id="3367191434-17">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3367191434-18">(</span><span class="n">alpha</span><span class="p" data-group-id="3367191434-18">)</span><span class="w">
+  </span><span class="k" data-group-id="3367191434-16">end</span><span class="w">
+</span><span class="k" data-group-id="3367191434-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5387215069-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5387215069-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">13</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5387215069-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5387215069-3">{</span><span class="ss">:my_layer_impl</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5387215069-3">}</span><span class="p" data-group-id="5387215069-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">input</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="8738586735-1">(</span><span class="p" data-group-id="8738586735-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="8738586735-2">(</span><span class="p" data-group-id="8738586735-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8738586735-3">(</span><span class="mi">1</span><span class="p" data-group-id="8738586735-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3838307739-1">#</span><span class="nc" data-group-id="3838307739-1">Axon</span><span class="p" data-group-id="3838307739-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3838307739-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="3838307739-2">}</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="4331261465-1">(</span><span class="p" data-group-id="4331261465-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="4331261465-2">(</span><span class="p" data-group-id="4331261465-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4331261465-3">(</span><span class="mi">1</span><span class="p" data-group-id="4331261465-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3078772679-1">#</span><span class="nc" data-group-id="3078772679-1">Axon</span><span class="p" data-group-id="3078772679-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3078772679-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="3078772679-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;dense_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
-</span><span class="p" data-group-id="3838307739-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="8336603376-1">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="8336603376-1">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="3078772679-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="7203823342-1">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="7203823342-1">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 10[&quot;my_layer_0 (:my_layer) {2, 8}&quot;];
 12[&quot;my_layer_1 (:my_layer) {2, 8}&quot;];
diff --git a/custom_models_loss_optimizers.html b/custom_models_loss_optimizers.html
index 9d7e9b0e..a326757f 100644
--- a/custom_models_loss_optimizers.html
+++ b/custom_models_loss_optimizers.html
@@ -115,320 +115,320 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4788778487-1">(</span><span class="p" data-group-id="4788778487-2">[</span><span class="w">
-  </span><span class="p" data-group-id="4788778487-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="4788778487-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="4788778487-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4788778487-4">}</span><span class="w">
-</span><span class="p" data-group-id="4788778487-2">]</span><span class="p" data-group-id="4788778487-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-custom-models-in-training-loops" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="7225550423-1">(</span><span class="p" data-group-id="7225550423-2">[</span><span class="w">
+  </span><span class="p" data-group-id="7225550423-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="7225550423-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7225550423-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7225550423-4">}</span><span class="w">
+</span><span class="p" data-group-id="7225550423-2">]</span><span class="p" data-group-id="7225550423-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-custom-models-in-training-loops" class="section-heading">
   <a href="#using-custom-models-in-training-loops" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">using-custom-models-in-training-loops</p>
   </a>
   Using custom models in training loops
 </h2>
 <p>In the <a href="your_first_training_loop.html">Your first training loop</a>, you learned how to declare a supervised training loop using <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> with a model, loss function, and optimizer. Your overall model and loop declaration looked something like this:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8177872793-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8177872793-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8177872793-2">(</span><span class="mi">8</span><span class="p" data-group-id="8177872793-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8177872793-3">(</span><span class="p" data-group-id="8177872793-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8177872793-4">(</span><span class="mi">4</span><span class="p" data-group-id="8177872793-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8177872793-5">(</span><span class="p" data-group-id="8177872793-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8177872793-6">(</span><span class="mi">1</span><span class="p" data-group-id="8177872793-6">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8177872793-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8177872793-7">)</span></code></pre><p>This example uses an <code class="inline">%Axon{}</code> struct to represent your <code class="inline">model</code> to train, and atoms to represent your loss function and optimizer. Some of your problems will require a bit more flexibility than this example affords. Fortunately, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is designed for flexibility.</p><p>For example, if your model cannot be cleanly represented as an <code class="inline">%Axon{}</code> model, you can instead opt instead to define custom initialization and forward functions to pass to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. Actually, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing this for you under the hood - the ability to pass an <code class="inline">%Axon{}</code> struct directly is just a convenience:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8293417318-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8293417318-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8293417318-2">(</span><span class="mi">8</span><span class="p" data-group-id="8293417318-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8293417318-3">(</span><span class="p" data-group-id="8293417318-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8293417318-4">(</span><span class="mi">4</span><span class="p" data-group-id="8293417318-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8293417318-5">(</span><span class="p" data-group-id="8293417318-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8293417318-6">(</span><span class="mi">1</span><span class="p" data-group-id="8293417318-6">)</span><span class="w">
-
-</span><span class="n">lowered_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8293417318-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8293417318-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8293417318-8">(</span><span class="n">model</span><span class="p" data-group-id="8293417318-8">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8293417318-9">(</span><span class="n">lowered_model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8293417318-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7877569959-1">#</span><span class="nc" data-group-id="7877569959-1">Axon.Loop</span><span class="p" data-group-id="7877569959-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-3">[</span><span class="p" data-group-id="7877569959-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-4">[</span><span class="w">
-      </span><span class="p" data-group-id="7877569959-5">{</span><span class="p" data-group-id="7877569959-6">#</span><span class="nc" data-group-id="7877569959-6">Function</span><span class="p" data-group-id="7877569959-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="7877569959-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="7877569959-7">#</span><span class="nc" data-group-id="7877569959-7">Function</span><span class="p" data-group-id="7877569959-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7877569959-7">&gt;</span><span class="p" data-group-id="7877569959-5">}</span><span class="w">
-    </span><span class="p" data-group-id="7877569959-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-8">[</span><span class="p" data-group-id="7877569959-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-9">[</span><span class="p" data-group-id="7877569959-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-10">[</span><span class="p" data-group-id="7877569959-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-11">[</span><span class="w">
-      </span><span class="p" data-group-id="7877569959-12">{</span><span class="p" data-group-id="7877569959-13">#</span><span class="nc" data-group-id="7877569959-13">Function</span><span class="p" data-group-id="7877569959-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="7877569959-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="7877569959-14">#</span><span class="nc" data-group-id="7877569959-14">Function</span><span class="p" data-group-id="7877569959-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7877569959-14">&gt;</span><span class="p" data-group-id="7877569959-12">}</span><span class="w">
-    </span><span class="p" data-group-id="7877569959-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-15">[</span><span class="p" data-group-id="7877569959-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-16">[</span><span class="p" data-group-id="7877569959-16">]</span><span class="w">
-  </span><span class="p" data-group-id="7877569959-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7877569959-17">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7877569959-18">{</span><span class="p" data-group-id="7877569959-19">#</span><span class="nc" data-group-id="7877569959-19">Function</span><span class="p" data-group-id="7877569959-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7877569959-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="7877569959-20">#</span><span class="nc" data-group-id="7877569959-20">Function</span><span class="p" data-group-id="7877569959-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7877569959-20">&gt;</span><span class="p" data-group-id="7877569959-18">}</span><span class="w">
-  </span><span class="p" data-group-id="7877569959-17">}</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1337073426-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="1337073426-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1337073426-2">(</span><span class="mi">8</span><span class="p" data-group-id="1337073426-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1337073426-3">(</span><span class="p" data-group-id="1337073426-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1337073426-4">(</span><span class="mi">4</span><span class="p" data-group-id="1337073426-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1337073426-5">(</span><span class="p" data-group-id="1337073426-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1337073426-6">(</span><span class="mi">1</span><span class="p" data-group-id="1337073426-6">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1337073426-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1337073426-7">)</span></code></pre><p>This example uses an <code class="inline">%Axon{}</code> struct to represent your <code class="inline">model</code> to train, and atoms to represent your loss function and optimizer. Some of your problems will require a bit more flexibility than this example affords. Fortunately, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is designed for flexibility.</p><p>For example, if your model cannot be cleanly represented as an <code class="inline">%Axon{}</code> model, you can instead opt instead to define custom initialization and forward functions to pass to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. Actually, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing this for you under the hood - the ability to pass an <code class="inline">%Axon{}</code> struct directly is just a convenience:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8025008452-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8025008452-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8025008452-2">(</span><span class="mi">8</span><span class="p" data-group-id="8025008452-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8025008452-3">(</span><span class="p" data-group-id="8025008452-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8025008452-4">(</span><span class="mi">4</span><span class="p" data-group-id="8025008452-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8025008452-5">(</span><span class="p" data-group-id="8025008452-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8025008452-6">(</span><span class="mi">1</span><span class="p" data-group-id="8025008452-6">)</span><span class="w">
+
+</span><span class="n">lowered_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8025008452-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8025008452-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8025008452-8">(</span><span class="n">model</span><span class="p" data-group-id="8025008452-8">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8025008452-9">(</span><span class="n">lowered_model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8025008452-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7196069354-1">#</span><span class="nc" data-group-id="7196069354-1">Axon.Loop</span><span class="p" data-group-id="7196069354-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-3">[</span><span class="p" data-group-id="7196069354-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-4">[</span><span class="w">
+      </span><span class="p" data-group-id="7196069354-5">{</span><span class="p" data-group-id="7196069354-6">#</span><span class="nc" data-group-id="7196069354-6">Function</span><span class="p" data-group-id="7196069354-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="7196069354-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="7196069354-7">#</span><span class="nc" data-group-id="7196069354-7">Function</span><span class="p" data-group-id="7196069354-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7196069354-7">&gt;</span><span class="p" data-group-id="7196069354-5">}</span><span class="w">
+    </span><span class="p" data-group-id="7196069354-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-8">[</span><span class="p" data-group-id="7196069354-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-9">[</span><span class="p" data-group-id="7196069354-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-10">[</span><span class="p" data-group-id="7196069354-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-11">[</span><span class="w">
+      </span><span class="p" data-group-id="7196069354-12">{</span><span class="p" data-group-id="7196069354-13">#</span><span class="nc" data-group-id="7196069354-13">Function</span><span class="p" data-group-id="7196069354-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="7196069354-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="7196069354-14">#</span><span class="nc" data-group-id="7196069354-14">Function</span><span class="p" data-group-id="7196069354-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7196069354-14">&gt;</span><span class="p" data-group-id="7196069354-12">}</span><span class="w">
+    </span><span class="p" data-group-id="7196069354-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-15">[</span><span class="p" data-group-id="7196069354-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-16">[</span><span class="p" data-group-id="7196069354-16">]</span><span class="w">
+  </span><span class="p" data-group-id="7196069354-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196069354-17">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7196069354-18">{</span><span class="p" data-group-id="7196069354-19">#</span><span class="nc" data-group-id="7196069354-19">Function</span><span class="p" data-group-id="7196069354-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7196069354-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="7196069354-20">#</span><span class="nc" data-group-id="7196069354-20">Function</span><span class="p" data-group-id="7196069354-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7196069354-20">&gt;</span><span class="p" data-group-id="7196069354-18">}</span><span class="w">
+  </span><span class="p" data-group-id="7196069354-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="7877569959-1">&gt;</span></code></pre><p>Notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> handles the &quot;lowered&quot; form of an Axon model without issue. When you pass an <code class="inline">%Axon{}</code> struct, the trainer factory converts it to a lowered representation for you. With this construct, you can build custom models entirely with Nx <code class="inline">defn</code>, or readily mix your Axon models into custom workflows without worrying about compatibility with the <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> API:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomModel</span><span class="w"> </span><span class="k" data-group-id="4583694599-1">do</span><span class="w">
+</span><span class="p" data-group-id="7196069354-1">&gt;</span></code></pre><p>Notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> handles the &quot;lowered&quot; form of an Axon model without issue. When you pass an <code class="inline">%Axon{}</code> struct, the trainer factory converts it to a lowered representation for you. With this construct, you can build custom models entirely with Nx <code class="inline">defn</code>, or readily mix your Axon models into custom workflows without worrying about compatibility with the <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> API:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomModel</span><span class="w"> </span><span class="k" data-group-id="0026442022-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">custom_predict_fn</span><span class="p" data-group-id="4583694599-2">(</span><span class="n">model_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="4583694599-2">)</span><span class="w"> </span><span class="k" data-group-id="4583694599-3">do</span><span class="w">
-    </span><span class="p" data-group-id="4583694599-4">%{</span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="n">preds</span><span class="p" data-group-id="4583694599-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_predict_fn</span><span class="o">.</span><span class="p" data-group-id="4583694599-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="4583694599-5">)</span><span class="w">
-    </span><span class="p" data-group-id="4583694599-6">%{</span><span class="n">out</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="4583694599-7">(</span><span class="n">preds</span><span class="p" data-group-id="4583694599-7">)</span><span class="p" data-group-id="4583694599-6">}</span><span class="w">
-  </span><span class="k" data-group-id="4583694599-3">end</span><span class="w">
-</span><span class="k" data-group-id="4583694599-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0830934384-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0830934384-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0830934384-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0830934384-3">{</span><span class="ss">:custom_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0830934384-3">}</span><span class="p" data-group-id="0830934384-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="7935987165-1">(</span><span class="k" data-group-id="7935987165-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="7935987165-3">(</span><span class="p" data-group-id="7935987165-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7935987165-4">}</span><span class="p" data-group-id="7935987165-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="7935987165-5">(</span><span class="n">xs</span><span class="p" data-group-id="7935987165-5">)</span><span class="w">
-    </span><span class="p" data-group-id="7935987165-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="7935987165-6">}</span><span class="w">
-  </span><span class="k" data-group-id="7935987165-2">end</span><span class="p" data-group-id="7935987165-1">)</span><span class="w">
-
-</span><span class="p" data-group-id="7935987165-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7935987165-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7935987165-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="7935987165-8">)</span><span class="w">
-</span><span class="n">custom_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomModel</span><span class="o">.</span><span class="n">custom_predict_fn</span><span class="p" data-group-id="7935987165-9">(</span><span class="n">predict_fn</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="7935987165-9">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7935987165-10">(</span><span class="p" data-group-id="7935987165-11">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">custom_predict_fn</span><span class="p" data-group-id="7935987165-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7935987165-10">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7935987165-12">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7935987165-13">%{</span><span class="p" data-group-id="7935987165-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="7935987165-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3053460</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8989074755-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-3">#</span><span class="nc" data-group-id="8989074755-3">Nx.Tensor</span><span class="p" data-group-id="8989074755-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8989074755-4">[</span><span class="mi">8</span><span class="p" data-group-id="8989074755-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-5">[</span><span class="o">-</span><span class="mf">0.06573846191167831</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37533989548683167</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014221129938960075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0056641618721187115</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.013241665437817574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04930500313639641</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03238297998905182</span><span class="p">,</span><span class="w"> </span><span class="mf">0.019304191693663597</span><span class="p" data-group-id="8989074755-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8989074755-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-6">#</span><span class="nc" data-group-id="8989074755-6">Nx.Tensor</span><span class="p" data-group-id="8989074755-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8989074755-7">[</span><span class="mi">1</span><span class="p" data-group-id="8989074755-7">]</span><span class="p" data-group-id="8989074755-8">[</span><span class="mi">8</span><span class="p" data-group-id="8989074755-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-10">[</span><span class="o">-</span><span class="mf">0.3132522702217102</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9284062385559082</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5041953921318054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09051526337862015</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003381401300430298</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22686156630516052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.506594181060791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46744370460510254</span><span class="p" data-group-id="8989074755-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8989074755-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8989074755-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-12">#</span><span class="nc" data-group-id="8989074755-12">Nx.Tensor</span><span class="p" data-group-id="8989074755-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8989074755-13">[</span><span class="mi">4</span><span class="p" data-group-id="8989074755-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-14">[</span><span class="mf">0.008441010490059853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5370790958404541</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03584281727671623</span><span class="p" data-group-id="8989074755-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8989074755-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-15">#</span><span class="nc" data-group-id="8989074755-15">Nx.Tensor</span><span class="p" data-group-id="8989074755-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8989074755-16">[</span><span class="mi">8</span><span class="p" data-group-id="8989074755-16">]</span><span class="p" data-group-id="8989074755-17">[</span><span class="mi">4</span><span class="p" data-group-id="8989074755-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-19">[</span><span class="o">-</span><span class="mf">0.3442431688308716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33131587505340576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03751888871192932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5497395396232605</span><span class="p" data-group-id="8989074755-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-20">[</span><span class="o">-</span><span class="mf">0.4568001925945282</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5024663805961609</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8712142109870911</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13484779000282288</span><span class="p" data-group-id="8989074755-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-21">[</span><span class="mf">0.7310590744018555</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34318023920059204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3977772295475006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6045383214950562</span><span class="p" data-group-id="8989074755-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-22">[</span><span class="o">-</span><span class="mf">0.5255699157714844</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2829623818397522</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45367464423179626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.157784566283226</span><span class="p" data-group-id="8989074755-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-23">[</span><span class="o">-</span><span class="mf">0.47948920726776123</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2930692136287689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3784458339214325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.69244384765625</span><span class="p" data-group-id="8989074755-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-24">[</span><span class="mf">0.7052943706512451</span><span class="p">,</span><span class="w"> </span><span class="mf">0.015830136835575104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02979498915374279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6160839796066284</span><span class="p" data-group-id="8989074755-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-25">[</span><span class="mf">0.3201732933521271</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1367085874080658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17100055515766144</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7335636019706726</span><span class="p" data-group-id="8989074755-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-26">[</span><span class="o">-</span><span class="mf">0.2825513482093811</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.424674928188324</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3110836148262024</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46001508831977844</span><span class="p" data-group-id="8989074755-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8989074755-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8989074755-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-28">#</span><span class="nc" data-group-id="8989074755-28">Nx.Tensor</span><span class="p" data-group-id="8989074755-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8989074755-29">[</span><span class="mi">1</span><span class="p" data-group-id="8989074755-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-30">[</span><span class="mf">0.6889857649803162</span><span class="p" data-group-id="8989074755-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8989074755-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8989074755-31">#</span><span class="nc" data-group-id="8989074755-31">Nx.Tensor</span><span class="p" data-group-id="8989074755-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8989074755-32">[</span><span class="mi">4</span><span class="p" data-group-id="8989074755-32">]</span><span class="p" data-group-id="8989074755-33">[</span><span class="mi">1</span><span class="p" data-group-id="8989074755-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-35">[</span><span class="o">-</span><span class="mf">0.7191283106803894</span><span class="p" data-group-id="8989074755-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-36">[</span><span class="o">-</span><span class="mf">0.4222411513328552</span><span class="p" data-group-id="8989074755-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-37">[</span><span class="mf">1.122635006904602</span><span class="p" data-group-id="8989074755-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8989074755-38">[</span><span class="o">-</span><span class="mf">0.7385509014129639</span><span class="p" data-group-id="8989074755-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8989074755-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8989074755-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8989074755-27">}</span><span class="w">
-</span><span class="p" data-group-id="8989074755-1">}</span></code></pre><h2 id="using-custom-loss-functions-in-training-loops" class="section-heading">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">custom_predict_fn</span><span class="p" data-group-id="0026442022-2">(</span><span class="n">model_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="0026442022-2">)</span><span class="w"> </span><span class="k" data-group-id="0026442022-3">do</span><span class="w">
+    </span><span class="p" data-group-id="0026442022-4">%{</span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="n">preds</span><span class="p" data-group-id="0026442022-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_predict_fn</span><span class="o">.</span><span class="p" data-group-id="0026442022-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="0026442022-5">)</span><span class="w">
+    </span><span class="p" data-group-id="0026442022-6">%{</span><span class="n">out</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="0026442022-7">(</span><span class="n">preds</span><span class="p" data-group-id="0026442022-7">)</span><span class="p" data-group-id="0026442022-6">}</span><span class="w">
+  </span><span class="k" data-group-id="0026442022-3">end</span><span class="w">
+</span><span class="k" data-group-id="0026442022-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4695916228-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4695916228-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="4695916228-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4695916228-3">{</span><span class="ss">:custom_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4695916228-3">}</span><span class="p" data-group-id="4695916228-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="0842760949-1">(</span><span class="k" data-group-id="0842760949-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="0842760949-3">(</span><span class="p" data-group-id="0842760949-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0842760949-4">}</span><span class="p" data-group-id="0842760949-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="0842760949-5">(</span><span class="n">xs</span><span class="p" data-group-id="0842760949-5">)</span><span class="w">
+    </span><span class="p" data-group-id="0842760949-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="0842760949-6">}</span><span class="w">
+  </span><span class="k" data-group-id="0842760949-2">end</span><span class="p" data-group-id="0842760949-1">)</span><span class="w">
+
+</span><span class="p" data-group-id="0842760949-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0842760949-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0842760949-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="0842760949-8">)</span><span class="w">
+</span><span class="n">custom_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomModel</span><span class="o">.</span><span class="n">custom_predict_fn</span><span class="p" data-group-id="0842760949-9">(</span><span class="n">predict_fn</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="0842760949-9">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0842760949-10">(</span><span class="p" data-group-id="0842760949-11">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">custom_predict_fn</span><span class="p" data-group-id="0842760949-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0842760949-10">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0842760949-12">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0842760949-13">%{</span><span class="p" data-group-id="0842760949-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="0842760949-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3053460</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5987082655-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-3">#</span><span class="nc" data-group-id="5987082655-3">Nx.Tensor</span><span class="p" data-group-id="5987082655-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5987082655-4">[</span><span class="mi">8</span><span class="p" data-group-id="5987082655-4">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-5">[</span><span class="o">-</span><span class="mf">0.06573846191167831</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37533989548683167</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014221129938960075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0056641618721187115</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.013241665437817574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04930500313639641</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03238297998905182</span><span class="p">,</span><span class="w"> </span><span class="mf">0.019304191693663597</span><span class="p" data-group-id="5987082655-5">]</span><span class="w">
+    </span><span class="p" data-group-id="5987082655-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-6">#</span><span class="nc" data-group-id="5987082655-6">Nx.Tensor</span><span class="p" data-group-id="5987082655-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5987082655-7">[</span><span class="mi">1</span><span class="p" data-group-id="5987082655-7">]</span><span class="p" data-group-id="5987082655-8">[</span><span class="mi">8</span><span class="p" data-group-id="5987082655-8">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-9">[</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-10">[</span><span class="o">-</span><span class="mf">0.3132522702217102</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9284062385559082</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5041953921318054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09051526337862015</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003381401300430298</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22686156630516052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.506594181060791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46744370460510254</span><span class="p" data-group-id="5987082655-10">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-9">]</span><span class="w">
+    </span><span class="p" data-group-id="5987082655-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5987082655-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-12">#</span><span class="nc" data-group-id="5987082655-12">Nx.Tensor</span><span class="p" data-group-id="5987082655-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5987082655-13">[</span><span class="mi">4</span><span class="p" data-group-id="5987082655-13">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-14">[</span><span class="mf">0.008441010490059853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5370790958404541</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03584281727671623</span><span class="p" data-group-id="5987082655-14">]</span><span class="w">
+    </span><span class="p" data-group-id="5987082655-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-15">#</span><span class="nc" data-group-id="5987082655-15">Nx.Tensor</span><span class="p" data-group-id="5987082655-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5987082655-16">[</span><span class="mi">8</span><span class="p" data-group-id="5987082655-16">]</span><span class="p" data-group-id="5987082655-17">[</span><span class="mi">4</span><span class="p" data-group-id="5987082655-17">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-18">[</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-19">[</span><span class="o">-</span><span class="mf">0.3442431688308716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33131587505340576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03751888871192932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5497395396232605</span><span class="p" data-group-id="5987082655-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-20">[</span><span class="o">-</span><span class="mf">0.4568001925945282</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5024663805961609</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8712142109870911</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13484779000282288</span><span class="p" data-group-id="5987082655-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-21">[</span><span class="mf">0.7310590744018555</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34318023920059204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3977772295475006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6045383214950562</span><span class="p" data-group-id="5987082655-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-22">[</span><span class="o">-</span><span class="mf">0.5255699157714844</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2829623818397522</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45367464423179626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.157784566283226</span><span class="p" data-group-id="5987082655-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-23">[</span><span class="o">-</span><span class="mf">0.47948920726776123</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2930692136287689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3784458339214325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.69244384765625</span><span class="p" data-group-id="5987082655-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-24">[</span><span class="mf">0.7052943706512451</span><span class="p">,</span><span class="w"> </span><span class="mf">0.015830136835575104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02979498915374279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6160839796066284</span><span class="p" data-group-id="5987082655-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-25">[</span><span class="mf">0.3201732933521271</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1367085874080658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17100055515766144</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7335636019706726</span><span class="p" data-group-id="5987082655-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-26">[</span><span class="o">-</span><span class="mf">0.2825513482093811</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.424674928188324</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3110836148262024</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46001508831977844</span><span class="p" data-group-id="5987082655-26">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-18">]</span><span class="w">
+    </span><span class="p" data-group-id="5987082655-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5987082655-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-28">#</span><span class="nc" data-group-id="5987082655-28">Nx.Tensor</span><span class="p" data-group-id="5987082655-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5987082655-29">[</span><span class="mi">1</span><span class="p" data-group-id="5987082655-29">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-30">[</span><span class="mf">0.6889857649803162</span><span class="p" data-group-id="5987082655-30">]</span><span class="w">
+    </span><span class="p" data-group-id="5987082655-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5987082655-31">#</span><span class="nc" data-group-id="5987082655-31">Nx.Tensor</span><span class="p" data-group-id="5987082655-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5987082655-32">[</span><span class="mi">4</span><span class="p" data-group-id="5987082655-32">]</span><span class="p" data-group-id="5987082655-33">[</span><span class="mi">1</span><span class="p" data-group-id="5987082655-33">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-34">[</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-35">[</span><span class="o">-</span><span class="mf">0.7191283106803894</span><span class="p" data-group-id="5987082655-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-36">[</span><span class="o">-</span><span class="mf">0.4222411513328552</span><span class="p" data-group-id="5987082655-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-37">[</span><span class="mf">1.122635006904602</span><span class="p" data-group-id="5987082655-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5987082655-38">[</span><span class="o">-</span><span class="mf">0.7385509014129639</span><span class="p" data-group-id="5987082655-38">]</span><span class="w">
+      </span><span class="p" data-group-id="5987082655-34">]</span><span class="w">
+    </span><span class="p" data-group-id="5987082655-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5987082655-27">}</span><span class="w">
+</span><span class="p" data-group-id="5987082655-1">}</span></code></pre><h2 id="using-custom-loss-functions-in-training-loops" class="section-heading">
   <a href="#using-custom-loss-functions-in-training-loops" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">using-custom-loss-functions-in-training-loops</p>
   </a>
   Using custom loss functions in training loops
 </h2>
-<p>Just as <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> allows more flexibility with models, it also supports more flexible loss functions. In most cases, you can get away with using one of Axon's built-in loss functions by specifying an atom. Atoms map directly to a loss-function defined in <a href="Axon.Losses.html"><code class="inline">Axon.Losses</code></a>. Under the hood, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing something like:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply</span><span class="p" data-group-id="0675691356-1">(</span><span class="nc">Axon.Losses</span><span class="p">,</span><span class="w"> </span><span class="n">loss_atom</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0675691356-2">[</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="0675691356-2">]</span><span class="p" data-group-id="0675691356-1">)</span></code></pre><p>Rather than pass an atom, you can pass your own custom arity-2 function to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. This arises most often in cases where you want to control some parameters of the loss function, such as the batch-level reduction:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="4754715217-1">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="4754715217-1">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4754715217-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4754715217-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6461136197-1">#</span><span class="nc" data-group-id="6461136197-1">Axon.Loop</span><span class="p" data-group-id="6461136197-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-3">[</span><span class="p" data-group-id="6461136197-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-4">[</span><span class="w">
-      </span><span class="p" data-group-id="6461136197-5">{</span><span class="p" data-group-id="6461136197-6">#</span><span class="nc" data-group-id="6461136197-6">Function</span><span class="p" data-group-id="6461136197-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="6461136197-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="6461136197-7">#</span><span class="nc" data-group-id="6461136197-7">Function</span><span class="p" data-group-id="6461136197-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6461136197-7">&gt;</span><span class="p" data-group-id="6461136197-5">}</span><span class="w">
-    </span><span class="p" data-group-id="6461136197-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-8">[</span><span class="p" data-group-id="6461136197-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-9">[</span><span class="p" data-group-id="6461136197-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-10">[</span><span class="p" data-group-id="6461136197-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-11">[</span><span class="w">
-      </span><span class="p" data-group-id="6461136197-12">{</span><span class="p" data-group-id="6461136197-13">#</span><span class="nc" data-group-id="6461136197-13">Function</span><span class="p" data-group-id="6461136197-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="6461136197-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="6461136197-14">#</span><span class="nc" data-group-id="6461136197-14">Function</span><span class="p" data-group-id="6461136197-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6461136197-14">&gt;</span><span class="p" data-group-id="6461136197-12">}</span><span class="w">
-    </span><span class="p" data-group-id="6461136197-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-15">[</span><span class="p" data-group-id="6461136197-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-16">[</span><span class="p" data-group-id="6461136197-16">]</span><span class="w">
-  </span><span class="p" data-group-id="6461136197-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6461136197-17">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6461136197-18">{</span><span class="p" data-group-id="6461136197-19">#</span><span class="nc" data-group-id="6461136197-19">Function</span><span class="p" data-group-id="6461136197-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6461136197-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="6461136197-20">#</span><span class="nc" data-group-id="6461136197-20">Function</span><span class="p" data-group-id="6461136197-20">&lt;</span><span class="mf">41.3316493</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">:erl_eval</span><span class="o">.</span><span class="n">expr</span><span class="o">/</span><span class="mi">6</span><span class="p" data-group-id="6461136197-20">&gt;</span><span class="p" data-group-id="6461136197-18">}</span><span class="w">
-  </span><span class="p" data-group-id="6461136197-17">}</span><span class="p">,</span><span class="w">
+<p>Just as <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> allows more flexibility with models, it also supports more flexible loss functions. In most cases, you can get away with using one of Axon's built-in loss functions by specifying an atom. Atoms map directly to a loss-function defined in <a href="Axon.Losses.html"><code class="inline">Axon.Losses</code></a>. Under the hood, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing something like:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply</span><span class="p" data-group-id="5562569731-1">(</span><span class="nc">Axon.Losses</span><span class="p">,</span><span class="w"> </span><span class="n">loss_atom</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5562569731-2">[</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="5562569731-2">]</span><span class="p" data-group-id="5562569731-1">)</span></code></pre><p>Rather than pass an atom, you can pass your own custom arity-2 function to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. This arises most often in cases where you want to control some parameters of the loss function, such as the batch-level reduction:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="9109547914-1">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="9109547914-1">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9109547914-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9109547914-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0699020291-1">#</span><span class="nc" data-group-id="0699020291-1">Axon.Loop</span><span class="p" data-group-id="0699020291-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-3">[</span><span class="p" data-group-id="0699020291-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-4">[</span><span class="w">
+      </span><span class="p" data-group-id="0699020291-5">{</span><span class="p" data-group-id="0699020291-6">#</span><span class="nc" data-group-id="0699020291-6">Function</span><span class="p" data-group-id="0699020291-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="0699020291-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="0699020291-7">#</span><span class="nc" data-group-id="0699020291-7">Function</span><span class="p" data-group-id="0699020291-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0699020291-7">&gt;</span><span class="p" data-group-id="0699020291-5">}</span><span class="w">
+    </span><span class="p" data-group-id="0699020291-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-8">[</span><span class="p" data-group-id="0699020291-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-9">[</span><span class="p" data-group-id="0699020291-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-10">[</span><span class="p" data-group-id="0699020291-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-11">[</span><span class="w">
+      </span><span class="p" data-group-id="0699020291-12">{</span><span class="p" data-group-id="0699020291-13">#</span><span class="nc" data-group-id="0699020291-13">Function</span><span class="p" data-group-id="0699020291-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="0699020291-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="0699020291-14">#</span><span class="nc" data-group-id="0699020291-14">Function</span><span class="p" data-group-id="0699020291-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0699020291-14">&gt;</span><span class="p" data-group-id="0699020291-12">}</span><span class="w">
+    </span><span class="p" data-group-id="0699020291-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-15">[</span><span class="p" data-group-id="0699020291-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-16">[</span><span class="p" data-group-id="0699020291-16">]</span><span class="w">
+  </span><span class="p" data-group-id="0699020291-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0699020291-17">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0699020291-18">{</span><span class="p" data-group-id="0699020291-19">#</span><span class="nc" data-group-id="0699020291-19">Function</span><span class="p" data-group-id="0699020291-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0699020291-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="0699020291-20">#</span><span class="nc" data-group-id="0699020291-20">Function</span><span class="p" data-group-id="0699020291-20">&lt;</span><span class="mf">41.3316493</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">:erl_eval</span><span class="o">.</span><span class="n">expr</span><span class="o">/</span><span class="mi">6</span><span class="p" data-group-id="0699020291-20">&gt;</span><span class="p" data-group-id="0699020291-18">}</span><span class="w">
+  </span><span class="p" data-group-id="0699020291-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="6461136197-1">&gt;</span></code></pre><p>You can also define your own custom loss functions, so long as they match the following spec:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="p" data-group-id="2344343975-1">(</span><span class="w">
-  </span><span class="n">y_true</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="2344343975-2">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="2344343975-2">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="2344343975-3">(</span><span class="n">tensor</span><span class="p" data-group-id="2344343975-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">y_preds</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="2344343975-4">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="2344343975-4">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="2344343975-5">(</span><span class="n">tensor</span><span class="p" data-group-id="2344343975-5">)</span><span class="w">
-  </span><span class="p" data-group-id="2344343975-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">scalar</span></code></pre><p>This is useful for constructing loss functions when dealing with multi-output scenarios. For example, it's very easy to construct a custom loss function which is a weighted average of several loss functions on multiple inputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="4165163565-1">(</span><span class="k" data-group-id="4165163565-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="4165163565-3">(</span><span class="p" data-group-id="4165163565-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4165163565-4">}</span><span class="p" data-group-id="4165163565-3">)</span><span class="w">
-    </span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="4165163565-5">(</span><span class="n">xs</span><span class="p" data-group-id="4165163565-5">)</span><span class="w">
-    </span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="4165163565-6">(</span><span class="n">xs</span><span class="p" data-group-id="4165163565-6">)</span><span class="w">
-    </span><span class="p" data-group-id="4165163565-7">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4165163565-8">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="4165163565-8">}</span><span class="p" data-group-id="4165163565-7">}</span><span class="w">
-  </span><span class="k" data-group-id="4165163565-2">end</span><span class="p" data-group-id="4165163565-1">)</span><span class="w">
+</span><span class="p" data-group-id="0699020291-1">&gt;</span></code></pre><p>You can also define your own custom loss functions, so long as they match the following spec:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="p" data-group-id="7360107855-1">(</span><span class="w">
+  </span><span class="n">y_true</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="7360107855-2">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7360107855-2">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="7360107855-3">(</span><span class="n">tensor</span><span class="p" data-group-id="7360107855-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">y_preds</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="7360107855-4">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7360107855-4">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="7360107855-5">(</span><span class="n">tensor</span><span class="p" data-group-id="7360107855-5">)</span><span class="w">
+  </span><span class="p" data-group-id="7360107855-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">scalar</span></code></pre><p>This is useful for constructing loss functions when dealing with multi-output scenarios. For example, it's very easy to construct a custom loss function which is a weighted average of several loss functions on multiple inputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5819263770-1">(</span><span class="k" data-group-id="5819263770-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5819263770-3">(</span><span class="p" data-group-id="5819263770-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5819263770-4">}</span><span class="p" data-group-id="5819263770-3">)</span><span class="w">
+    </span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5819263770-5">(</span><span class="n">xs</span><span class="p" data-group-id="5819263770-5">)</span><span class="w">
+    </span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="5819263770-6">(</span><span class="n">xs</span><span class="p" data-group-id="5819263770-6">)</span><span class="w">
+    </span><span class="p" data-group-id="5819263770-7">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5819263770-8">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="5819263770-8">}</span><span class="p" data-group-id="5819263770-7">}</span><span class="w">
+  </span><span class="k" data-group-id="5819263770-2">end</span><span class="p" data-group-id="5819263770-1">)</span><span class="w">
 
 </span><span class="n">shared</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4165163565-9">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4165163565-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4165163565-10">(</span><span class="mi">8</span><span class="p" data-group-id="4165163565-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4165163565-11">(</span><span class="p" data-group-id="4165163565-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4165163565-12">(</span><span class="mi">4</span><span class="p" data-group-id="4165163565-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4165163565-13">(</span><span class="p" data-group-id="4165163565-13">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5819263770-9">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5819263770-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5819263770-10">(</span><span class="mi">8</span><span class="p" data-group-id="5819263770-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5819263770-11">(</span><span class="p" data-group-id="5819263770-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5819263770-12">(</span><span class="mi">4</span><span class="p" data-group-id="5819263770-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5819263770-13">(</span><span class="p" data-group-id="5819263770-13">)</span><span class="w">
 
-</span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4165163565-14">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4165163565-14">)</span><span class="w">
-</span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4165163565-15">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4165163565-15">)</span><span class="w">
+</span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5819263770-14">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5819263770-14">)</span><span class="w">
+</span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5819263770-15">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5819263770-15">)</span><span class="w">
 
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="4165163565-16">(</span><span class="p" data-group-id="4165163565-17">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="4165163565-17">}</span><span class="p" data-group-id="4165163565-16">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="5819263770-16">(</span><span class="p" data-group-id="5819263770-17">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="5819263770-17">}</span><span class="p" data-group-id="5819263770-16">)</span><span class="w">
 
-</span><span class="n">custom_loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4165163565-18">fn</span><span class="w"> </span><span class="p" data-group-id="4165163565-19">{</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_true2</span><span class="p" data-group-id="4165163565-19">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4165163565-20">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="4165163565-20">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">loss1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="4165163565-21">(</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4165163565-21">)</span><span class="w">
-  </span><span class="n">loss2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="4165163565-22">(</span><span class="n">y_true2</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4165163565-22">)</span><span class="w">
+</span><span class="n">custom_loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5819263770-18">fn</span><span class="w"> </span><span class="p" data-group-id="5819263770-19">{</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_true2</span><span class="p" data-group-id="5819263770-19">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5819263770-20">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="5819263770-20">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">loss1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="5819263770-21">(</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5819263770-21">)</span><span class="w">
+  </span><span class="n">loss2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="5819263770-22">(</span><span class="n">y_true2</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5819263770-22">)</span><span class="w">
 
   </span><span class="n">loss1</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4165163565-23">(</span><span class="mf">0.4</span><span class="p" data-group-id="4165163565-23">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="4165163565-24">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4165163565-25">(</span><span class="n">loss2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="4165163565-25">)</span><span class="p" data-group-id="4165163565-24">)</span><span class="w">
-</span><span class="k" data-group-id="4165163565-18">end</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="5819263770-23">(</span><span class="mf">0.4</span><span class="p" data-group-id="5819263770-23">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5819263770-24">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="5819263770-25">(</span><span class="n">loss2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="5819263770-25">)</span><span class="p" data-group-id="5819263770-24">)</span><span class="w">
+</span><span class="k" data-group-id="5819263770-18">end</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4165163565-26">(</span><span class="n">custom_loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4165163565-26">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4165163565-27">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4165163565-28">%{</span><span class="p" data-group-id="4165163565-28">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="4165163565-27">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1098235</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3288282931-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-3">#</span><span class="nc" data-group-id="3288282931-3">Nx.Tensor</span><span class="p" data-group-id="3288282931-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-4">[</span><span class="mi">8</span><span class="p" data-group-id="3288282931-4">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-5">[</span><span class="mf">0.07738334685564041</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04548311233520508</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049238916486501694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38714033365249634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.030310271307826042</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07575170695781708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02918776497244835</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15639683604240417</span><span class="p" data-group-id="3288282931-5">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-6">#</span><span class="nc" data-group-id="3288282931-6">Nx.Tensor</span><span class="p" data-group-id="3288282931-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-7">[</span><span class="mi">1</span><span class="p" data-group-id="3288282931-7">]</span><span class="p" data-group-id="3288282931-8">[</span><span class="mi">8</span><span class="p" data-group-id="3288282931-8">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-9">[</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-10">[</span><span class="o">-</span><span class="mf">0.5250527858734131</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9252119660377502</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7720071077346802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3685735762119293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15688209235668182</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41163918375968933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7827479839324951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07295594364404678</span><span class="p" data-group-id="3288282931-10">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-9">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3288282931-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-12">#</span><span class="nc" data-group-id="3288282931-12">Nx.Tensor</span><span class="p" data-group-id="3288282931-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-13">[</span><span class="mi">4</span><span class="p" data-group-id="3288282931-13">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-14">[</span><span class="mf">0.012770675122737885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6008449792861938</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29370757937431335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05354489013552666</span><span class="p" data-group-id="3288282931-14">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-15">#</span><span class="nc" data-group-id="3288282931-15">Nx.Tensor</span><span class="p" data-group-id="3288282931-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-16">[</span><span class="mi">8</span><span class="p" data-group-id="3288282931-16">]</span><span class="p" data-group-id="3288282931-17">[</span><span class="mi">4</span><span class="p" data-group-id="3288282931-17">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-18">[</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-19">[</span><span class="o">-</span><span class="mf">0.08783119916915894</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4296257495880127</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07153885811567307</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6921477317810059</span><span class="p" data-group-id="3288282931-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-20">[</span><span class="mf">0.15848888456821442</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4663836658000946</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7126847505569458</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0693722814321518</span><span class="p" data-group-id="3288282931-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-21">[</span><span class="o">-</span><span class="mf">0.24852830171585083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7588720321655273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5033655166625977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6524038314819336</span><span class="p" data-group-id="3288282931-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-22">[</span><span class="mf">0.2933746874332428</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6656989455223083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046741705387830734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44998466968536377</span><span class="p" data-group-id="3288282931-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-23">[</span><span class="mf">0.17215801775455475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3072860836982727</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2046997845172882</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7001357078552246</span><span class="p" data-group-id="3288282931-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-24">[</span><span class="mf">0.6354788541793823</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12706635892391205</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18666459619998932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26693975925445557</span><span class="p" data-group-id="3288282931-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-25">[</span><span class="o">-</span><span class="mf">0.3737913966178894</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07344938814640045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22658668458461761</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37110695242881775</span><span class="p" data-group-id="3288282931-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-26">[</span><span class="mf">0.01989569514989853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39410898089408875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30496707558631897</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4945743680000305</span><span class="p" data-group-id="3288282931-26">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-18">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3288282931-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-28">#</span><span class="nc" data-group-id="3288282931-28">Nx.Tensor</span><span class="p" data-group-id="3288282931-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-29">[</span><span class="mi">1</span><span class="p" data-group-id="3288282931-29">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-30">[</span><span class="o">-</span><span class="mf">0.5888826251029968</span><span class="p" data-group-id="3288282931-30">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-31">#</span><span class="nc" data-group-id="3288282931-31">Nx.Tensor</span><span class="p" data-group-id="3288282931-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-32">[</span><span class="mi">4</span><span class="p" data-group-id="3288282931-32">]</span><span class="p" data-group-id="3288282931-33">[</span><span class="mi">1</span><span class="p" data-group-id="3288282931-33">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-34">[</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-35">[</span><span class="mf">1.0239059925079346</span><span class="p" data-group-id="3288282931-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-36">[</span><span class="mf">0.25252565741539</span><span class="p" data-group-id="3288282931-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-37">[</span><span class="mf">0.8877795338630676</span><span class="p" data-group-id="3288282931-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-38">[</span><span class="o">-</span><span class="mf">0.13882321119308472</span><span class="p" data-group-id="3288282931-38">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-34">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3288282931-27">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_3&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-39">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-40">#</span><span class="nc" data-group-id="3288282931-40">Nx.Tensor</span><span class="p" data-group-id="3288282931-40">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-41">[</span><span class="mi">1</span><span class="p" data-group-id="3288282931-41">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-42">[</span><span class="mf">0.2557465434074402</span><span class="p" data-group-id="3288282931-42">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-40">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3288282931-43">#</span><span class="nc" data-group-id="3288282931-43">Nx.Tensor</span><span class="p" data-group-id="3288282931-43">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3288282931-44">[</span><span class="mi">4</span><span class="p" data-group-id="3288282931-44">]</span><span class="p" data-group-id="3288282931-45">[</span><span class="mi">1</span><span class="p" data-group-id="3288282931-45">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-46">[</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-47">[</span><span class="o">-</span><span class="mf">0.6269392371177673</span><span class="p" data-group-id="3288282931-47">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-48">[</span><span class="mf">1.1281259059906006</span><span class="p" data-group-id="3288282931-48">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-49">[</span><span class="o">-</span><span class="mf">0.503214418888092</span><span class="p" data-group-id="3288282931-49">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3288282931-50">[</span><span class="o">-</span><span class="mf">0.5435869693756104</span><span class="p" data-group-id="3288282931-50">]</span><span class="w">
-      </span><span class="p" data-group-id="3288282931-46">]</span><span class="w">
-    </span><span class="p" data-group-id="3288282931-43">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3288282931-39">}</span><span class="w">
-</span><span class="p" data-group-id="3288282931-1">}</span></code></pre><h2 id="using-custom-optimizers-in-training-loops" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5819263770-26">(</span><span class="n">custom_loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5819263770-26">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5819263770-27">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5819263770-28">%{</span><span class="p" data-group-id="5819263770-28">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="5819263770-27">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1098235</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0514578317-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-3">#</span><span class="nc" data-group-id="0514578317-3">Nx.Tensor</span><span class="p" data-group-id="0514578317-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-4">[</span><span class="mi">8</span><span class="p" data-group-id="0514578317-4">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-5">[</span><span class="mf">0.07738334685564041</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04548311233520508</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049238916486501694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38714033365249634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.030310271307826042</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07575170695781708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02918776497244835</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15639683604240417</span><span class="p" data-group-id="0514578317-5">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-6">#</span><span class="nc" data-group-id="0514578317-6">Nx.Tensor</span><span class="p" data-group-id="0514578317-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-7">[</span><span class="mi">1</span><span class="p" data-group-id="0514578317-7">]</span><span class="p" data-group-id="0514578317-8">[</span><span class="mi">8</span><span class="p" data-group-id="0514578317-8">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-9">[</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-10">[</span><span class="o">-</span><span class="mf">0.5250527858734131</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9252119660377502</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7720071077346802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3685735762119293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15688209235668182</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41163918375968933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7827479839324951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07295594364404678</span><span class="p" data-group-id="0514578317-10">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-9">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0514578317-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-12">#</span><span class="nc" data-group-id="0514578317-12">Nx.Tensor</span><span class="p" data-group-id="0514578317-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-13">[</span><span class="mi">4</span><span class="p" data-group-id="0514578317-13">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-14">[</span><span class="mf">0.012770675122737885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6008449792861938</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29370757937431335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05354489013552666</span><span class="p" data-group-id="0514578317-14">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-15">#</span><span class="nc" data-group-id="0514578317-15">Nx.Tensor</span><span class="p" data-group-id="0514578317-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-16">[</span><span class="mi">8</span><span class="p" data-group-id="0514578317-16">]</span><span class="p" data-group-id="0514578317-17">[</span><span class="mi">4</span><span class="p" data-group-id="0514578317-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-18">[</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-19">[</span><span class="o">-</span><span class="mf">0.08783119916915894</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4296257495880127</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07153885811567307</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6921477317810059</span><span class="p" data-group-id="0514578317-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-20">[</span><span class="mf">0.15848888456821442</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4663836658000946</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7126847505569458</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0693722814321518</span><span class="p" data-group-id="0514578317-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-21">[</span><span class="o">-</span><span class="mf">0.24852830171585083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7588720321655273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5033655166625977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6524038314819336</span><span class="p" data-group-id="0514578317-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-22">[</span><span class="mf">0.2933746874332428</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6656989455223083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046741705387830734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44998466968536377</span><span class="p" data-group-id="0514578317-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-23">[</span><span class="mf">0.17215801775455475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3072860836982727</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2046997845172882</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7001357078552246</span><span class="p" data-group-id="0514578317-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-24">[</span><span class="mf">0.6354788541793823</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12706635892391205</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18666459619998932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26693975925445557</span><span class="p" data-group-id="0514578317-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-25">[</span><span class="o">-</span><span class="mf">0.3737913966178894</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07344938814640045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22658668458461761</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37110695242881775</span><span class="p" data-group-id="0514578317-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-26">[</span><span class="mf">0.01989569514989853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39410898089408875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30496707558631897</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4945743680000305</span><span class="p" data-group-id="0514578317-26">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-18">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0514578317-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-28">#</span><span class="nc" data-group-id="0514578317-28">Nx.Tensor</span><span class="p" data-group-id="0514578317-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-29">[</span><span class="mi">1</span><span class="p" data-group-id="0514578317-29">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-30">[</span><span class="o">-</span><span class="mf">0.5888826251029968</span><span class="p" data-group-id="0514578317-30">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-31">#</span><span class="nc" data-group-id="0514578317-31">Nx.Tensor</span><span class="p" data-group-id="0514578317-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-32">[</span><span class="mi">4</span><span class="p" data-group-id="0514578317-32">]</span><span class="p" data-group-id="0514578317-33">[</span><span class="mi">1</span><span class="p" data-group-id="0514578317-33">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-34">[</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-35">[</span><span class="mf">1.0239059925079346</span><span class="p" data-group-id="0514578317-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-36">[</span><span class="mf">0.25252565741539</span><span class="p" data-group-id="0514578317-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-37">[</span><span class="mf">0.8877795338630676</span><span class="p" data-group-id="0514578317-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-38">[</span><span class="o">-</span><span class="mf">0.13882321119308472</span><span class="p" data-group-id="0514578317-38">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-34">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0514578317-27">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_3&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-39">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-40">#</span><span class="nc" data-group-id="0514578317-40">Nx.Tensor</span><span class="p" data-group-id="0514578317-40">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-41">[</span><span class="mi">1</span><span class="p" data-group-id="0514578317-41">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-42">[</span><span class="mf">0.2557465434074402</span><span class="p" data-group-id="0514578317-42">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-40">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0514578317-43">#</span><span class="nc" data-group-id="0514578317-43">Nx.Tensor</span><span class="p" data-group-id="0514578317-43">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0514578317-44">[</span><span class="mi">4</span><span class="p" data-group-id="0514578317-44">]</span><span class="p" data-group-id="0514578317-45">[</span><span class="mi">1</span><span class="p" data-group-id="0514578317-45">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-46">[</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-47">[</span><span class="o">-</span><span class="mf">0.6269392371177673</span><span class="p" data-group-id="0514578317-47">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-48">[</span><span class="mf">1.1281259059906006</span><span class="p" data-group-id="0514578317-48">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-49">[</span><span class="o">-</span><span class="mf">0.503214418888092</span><span class="p" data-group-id="0514578317-49">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0514578317-50">[</span><span class="o">-</span><span class="mf">0.5435869693756104</span><span class="p" data-group-id="0514578317-50">]</span><span class="w">
+      </span><span class="p" data-group-id="0514578317-46">]</span><span class="w">
+    </span><span class="p" data-group-id="0514578317-43">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0514578317-39">}</span><span class="w">
+</span><span class="p" data-group-id="0514578317-1">}</span></code></pre><h2 id="using-custom-optimizers-in-training-loops" class="section-heading">
   <a href="#using-custom-optimizers-in-training-loops" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">using-custom-optimizers-in-training-loops</p>
   </a>
   Using custom optimizers in training loops
 </h2>
 <p>As you might expect, it's also possible to customize the optimizer passed to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. If you read the <a href="Axon.Updates.html"><code class="inline">Axon.Updates</code></a> documentation, you'll learn that optimizers are actually represented as the tuple <code class="inline">{init_fn, update_fn}</code> where <code class="inline">init_fn</code> initializes optimizer state from model state and <code class="inline">update_fn</code> scales gradients from optimizer state, gradients, and model state.</p><p>You likely won't have to implement a custom optimizer; however, you should know how to construct optimizers with different hyperparameters and how to apply different modifiers to different optimizers to customize the optimization process.</p><p>When you specify an optimizer as an atom in <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>, it maps directly to an optimizer declared in <a href="Axon.Optimizers.html"><code class="inline">Axon.Optimizers</code></a>. You can instead opt to declare your optimizer directly. This is most useful for controlling things like the learning rate and various optimizer hyperparameters:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="3328316994-1">(</span><span class="k" data-group-id="3328316994-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="3328316994-3">(</span><span class="p" data-group-id="3328316994-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3328316994-4">}</span><span class="p" data-group-id="3328316994-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="3328316994-5">(</span><span class="n">xs</span><span class="p" data-group-id="3328316994-5">)</span><span class="w">
-    </span><span class="p" data-group-id="3328316994-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="3328316994-6">}</span><span class="w">
-  </span><span class="k" data-group-id="3328316994-2">end</span><span class="p" data-group-id="3328316994-1">)</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="2019644978-1">(</span><span class="k" data-group-id="2019644978-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="2019644978-3">(</span><span class="p" data-group-id="2019644978-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2019644978-4">}</span><span class="p" data-group-id="2019644978-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="2019644978-5">(</span><span class="n">xs</span><span class="p" data-group-id="2019644978-5">)</span><span class="w">
+    </span><span class="p" data-group-id="2019644978-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="2019644978-6">}</span><span class="w">
+  </span><span class="k" data-group-id="2019644978-2">end</span><span class="p" data-group-id="2019644978-1">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3328316994-7">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3328316994-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3328316994-8">(</span><span class="mi">8</span><span class="p" data-group-id="3328316994-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3328316994-9">(</span><span class="p" data-group-id="3328316994-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3328316994-10">(</span><span class="mi">4</span><span class="p" data-group-id="3328316994-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3328316994-11">(</span><span class="p" data-group-id="3328316994-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3328316994-12">(</span><span class="mi">1</span><span class="p" data-group-id="3328316994-12">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2019644978-7">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="2019644978-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2019644978-8">(</span><span class="mi">8</span><span class="p" data-group-id="2019644978-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2019644978-9">(</span><span class="p" data-group-id="2019644978-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2019644978-10">(</span><span class="mi">4</span><span class="p" data-group-id="2019644978-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2019644978-11">(</span><span class="p" data-group-id="2019644978-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2019644978-12">(</span><span class="mi">1</span><span class="p" data-group-id="2019644978-12">)</span><span class="w">
 
-</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3328316994-13">{</span><span class="c">_init_optimizer_fn</span><span class="p">,</span><span class="w"> </span><span class="c">_update_fn</span><span class="p" data-group-id="3328316994-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">sgd</span><span class="p" data-group-id="3328316994-14">(</span><span class="mf">1.0e-3</span><span class="p" data-group-id="3328316994-14">)</span><span class="w">
+</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2019644978-13">{</span><span class="c">_init_optimizer_fn</span><span class="p">,</span><span class="w"> </span><span class="c">_update_fn</span><span class="p" data-group-id="2019644978-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">sgd</span><span class="p" data-group-id="2019644978-14">(</span><span class="mf">1.0e-3</span><span class="p" data-group-id="2019644978-14">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3328316994-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="3328316994-15">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3328316994-16">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3328316994-17">%{</span><span class="p" data-group-id="3328316994-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3328316994-16">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0992607</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5209695237-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-3">#</span><span class="nc" data-group-id="5209695237-3">Nx.Tensor</span><span class="p" data-group-id="5209695237-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5209695237-4">[</span><span class="mi">8</span><span class="p" data-group-id="5209695237-4">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-5">[</span><span class="mf">0.06136200204491615</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08278193324804306</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07280997931957245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08740464597940445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08663233369588852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06915996968746185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03753892332315445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06512840837240219</span><span class="p" data-group-id="5209695237-5">]</span><span class="w">
-    </span><span class="p" data-group-id="5209695237-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-6">#</span><span class="nc" data-group-id="5209695237-6">Nx.Tensor</span><span class="p" data-group-id="5209695237-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5209695237-7">[</span><span class="mi">1</span><span class="p" data-group-id="5209695237-7">]</span><span class="p" data-group-id="5209695237-8">[</span><span class="mi">8</span><span class="p" data-group-id="5209695237-8">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-9">[</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-10">[</span><span class="mf">0.622833251953125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24778570234775543</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4959430694580078</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.604946494102478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31578049063682556</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09977878630161285</span><span class="p">,</span><span class="w"> </span><span class="mf">0.776294469833374</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5804685950279236</span><span class="p" data-group-id="5209695237-10">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-9">]</span><span class="w">
-    </span><span class="p" data-group-id="5209695237-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5209695237-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-12">#</span><span class="nc" data-group-id="5209695237-12">Nx.Tensor</span><span class="p" data-group-id="5209695237-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5209695237-13">[</span><span class="mi">4</span><span class="p" data-group-id="5209695237-13">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-14">[</span><span class="o">-</span><span class="mf">0.012786266393959522</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01057625561952591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10597240924835205</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13692162930965424</span><span class="p" data-group-id="5209695237-14">]</span><span class="w">
-    </span><span class="p" data-group-id="5209695237-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-15">#</span><span class="nc" data-group-id="5209695237-15">Nx.Tensor</span><span class="p" data-group-id="5209695237-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5209695237-16">[</span><span class="mi">8</span><span class="p" data-group-id="5209695237-16">]</span><span class="p" data-group-id="5209695237-17">[</span><span class="mi">4</span><span class="p" data-group-id="5209695237-17">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-18">[</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-19">[</span><span class="o">-</span><span class="mf">0.46233609318733215</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7435348033905029</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10738609731197357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09911829978227615</span><span class="p" data-group-id="5209695237-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-20">[</span><span class="mf">0.5295257568359375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48769527673721313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23950818181037903</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26084062457084656</span><span class="p" data-group-id="5209695237-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-21">[</span><span class="o">-</span><span class="mf">0.5117107033729553</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2039143443107605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12630638480186462</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41089773178100586</span><span class="p" data-group-id="5209695237-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-22">[</span><span class="o">-</span><span class="mf">0.6043668985366821</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3961969316005707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5120400190353394</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6773409247398376</span><span class="p" data-group-id="5209695237-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-23">[</span><span class="mf">0.22123000025749207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7197521924972534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2679356038570404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12402179092168808</span><span class="p" data-group-id="5209695237-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-24">[</span><span class="mf">0.4830038249492645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3629038631916046</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49994897842407227</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25865232944488525</span><span class="p" data-group-id="5209695237-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-25">[</span><span class="mf">0.29824453592300415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29333528876304626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05371938645839691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5230391621589661</span><span class="p" data-group-id="5209695237-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-26">[</span><span class="mf">0.5483304262161255</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08283360302448273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6959219574928284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6471460461616516</span><span class="p" data-group-id="5209695237-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-18">]</span><span class="w">
-    </span><span class="p" data-group-id="5209695237-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5209695237-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-28">#</span><span class="nc" data-group-id="5209695237-28">Nx.Tensor</span><span class="p" data-group-id="5209695237-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5209695237-29">[</span><span class="mi">1</span><span class="p" data-group-id="5209695237-29">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-30">[</span><span class="mf">0.07759959995746613</span><span class="p" data-group-id="5209695237-30">]</span><span class="w">
-    </span><span class="p" data-group-id="5209695237-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5209695237-31">#</span><span class="nc" data-group-id="5209695237-31">Nx.Tensor</span><span class="p" data-group-id="5209695237-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5209695237-32">[</span><span class="mi">4</span><span class="p" data-group-id="5209695237-32">]</span><span class="p" data-group-id="5209695237-33">[</span><span class="mi">1</span><span class="p" data-group-id="5209695237-33">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-34">[</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-35">[</span><span class="o">-</span><span class="mf">0.036170706152915955</span><span class="p" data-group-id="5209695237-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-36">[</span><span class="o">-</span><span class="mf">0.5362256765365601</span><span class="p" data-group-id="5209695237-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-37">[</span><span class="o">-</span><span class="mf">0.6853286027908325</span><span class="p" data-group-id="5209695237-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5209695237-38">[</span><span class="mf">0.6693617701530457</span><span class="p" data-group-id="5209695237-38">]</span><span class="w">
-      </span><span class="p" data-group-id="5209695237-34">]</span><span class="w">
-    </span><span class="p" data-group-id="5209695237-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5209695237-27">}</span><span class="w">
-</span><span class="p" data-group-id="5209695237-1">}</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2019644978-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="2019644978-15">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2019644978-16">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2019644978-17">%{</span><span class="p" data-group-id="2019644978-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="2019644978-16">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0992607</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8643747022-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-3">#</span><span class="nc" data-group-id="8643747022-3">Nx.Tensor</span><span class="p" data-group-id="8643747022-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8643747022-4">[</span><span class="mi">8</span><span class="p" data-group-id="8643747022-4">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-5">[</span><span class="mf">0.06136200204491615</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08278193324804306</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07280997931957245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08740464597940445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08663233369588852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06915996968746185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03753892332315445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06512840837240219</span><span class="p" data-group-id="8643747022-5">]</span><span class="w">
+    </span><span class="p" data-group-id="8643747022-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-6">#</span><span class="nc" data-group-id="8643747022-6">Nx.Tensor</span><span class="p" data-group-id="8643747022-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8643747022-7">[</span><span class="mi">1</span><span class="p" data-group-id="8643747022-7">]</span><span class="p" data-group-id="8643747022-8">[</span><span class="mi">8</span><span class="p" data-group-id="8643747022-8">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-9">[</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-10">[</span><span class="mf">0.622833251953125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24778570234775543</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4959430694580078</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.604946494102478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31578049063682556</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09977878630161285</span><span class="p">,</span><span class="w"> </span><span class="mf">0.776294469833374</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5804685950279236</span><span class="p" data-group-id="8643747022-10">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-9">]</span><span class="w">
+    </span><span class="p" data-group-id="8643747022-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8643747022-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-12">#</span><span class="nc" data-group-id="8643747022-12">Nx.Tensor</span><span class="p" data-group-id="8643747022-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8643747022-13">[</span><span class="mi">4</span><span class="p" data-group-id="8643747022-13">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-14">[</span><span class="o">-</span><span class="mf">0.012786266393959522</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01057625561952591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10597240924835205</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13692162930965424</span><span class="p" data-group-id="8643747022-14">]</span><span class="w">
+    </span><span class="p" data-group-id="8643747022-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-15">#</span><span class="nc" data-group-id="8643747022-15">Nx.Tensor</span><span class="p" data-group-id="8643747022-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8643747022-16">[</span><span class="mi">8</span><span class="p" data-group-id="8643747022-16">]</span><span class="p" data-group-id="8643747022-17">[</span><span class="mi">4</span><span class="p" data-group-id="8643747022-17">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-18">[</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-19">[</span><span class="o">-</span><span class="mf">0.46233609318733215</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7435348033905029</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10738609731197357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09911829978227615</span><span class="p" data-group-id="8643747022-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-20">[</span><span class="mf">0.5295257568359375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48769527673721313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23950818181037903</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26084062457084656</span><span class="p" data-group-id="8643747022-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-21">[</span><span class="o">-</span><span class="mf">0.5117107033729553</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2039143443107605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12630638480186462</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41089773178100586</span><span class="p" data-group-id="8643747022-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-22">[</span><span class="o">-</span><span class="mf">0.6043668985366821</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3961969316005707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5120400190353394</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6773409247398376</span><span class="p" data-group-id="8643747022-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-23">[</span><span class="mf">0.22123000025749207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7197521924972534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2679356038570404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12402179092168808</span><span class="p" data-group-id="8643747022-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-24">[</span><span class="mf">0.4830038249492645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3629038631916046</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49994897842407227</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25865232944488525</span><span class="p" data-group-id="8643747022-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-25">[</span><span class="mf">0.29824453592300415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29333528876304626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05371938645839691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5230391621589661</span><span class="p" data-group-id="8643747022-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-26">[</span><span class="mf">0.5483304262161255</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08283360302448273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6959219574928284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6471460461616516</span><span class="p" data-group-id="8643747022-26">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-18">]</span><span class="w">
+    </span><span class="p" data-group-id="8643747022-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8643747022-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-28">#</span><span class="nc" data-group-id="8643747022-28">Nx.Tensor</span><span class="p" data-group-id="8643747022-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8643747022-29">[</span><span class="mi">1</span><span class="p" data-group-id="8643747022-29">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-30">[</span><span class="mf">0.07759959995746613</span><span class="p" data-group-id="8643747022-30">]</span><span class="w">
+    </span><span class="p" data-group-id="8643747022-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8643747022-31">#</span><span class="nc" data-group-id="8643747022-31">Nx.Tensor</span><span class="p" data-group-id="8643747022-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8643747022-32">[</span><span class="mi">4</span><span class="p" data-group-id="8643747022-32">]</span><span class="p" data-group-id="8643747022-33">[</span><span class="mi">1</span><span class="p" data-group-id="8643747022-33">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-34">[</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-35">[</span><span class="o">-</span><span class="mf">0.036170706152915955</span><span class="p" data-group-id="8643747022-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-36">[</span><span class="o">-</span><span class="mf">0.5362256765365601</span><span class="p" data-group-id="8643747022-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-37">[</span><span class="o">-</span><span class="mf">0.6853286027908325</span><span class="p" data-group-id="8643747022-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8643747022-38">[</span><span class="mf">0.6693617701530457</span><span class="p" data-group-id="8643747022-38">]</span><span class="w">
+      </span><span class="p" data-group-id="8643747022-34">]</span><span class="w">
+    </span><span class="p" data-group-id="8643747022-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8643747022-27">}</span><span class="w">
+</span><span class="p" data-group-id="8643747022-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/fashionmnist_autoencoder.html b/fashionmnist_autoencoder.html
index dba4b902..4d121ff6 100644
--- a/fashionmnist_autoencoder.html
+++ b/fashionmnist_autoencoder.html
@@ -115,14 +115,14 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5492736629-1">(</span><span class="p" data-group-id="5492736629-2">[</span><span class="w">
-  </span><span class="p" data-group-id="5492736629-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="5492736629-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5492736629-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="5492736629-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5492736629-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="5492736629-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5492736629-6">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="5492736629-6">}</span><span class="w">
-</span><span class="p" data-group-id="5492736629-2">]</span><span class="p" data-group-id="5492736629-1">)</span><span class="w">
-
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="5492736629-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5492736629-7">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5242371792-1">(</span><span class="p" data-group-id="5242371792-2">[</span><span class="w">
+  </span><span class="p" data-group-id="5242371792-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="5242371792-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5242371792-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="5242371792-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5242371792-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="5242371792-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5242371792-6">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="5242371792-6">}</span><span class="w">
+</span><span class="p" data-group-id="5242371792-2">]</span><span class="p" data-group-id="5242371792-1">)</span><span class="w">
+
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="5242371792-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5242371792-7">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">introduction</p>
   </a>
@@ -135,29 +135,29 @@ <h1>
   </a>
   Downloading the data
 </h2>
-<p>To train and test how our model works, we use one of the most popular data sets: <a href="https://github.com/zalandoresearch/fashion-mnist">Fashion MNIST</a>. It consists of small black and white images of clothes. Loading this data set is very simple with the help of <code class="inline">Scidata</code>.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6088608249-1">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_label_data</span><span class="p" data-group-id="6088608249-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="6088608249-2">(</span><span class="p" data-group-id="6088608249-2">)</span><span class="w">
-</span><span class="p" data-group-id="6088608249-3">{</span><span class="n">bin</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="6088608249-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span></code></pre><p>We get the data in a raw format, but this is exactly the information we need to build an Nx tensor.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
+<p>To train and test how our model works, we use one of the most popular data sets: <a href="https://github.com/zalandoresearch/fashion-mnist">Fashion MNIST</a>. It consists of small black and white images of clothes. Loading this data set is very simple with the help of <code class="inline">Scidata</code>.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9482423019-1">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_label_data</span><span class="p" data-group-id="9482423019-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="9482423019-2">(</span><span class="p" data-group-id="9482423019-2">)</span><span class="w">
+</span><span class="p" data-group-id="9482423019-3">{</span><span class="n">bin</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="9482423019-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span></code></pre><p>We get the data in a raw format, but this is exactly the information we need to build an Nx tensor.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">bin</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="5623373083-1">(</span><span class="n">type</span><span class="p" data-group-id="5623373083-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5623373083-2">(</span><span class="n">shape</span><span class="p" data-group-id="5623373083-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5623373083-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="5623373083-3">)</span></code></pre><p>We also normalize pixel values into the range $[0, 1]$.</p><p>We can visualize one of the images by looking at the tensor heatmap:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="4009877360-1">(</span><span class="n">train_images</span><span class="p" data-group-id="4009877360-2">[</span><span class="mi">1</span><span class="p" data-group-id="4009877360-2">]</span><span class="p" data-group-id="4009877360-1">)</span></code></pre><h2 id="encoder-and-decoder" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="9857441220-1">(</span><span class="n">type</span><span class="p" data-group-id="9857441220-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="9857441220-2">(</span><span class="n">shape</span><span class="p" data-group-id="9857441220-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="9857441220-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="9857441220-3">)</span></code></pre><p>We also normalize pixel values into the range $[0, 1]$.</p><p>We can visualize one of the images by looking at the tensor heatmap:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="5370890900-1">(</span><span class="n">train_images</span><span class="p" data-group-id="5370890900-2">[</span><span class="mi">1</span><span class="p" data-group-id="5370890900-2">]</span><span class="p" data-group-id="5370890900-1">)</span></code></pre><h2 id="encoder-and-decoder" class="section-heading">
   <a href="#encoder-and-decoder" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">encoder-and-decoder</p>
   </a>
   Encoder and decoder
 </h2>
-<p>First we need to define the encoder and decoder. Both are one-layer neural networks.</p><p>In the encoder, we start by flattening the input, so we get from shape <code class="inline">{batch_size, 1, 28, 28}</code> to <code class="inline">{batch_size, 784}</code> and we pass the input into a dense layer. Our dense layer has only <code class="inline">latent_dim</code> number of neurons. The <code class="inline">latent_dim</code> (or the latent space) is a compressed representation of data. Remember, we want our encoder to compress the input data into a lower-dimensional representation, so we choose a <code class="inline">latent_dim</code> which is less than the dimensionality of the input.</p><pre><code class="makeup elixir" translate="no"><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="8389720670-1">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">latent_dim</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+<p>First we need to define the encoder and decoder. Both are one-layer neural networks.</p><p>In the encoder, we start by flattening the input, so we get from shape <code class="inline">{batch_size, 1, 28, 28}</code> to <code class="inline">{batch_size, 784}</code> and we pass the input into a dense layer. Our dense layer has only <code class="inline">latent_dim</code> number of neurons. The <code class="inline">latent_dim</code> (or the latent space) is a compressed representation of data. Remember, we want our encoder to compress the input data into a lower-dimensional representation, so we choose a <code class="inline">latent_dim</code> which is less than the dimensionality of the input.</p><pre><code class="makeup elixir" translate="no"><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3317068942-1">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">latent_dim</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">x</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="8389720670-2">(</span><span class="p" data-group-id="8389720670-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8389720670-3">(</span><span class="n">latent_dim</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="8389720670-3">)</span><span class="w">
-</span><span class="k" data-group-id="8389720670-1">end</span></code></pre><p>Next, we pass the output of the encoder to the decoder and try to reconstruct the compressed data into its original form. Since our original input had a dimensionality of 784, we use a dense layer with 784 neurons. Because our original data was normalized to have pixel values between 0 and 1, we use a <code class="inline">:sigmoid</code> activation in our dense layer to squeeze output values between 0 and 1. Our original input shape was 28x28, so we use <code class="inline">Axon.reshape</code> to convert the flattened representation of the outputs into an image with correct the width and height.</p><pre><code class="makeup elixir" translate="no"><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3362174816-1">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="3317068942-2">(</span><span class="p" data-group-id="3317068942-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3317068942-3">(</span><span class="n">latent_dim</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3317068942-3">)</span><span class="w">
+</span><span class="k" data-group-id="3317068942-1">end</span></code></pre><p>Next, we pass the output of the encoder to the decoder and try to reconstruct the compressed data into its original form. Since our original input had a dimensionality of 784, we use a dense layer with 784 neurons. Because our original data was normalized to have pixel values between 0 and 1, we use a <code class="inline">:sigmoid</code> activation in our dense layer to squeeze output values between 0 and 1. Our original input shape was 28x28, so we use <code class="inline">Axon.reshape</code> to convert the flattened representation of the outputs into an image with correct the width and height.</p><pre><code class="makeup elixir" translate="no"><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9277210800-1">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">x</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3362174816-2">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="3362174816-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="3362174816-3">(</span><span class="p" data-group-id="3362174816-4">{</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="3362174816-4">}</span><span class="p" data-group-id="3362174816-3">)</span><span class="w">
-</span><span class="k" data-group-id="3362174816-1">end</span></code></pre><p>If we just bind the encoder and decoder sequentially, we'll get the desired model. This was pretty smooth, wasn't it?</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0445474618-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0445474618-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="0445474618-2">}</span><span class="p" data-group-id="0445474618-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">encoder</span><span class="o">.</span><span class="p" data-group-id="0445474618-3">(</span><span class="mi">64</span><span class="p" data-group-id="0445474618-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">decoder</span><span class="o">.</span><span class="p" data-group-id="0445474618-4">(</span><span class="p" data-group-id="0445474618-4">)</span></code></pre><h2 id="training-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9277210800-2">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="9277210800-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="9277210800-3">(</span><span class="p" data-group-id="9277210800-4">{</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="9277210800-4">}</span><span class="p" data-group-id="9277210800-3">)</span><span class="w">
+</span><span class="k" data-group-id="9277210800-1">end</span></code></pre><p>If we just bind the encoder and decoder sequentially, we'll get the desired model. This was pretty smooth, wasn't it?</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8208177243-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8208177243-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8208177243-2">}</span><span class="p" data-group-id="8208177243-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">encoder</span><span class="o">.</span><span class="p" data-group-id="8208177243-3">(</span><span class="mi">64</span><span class="p" data-group-id="8208177243-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">decoder</span><span class="o">.</span><span class="p" data-group-id="8208177243-4">(</span><span class="p" data-group-id="8208177243-4">)</span></code></pre><h2 id="training-the-model" class="section-heading">
   <a href="#training-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training-the-model</p>
   </a>
@@ -166,14 +166,14 @@ <h1>
 <p>Finally, we can train the model. We'll use the <code class="inline">:adam</code> and <code class="inline">:mean_squared_error</code> loss with <code class="inline">Axon.Loop.trainer</code>. Our loss function will measure the aggregate error between pixels of original images and the model's reconstructed images. We'll also <code class="inline">:mean_absolute_error</code> using <code class="inline">Axon.Loop.metric</code>. <code class="inline">Axon.Loop.run</code> trains the model with the given training data.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">32</span><span class="w">
 </span><span class="n">epochs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">5</span><span class="w">
 
-</span><span class="n">batched_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2380461783-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="2380461783-1">)</span><span class="w">
-</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="2380461783-2">(</span><span class="n">batched_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_images</span><span class="p" data-group-id="2380461783-2">)</span><span class="w">
+</span><span class="n">batched_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2807048086-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="2807048086-1">)</span><span class="w">
+</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="2807048086-2">(</span><span class="n">batched_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_images</span><span class="p" data-group-id="2807048086-2">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2380461783-3">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="2380461783-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="2380461783-4">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="2380461783-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2380461783-5">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2380461783-6">%{</span><span class="p" data-group-id="2380461783-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2380461783-5">)</span></code></pre><h2 id="extra-losses" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2807048086-3">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="2807048086-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="2807048086-4">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="2807048086-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2807048086-5">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2807048086-6">%{</span><span class="p" data-group-id="2807048086-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2807048086-5">)</span></code></pre><h2 id="extra-losses" class="section-heading">
   <a href="#extra-losses" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">extra-losses</p>
   </a>
@@ -181,46 +181,46 @@ <h1>
 </h2>
 <p>To better understand what is mean absolute error (MAE) and mean square error (MSE) let's go through an example.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Error definitions for a single sample</span><span class="w">
 
-</span><span class="n">mean_square_error</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6259431677-1">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="n">mean_square_error</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5097768696-1">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">y_pred</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="6259431677-2">(</span><span class="n">y</span><span class="p" data-group-id="6259431677-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">power</span><span class="p" data-group-id="6259431677-3">(</span><span class="mi">2</span><span class="p" data-group-id="6259431677-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="6259431677-4">(</span><span class="p" data-group-id="6259431677-4">)</span><span class="w">
-</span><span class="k" data-group-id="6259431677-1">end</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="5097768696-2">(</span><span class="n">y</span><span class="p" data-group-id="5097768696-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">power</span><span class="p" data-group-id="5097768696-3">(</span><span class="mi">2</span><span class="p" data-group-id="5097768696-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="5097768696-4">(</span><span class="p" data-group-id="5097768696-4">)</span><span class="w">
+</span><span class="k" data-group-id="5097768696-1">end</span><span class="w">
 
-</span><span class="n">mean_absolute_erorr</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6259431677-5">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="n">mean_absolute_erorr</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5097768696-5">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">y_pred</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="6259431677-6">(</span><span class="n">y</span><span class="p" data-group-id="6259431677-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="6259431677-7">(</span><span class="p" data-group-id="6259431677-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="6259431677-8">(</span><span class="p" data-group-id="6259431677-8">)</span><span class="w">
-</span><span class="k" data-group-id="6259431677-5">end</span></code></pre><p>We will work with a sample image of a shoe, a slightly noised version of that image, and also an entirely different image from the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="8444342672-1">[</span><span class="mi">0</span><span class="p" data-group-id="8444342672-1">]</span><span class="w">
-</span><span class="n">noised_shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="8444342672-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="8444342672-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05</span><span class="p" data-group-id="8444342672-3">)</span><span class="p" data-group-id="8444342672-2">)</span><span class="w">
-</span><span class="n">other_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="8444342672-4">[</span><span class="mi">1</span><span class="p" data-group-id="8444342672-4">]</span><span class="w">
-</span><span class="ss">:ok</span></code></pre><p>For the same image both errors should be 0, because when we have two exact copies, there is no pixel difference.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3241149646-1">{</span><span class="w">
-  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="3241149646-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="3241149646-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">mean_absolute_erorr</span><span class="o">.</span><span class="p" data-group-id="3241149646-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="3241149646-3">)</span><span class="w">
-</span><span class="p" data-group-id="3241149646-1">}</span></code></pre><p>Now the noised image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1079265639-1">{</span><span class="w">
-  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="1079265639-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="1079265639-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">mean_absolute_erorr</span><span class="o">.</span><span class="p" data-group-id="1079265639-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="1079265639-3">)</span><span class="w">
-</span><span class="p" data-group-id="1079265639-1">}</span></code></pre><p>And a different image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2779812378-1">{</span><span class="w">
-  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="2779812378-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="2779812378-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">mean_absolute_erorr</span><span class="o">.</span><span class="p" data-group-id="2779812378-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="2779812378-3">)</span><span class="w">
-</span><span class="p" data-group-id="2779812378-1">}</span></code></pre><p>As we can see, the noised image has a non-zero MSE and MAE but is much smaller than the error of two completely different pictures. In other words, both of these error types measure the level of similarity between images. A small error implies decent prediction values. On the other hand, a large error value suggests poor quality of predictions.</p><p>If you look at our implementation of MAE and MSE, you will notice that they are very similar. MAE and MSE can also be called the $L_1$ and $L_2$ loss respectively for the $L_1$ and $L_2$ norm. The $L_2$ loss (MSE) is typically preferred because it's a smoother function whereas $L_1$ is often difficult to optimize with stochastic gradient descent (SGD).</p><h2 id="inference" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="5097768696-6">(</span><span class="n">y</span><span class="p" data-group-id="5097768696-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="5097768696-7">(</span><span class="p" data-group-id="5097768696-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="5097768696-8">(</span><span class="p" data-group-id="5097768696-8">)</span><span class="w">
+</span><span class="k" data-group-id="5097768696-5">end</span></code></pre><p>We will work with a sample image of a shoe, a slightly noised version of that image, and also an entirely different image from the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="5966348385-1">[</span><span class="mi">0</span><span class="p" data-group-id="5966348385-1">]</span><span class="w">
+</span><span class="n">noised_shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5966348385-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5966348385-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05</span><span class="p" data-group-id="5966348385-3">)</span><span class="p" data-group-id="5966348385-2">)</span><span class="w">
+</span><span class="n">other_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="5966348385-4">[</span><span class="mi">1</span><span class="p" data-group-id="5966348385-4">]</span><span class="w">
+</span><span class="ss">:ok</span></code></pre><p>For the same image both errors should be 0, because when we have two exact copies, there is no pixel difference.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9452660983-1">{</span><span class="w">
+  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="9452660983-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="9452660983-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">mean_absolute_erorr</span><span class="o">.</span><span class="p" data-group-id="9452660983-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="9452660983-3">)</span><span class="w">
+</span><span class="p" data-group-id="9452660983-1">}</span></code></pre><p>Now the noised image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4104581044-1">{</span><span class="w">
+  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="4104581044-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="4104581044-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">mean_absolute_erorr</span><span class="o">.</span><span class="p" data-group-id="4104581044-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="4104581044-3">)</span><span class="w">
+</span><span class="p" data-group-id="4104581044-1">}</span></code></pre><p>And a different image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1685056858-1">{</span><span class="w">
+  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="1685056858-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="1685056858-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">mean_absolute_erorr</span><span class="o">.</span><span class="p" data-group-id="1685056858-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="1685056858-3">)</span><span class="w">
+</span><span class="p" data-group-id="1685056858-1">}</span></code></pre><p>As we can see, the noised image has a non-zero MSE and MAE but is much smaller than the error of two completely different pictures. In other words, both of these error types measure the level of similarity between images. A small error implies decent prediction values. On the other hand, a large error value suggests poor quality of predictions.</p><p>If you look at our implementation of MAE and MSE, you will notice that they are very similar. MAE and MSE can also be called the $L_1$ and $L_2$ loss respectively for the $L_1$ and $L_2$ norm. The $L_2$ loss (MSE) is typically preferred because it's a smoother function whereas $L_1$ is often difficult to optimize with stochastic gradient descent (SGD).</p><h2 id="inference" class="section-heading">
   <a href="#inference" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">inference</p>
   </a>
   Inference
 </h2>
-<p>Now, let's see how our model is doing! We will compare a sample image before and after compression.</p><pre><code class="makeup elixir" translate="no"><span class="n">sample_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="1447079318-1">[</span><span class="mi">0</span><span class="o">..</span><span class="mi">0</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="1447079318-1">]</span><span class="w">
-</span><span class="n">compressed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="1447079318-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">sample_image</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1447079318-2">)</span><span class="w">
+<p>Now, let's see how our model is doing! We will compare a sample image before and after compression.</p><pre><code class="makeup elixir" translate="no"><span class="n">sample_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="0281250497-1">[</span><span class="mi">0</span><span class="o">..</span><span class="mi">0</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="0281250497-1">]</span><span class="w">
+</span><span class="n">compressed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="0281250497-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">sample_image</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0281250497-2">)</span><span class="w">
 
 </span><span class="n">sample_image</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="1447079318-3">(</span><span class="p" data-group-id="1447079318-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="1447079318-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Original&quot;</span><span class="p" data-group-id="1447079318-4">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="0281250497-3">(</span><span class="p" data-group-id="0281250497-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0281250497-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Original&quot;</span><span class="p" data-group-id="0281250497-4">)</span><span class="w">
 
 </span><span class="n">compressed_image</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="1447079318-5">(</span><span class="p" data-group-id="1447079318-5">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="1447079318-6">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Compressed&quot;</span><span class="p" data-group-id="1447079318-6">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="0281250497-5">(</span><span class="p" data-group-id="0281250497-5">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0281250497-6">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Compressed&quot;</span><span class="p" data-group-id="0281250497-6">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>As we can see, the generated image is similar to the input image. The only difference between them is the absence of a sign in the middle of the second shoe. The model treated the sign as noise and bled this into the plain shoe.</p>
 <div class="bottom-actions">
diff --git a/fashionmnist_vae.html b/fashionmnist_vae.html
index 8e8573a0..e73e4e88 100644
--- a/fashionmnist_vae.html
+++ b/fashionmnist_vae.html
@@ -115,23 +115,23 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0384073299-1">(</span><span class="p" data-group-id="0384073299-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="0384073299-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0384073299-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="0384073299-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="0384073299-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="0384073299-7">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="0384073299-8">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="0384073299-9">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-10">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="0384073299-10">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-11">{</span><span class="ss">:vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="0384073299-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0384073299-12">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="0384073299-12">}</span><span class="w">
-</span><span class="p" data-group-id="0384073299-2">]</span><span class="p" data-group-id="0384073299-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2873943938-1">(</span><span class="p" data-group-id="2873943938-2">[</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="2873943938-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2873943938-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="2873943938-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="2873943938-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="2873943938-7">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="2873943938-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="2873943938-9">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-10">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="2873943938-10">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-11">{</span><span class="ss">:vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="2873943938-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2873943938-12">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="2873943938-12">}</span><span class="w">
+</span><span class="p" data-group-id="2873943938-2">]</span><span class="p" data-group-id="2873943938-1">)</span><span class="w">
 
 </span><span class="kn">alias</span><span class="w"> </span><span class="nc">VegaLite</span><span class="p">,</span><span class="w"> </span><span class="ss">as</span><span class="p">:</span><span class="w"> </span><span class="nc">Vl</span><span class="w">
 
 </span><span class="c1"># This speeds up all our `Nx` operations without having to use `defn`</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="0384073299-13">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="0384073299-13">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="2873943938-13">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="2873943938-13">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -145,7 +145,7 @@ <h1>
   </a>
   Training a simple autoencoder
 </h2>
-<p>This section will proceed without much explanation as most of it is extracted from <a href="mnist_autoencoder_using_kino.html">denoising autoencoder example</a>. If anything here doesn't make sense, take a look at that notebook for an explanation.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Data</span><span class="w"> </span><span class="k" data-group-id="2867533589-1">do</span><span class="w">
+<p>This section will proceed without much explanation as most of it is extracted from <a href="mnist_autoencoder_using_kino.html">denoising autoencoder example</a>. If anything here doesn't make sense, take a look at that notebook for an explanation.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Data</span><span class="w"> </span><span class="k" data-group-id="0539938565-1">do</span><span class="w">
   </span><span class="na">@moduledoc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   A module to hold useful data processing utilities,
   mostly extracted from the previous notebook
@@ -157,182 +157,182 @@ <h1>
   `image` must be a single channel `Nx` tensor with pixel values between 0 and 1.
   `height` and `width` are the output size in pixels
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">image_to_kino</span><span class="p" data-group-id="2867533589-2">(</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">height</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p" data-group-id="2867533589-2">)</span><span class="w"> </span><span class="k" data-group-id="2867533589-3">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">image_to_kino</span><span class="p" data-group-id="0539938565-2">(</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">height</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p" data-group-id="0539938565-2">)</span><span class="w"> </span><span class="k" data-group-id="0539938565-3">do</span><span class="w">
     </span><span class="n">image</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="2867533589-4">(</span><span class="mi">255</span><span class="p" data-group-id="2867533589-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="2867533589-5">(</span><span class="ss">:u8</span><span class="p" data-group-id="2867533589-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="2867533589-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2867533589-7">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="2867533589-7">]</span><span class="p" data-group-id="2867533589-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="2867533589-8">(</span><span class="p" data-group-id="2867533589-8">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="2867533589-9">(</span><span class="n">height</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="p" data-group-id="2867533589-9">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="2867533589-10">(</span><span class="ss">:png</span><span class="p" data-group-id="2867533589-10">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2867533589-11">(</span><span class="ss">:png</span><span class="p" data-group-id="2867533589-11">)</span><span class="w">
-  </span><span class="k" data-group-id="2867533589-3">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="0539938565-4">(</span><span class="mi">255</span><span class="p" data-group-id="0539938565-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="0539938565-5">(</span><span class="ss">:u8</span><span class="p" data-group-id="0539938565-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="0539938565-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0539938565-7">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="0539938565-7">]</span><span class="p" data-group-id="0539938565-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="0539938565-8">(</span><span class="p" data-group-id="0539938565-8">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="0539938565-9">(</span><span class="n">height</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="p" data-group-id="0539938565-9">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="0539938565-10">(</span><span class="ss">:png</span><span class="p" data-group-id="0539938565-10">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0539938565-11">(</span><span class="ss">:png</span><span class="p" data-group-id="0539938565-11">)</span><span class="w">
+  </span><span class="k" data-group-id="0539938565-3">end</span><span class="w">
 
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Converts image data from `Scidata.MNIST` into an `Nx` tensor and normalizes it.
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">preprocess_data</span><span class="p" data-group-id="2867533589-12">(</span><span class="n">data</span><span class="p" data-group-id="2867533589-12">)</span><span class="w"> </span><span class="k" data-group-id="2867533589-13">do</span><span class="w">
-    </span><span class="p" data-group-id="2867533589-14">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_labels</span><span class="p" data-group-id="2867533589-14">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">data</span><span class="w">
-    </span><span class="p" data-group-id="2867533589-15">{</span><span class="n">images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="2867533589-15">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">preprocess_data</span><span class="p" data-group-id="0539938565-12">(</span><span class="n">data</span><span class="p" data-group-id="0539938565-12">)</span><span class="w"> </span><span class="k" data-group-id="0539938565-13">do</span><span class="w">
+    </span><span class="p" data-group-id="0539938565-14">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_labels</span><span class="p" data-group-id="0539938565-14">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">data</span><span class="w">
+    </span><span class="p" data-group-id="0539938565-15">{</span><span class="n">images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="0539938565-15">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span><span class="w">
 
     </span><span class="n">images_binary</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="2867533589-16">(</span><span class="n">type</span><span class="p" data-group-id="2867533589-16">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="0539938565-16">(</span><span class="n">type</span><span class="p" data-group-id="0539938565-16">)</span><span class="w">
     </span><span class="c1"># Since pixels are organized row-wise, reshape into rows x columns</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2867533589-17">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2867533589-18">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="2867533589-18">]</span><span class="p" data-group-id="2867533589-17">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="0539938565-17">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0539938565-18">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="0539938565-18">]</span><span class="p" data-group-id="0539938565-17">)</span><span class="w">
     </span><span class="c1"># Normalize the pixel values to be between 0 and 1</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="2867533589-19">(</span><span class="mi">255</span><span class="p" data-group-id="2867533589-19">)</span><span class="w">
-  </span><span class="k" data-group-id="2867533589-13">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="0539938565-19">(</span><span class="mi">255</span><span class="p" data-group-id="0539938565-19">)</span><span class="w">
+  </span><span class="k" data-group-id="0539938565-13">end</span><span class="w">
 
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Converts a tensor of images into random batches of paired images for model training
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">prepare_training_data</span><span class="p" data-group-id="2867533589-20">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="2867533589-20">)</span><span class="w"> </span><span class="k" data-group-id="2867533589-21">do</span><span class="w">
-    </span><span class="nc">Stream</span><span class="o">.</span><span class="n">flat_map</span><span class="p" data-group-id="2867533589-22">(</span><span class="p" data-group-id="2867533589-23">[</span><span class="no">nil</span><span class="p" data-group-id="2867533589-23">]</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="2867533589-24">fn</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="n">images</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="2867533589-25">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="2867533589-25">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2867533589-26">(</span><span class="n">batch_size</span><span class="p" data-group-id="2867533589-26">)</span><span class="w">
-    </span><span class="k" data-group-id="2867533589-24">end</span><span class="p" data-group-id="2867533589-22">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="2867533589-27">(</span><span class="k" data-group-id="2867533589-28">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="2867533589-29">{</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="2867533589-29">}</span><span class="w"> </span><span class="k" data-group-id="2867533589-28">end</span><span class="p" data-group-id="2867533589-27">)</span><span class="w">
-  </span><span class="k" data-group-id="2867533589-21">end</span><span class="w">
-</span><span class="k" data-group-id="2867533589-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="6766522030-1">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="6766522030-2">(</span><span class="p" data-group-id="6766522030-2">)</span><span class="p" data-group-id="6766522030-1">)</span><span class="w">
-</span><span class="n">test_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="6766522030-3">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="6766522030-4">(</span><span class="p" data-group-id="6766522030-4">)</span><span class="p" data-group-id="6766522030-3">)</span><span class="w">
-
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6766522030-5">(</span><span class="n">train_images</span><span class="p" data-group-id="6766522030-6">[</span><span class="p" data-group-id="6766522030-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6766522030-7">]</span><span class="p" data-group-id="6766522030-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6766522030-8">(</span><span class="p" data-group-id="6766522030-8">)</span><span class="p" data-group-id="6766522030-5">)</span><span class="w">
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6766522030-9">(</span><span class="n">test_images</span><span class="p" data-group-id="6766522030-10">[</span><span class="p" data-group-id="6766522030-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6766522030-11">]</span><span class="p" data-group-id="6766522030-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6766522030-12">(</span><span class="p" data-group-id="6766522030-12">)</span><span class="p" data-group-id="6766522030-9">)</span><span class="w">
-
-</span><span class="ss">:ok</span></code></pre><p>Now for our simple autoencoder model. We won't be using a denoising autoencoder here.</p><p>Note that we're giving each of the layers a name - the reason for this will be apparent later.</p><p>I'm also using a small custom layer to shift and scale the output of the sigmoid layer slightly so it can hit the 0 and 1 targets. I noticed the gradients tend to explode without this.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="w"> </span><span class="k" data-group-id="6164308052-1">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">prepare_training_data</span><span class="p" data-group-id="0539938565-20">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="0539938565-20">)</span><span class="w"> </span><span class="k" data-group-id="0539938565-21">do</span><span class="w">
+    </span><span class="nc">Stream</span><span class="o">.</span><span class="n">flat_map</span><span class="p" data-group-id="0539938565-22">(</span><span class="p" data-group-id="0539938565-23">[</span><span class="no">nil</span><span class="p" data-group-id="0539938565-23">]</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0539938565-24">fn</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="n">images</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="0539938565-25">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="0539938565-25">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="0539938565-26">(</span><span class="n">batch_size</span><span class="p" data-group-id="0539938565-26">)</span><span class="w">
+    </span><span class="k" data-group-id="0539938565-24">end</span><span class="p" data-group-id="0539938565-22">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="0539938565-27">(</span><span class="k" data-group-id="0539938565-28">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="0539938565-29">{</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="0539938565-29">}</span><span class="w"> </span><span class="k" data-group-id="0539938565-28">end</span><span class="p" data-group-id="0539938565-27">)</span><span class="w">
+  </span><span class="k" data-group-id="0539938565-21">end</span><span class="w">
+</span><span class="k" data-group-id="0539938565-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="2769126977-1">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="2769126977-2">(</span><span class="p" data-group-id="2769126977-2">)</span><span class="p" data-group-id="2769126977-1">)</span><span class="w">
+</span><span class="n">test_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="2769126977-3">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="2769126977-4">(</span><span class="p" data-group-id="2769126977-4">)</span><span class="p" data-group-id="2769126977-3">)</span><span class="w">
+
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2769126977-5">(</span><span class="n">train_images</span><span class="p" data-group-id="2769126977-6">[</span><span class="p" data-group-id="2769126977-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2769126977-7">]</span><span class="p" data-group-id="2769126977-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="2769126977-8">(</span><span class="p" data-group-id="2769126977-8">)</span><span class="p" data-group-id="2769126977-5">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2769126977-9">(</span><span class="n">test_images</span><span class="p" data-group-id="2769126977-10">[</span><span class="p" data-group-id="2769126977-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2769126977-11">]</span><span class="p" data-group-id="2769126977-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="2769126977-12">(</span><span class="p" data-group-id="2769126977-12">)</span><span class="p" data-group-id="2769126977-9">)</span><span class="w">
+
+</span><span class="ss">:ok</span></code></pre><p>Now for our simple autoencoder model. We won't be using a denoising autoencoder here.</p><p>Note that we're giving each of the layers a name - the reason for this will be apparent later.</p><p>I'm also using a small custom layer to shift and scale the output of the sigmoid layer slightly so it can hit the 0 and 1 targets. I noticed the gradients tend to explode without this.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="w"> </span><span class="k" data-group-id="1467559050-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">scaling_layer</span><span class="p" data-group-id="6164308052-2">(</span><span class="p" data-group-id="6164308052-3">%</span><span class="nc" data-group-id="6164308052-3">Axon</span><span class="p" data-group-id="6164308052-3">{</span><span class="p" data-group-id="6164308052-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="6164308052-4">[</span><span class="p" data-group-id="6164308052-4">]</span><span class="p" data-group-id="6164308052-2">)</span><span class="w"> </span><span class="k" data-group-id="6164308052-5">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="6164308052-6">(</span><span class="o">&amp;</span><span class="n">scaling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6164308052-7">[</span><span class="n">input</span><span class="p" data-group-id="6164308052-7">]</span><span class="p" data-group-id="6164308052-6">)</span><span class="w">
-  </span><span class="k" data-group-id="6164308052-5">end</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">scaling_layer</span><span class="p" data-group-id="1467559050-2">(</span><span class="p" data-group-id="1467559050-3">%</span><span class="nc" data-group-id="1467559050-3">Axon</span><span class="p" data-group-id="1467559050-3">{</span><span class="p" data-group-id="1467559050-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1467559050-4">[</span><span class="p" data-group-id="1467559050-4">]</span><span class="p" data-group-id="1467559050-2">)</span><span class="w"> </span><span class="k" data-group-id="1467559050-5">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="1467559050-6">(</span><span class="o">&amp;</span><span class="n">scaling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1467559050-7">[</span><span class="n">input</span><span class="p" data-group-id="1467559050-7">]</span><span class="p" data-group-id="1467559050-6">)</span><span class="w">
+  </span><span class="k" data-group-id="1467559050-5">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">scaling_layer_impl</span><span class="p" data-group-id="6164308052-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="6164308052-9">[</span><span class="p" data-group-id="6164308052-9">]</span><span class="p" data-group-id="6164308052-8">)</span><span class="w"> </span><span class="k" data-group-id="6164308052-10">do</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">scaling_layer_impl</span><span class="p" data-group-id="1467559050-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1467559050-9">[</span><span class="p" data-group-id="1467559050-9">]</span><span class="p" data-group-id="1467559050-8">)</span><span class="w"> </span><span class="k" data-group-id="1467559050-10">do</span><span class="w">
     </span><span class="n">x</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="6164308052-11">(</span><span class="mf">0.05</span><span class="p" data-group-id="6164308052-11">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6164308052-12">(</span><span class="mf">1.2</span><span class="p" data-group-id="6164308052-12">)</span><span class="w">
-  </span><span class="k" data-group-id="6164308052-10">end</span><span class="w">
-</span><span class="k" data-group-id="6164308052-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4203915776-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4203915776-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4203915776-2">}</span><span class="p" data-group-id="4203915776-1">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="1467559050-11">(</span><span class="mf">0.05</span><span class="p" data-group-id="1467559050-11">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="1467559050-12">(</span><span class="mf">1.2</span><span class="p" data-group-id="1467559050-12">)</span><span class="w">
+  </span><span class="k" data-group-id="1467559050-10">end</span><span class="w">
+</span><span class="k" data-group-id="1467559050-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4811763635-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4811763635-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4811763635-2">}</span><span class="p" data-group-id="4811763635-1">)</span><span class="w">
   </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="4203915776-3">(</span><span class="p" data-group-id="4203915776-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="4811763635-3">(</span><span class="p" data-group-id="4811763635-3">)</span><span class="w">
   </span><span class="c1"># The encoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="4203915776-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="4203915776-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="4203915776-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="4811763635-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="4811763635-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="4811763635-6">)</span><span class="w">
   </span><span class="c1"># Bottleneck layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="4203915776-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="4811763635-7">)</span><span class="w">
   </span><span class="c1"># The decoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="4203915776-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="4203915776-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="4203915776-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4203915776-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="4203915776-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="4203915776-12">(</span><span class="p" data-group-id="4203915776-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="4811763635-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="4811763635-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="4811763635-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4811763635-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="4811763635-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="4811763635-12">(</span><span class="p" data-group-id="4811763635-12">)</span><span class="w">
   </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="4203915776-13">(</span><span class="p" data-group-id="4203915776-14">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4203915776-14">}</span><span class="p" data-group-id="4203915776-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="4811763635-13">(</span><span class="p" data-group-id="4811763635-14">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4811763635-14">}</span><span class="p" data-group-id="4811763635-13">)</span><span class="w">
 
 </span><span class="c1"># We can use Axon.Display to show us what each of the layers would look like</span><span class="w">
 </span><span class="c1"># assuming we send in a batch of 4 images</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="4203915776-15">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4203915776-16">(</span><span class="p" data-group-id="4203915776-17">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4203915776-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4203915776-16">)</span><span class="p" data-group-id="4203915776-15">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4203915776-18">(</span><span class="p" data-group-id="4203915776-18">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="4811763635-15">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4811763635-16">(</span><span class="p" data-group-id="4811763635-17">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4811763635-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4811763635-16">)</span><span class="p" data-group-id="4811763635-15">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4811763635-18">(</span><span class="p" data-group-id="4811763635-18">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
 
-</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="5133619933-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5133619933-1">)</span><span class="w">
-</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="5133619933-2">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5133619933-2">)</span><span class="w">
+</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="4199127153-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="4199127153-1">)</span><span class="w">
+</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="4199127153-2">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="4199127153-2">)</span><span class="w">
 
-</span><span class="p" data-group-id="5133619933-3">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="5133619933-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="5133619933-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5133619933-4">)</span><span class="w">
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5133619933-5">(</span><span class="n">input_batch</span><span class="p" data-group-id="5133619933-6">[</span><span class="p" data-group-id="5133619933-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5133619933-7">]</span><span class="p" data-group-id="5133619933-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5133619933-8">(</span><span class="p" data-group-id="5133619933-8">)</span><span class="p" data-group-id="5133619933-5">)</span><span class="w">
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5133619933-9">(</span><span class="n">target_batch</span><span class="p" data-group-id="5133619933-10">[</span><span class="p" data-group-id="5133619933-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5133619933-11">]</span><span class="p" data-group-id="5133619933-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5133619933-12">(</span><span class="p" data-group-id="5133619933-12">)</span><span class="p" data-group-id="5133619933-9">)</span><span class="w">
+</span><span class="p" data-group-id="4199127153-3">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="4199127153-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="4199127153-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4199127153-4">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4199127153-5">(</span><span class="n">input_batch</span><span class="p" data-group-id="4199127153-6">[</span><span class="p" data-group-id="4199127153-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4199127153-7">]</span><span class="p" data-group-id="4199127153-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="4199127153-8">(</span><span class="p" data-group-id="4199127153-8">)</span><span class="p" data-group-id="4199127153-5">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4199127153-9">(</span><span class="n">target_batch</span><span class="p" data-group-id="4199127153-10">[</span><span class="p" data-group-id="4199127153-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4199127153-11">]</span><span class="p" data-group-id="4199127153-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="4199127153-12">(</span><span class="p" data-group-id="4199127153-12">)</span><span class="p" data-group-id="4199127153-9">)</span><span class="w">
 
-</span><span class="ss">:ok</span></code></pre><p>When training, it can be useful to stop execution early - either when you see it's failing and you don't want to waste time waiting for the remaining epochs to finish, or if it's good enough and you want to start experimenting with it.</p><p>The <code class="inline">kino_early_stop/1</code> function below is a handy handler to give us a <code class="inline">Kino.Control.button</code> that will stop the training loop when clicked.</p><p>We also have <code class="inline">plot_losses/1</code> function to visualize our train and validation losses using <a href="https://hexdocs.pm/vega_lite/0.1.6/VegaLite.html"><code class="inline">VegaLite</code></a>.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="w"> </span><span class="k" data-group-id="1042087552-1">do</span><span class="w">
+</span><span class="ss">:ok</span></code></pre><p>When training, it can be useful to stop execution early - either when you see it's failing and you don't want to waste time waiting for the remaining epochs to finish, or if it's good enough and you want to start experimenting with it.</p><p>The <code class="inline">kino_early_stop/1</code> function below is a handy handler to give us a <code class="inline">Kino.Control.button</code> that will stop the training loop when clicked.</p><p>We also have <code class="inline">plot_losses/1</code> function to visualize our train and validation losses using <a href="https://hexdocs.pm/vega_lite/0.1.6/VegaLite.html"><code class="inline">VegaLite</code></a>.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="w"> </span><span class="k" data-group-id="6740245640-1">do</span><span class="w">
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Adds handler function which adds a frame with a &quot;stop&quot; button
   to the cell with the training loop.
 
   Clicking &quot;stop&quot; will halt the training loop.
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">kino_early_stop</span><span class="p" data-group-id="1042087552-2">(</span><span class="n">loop</span><span class="p" data-group-id="1042087552-2">)</span><span class="w"> </span><span class="k" data-group-id="1042087552-3">do</span><span class="w">
-    </span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="1042087552-4">(</span><span class="p" data-group-id="1042087552-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="1042087552-5">(</span><span class="p" data-group-id="1042087552-5">)</span><span class="w">
-    </span><span class="n">stop_button</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">button</span><span class="p" data-group-id="1042087552-6">(</span><span class="s">&quot;stop&quot;</span><span class="p" data-group-id="1042087552-6">)</span><span class="w">
-    </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="1042087552-7">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">stop_button</span><span class="p" data-group-id="1042087552-7">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">kino_early_stop</span><span class="p" data-group-id="6740245640-2">(</span><span class="n">loop</span><span class="p" data-group-id="6740245640-2">)</span><span class="w"> </span><span class="k" data-group-id="6740245640-3">do</span><span class="w">
+    </span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6740245640-4">(</span><span class="p" data-group-id="6740245640-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6740245640-5">(</span><span class="p" data-group-id="6740245640-5">)</span><span class="w">
+    </span><span class="n">stop_button</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">button</span><span class="p" data-group-id="6740245640-6">(</span><span class="s">&quot;stop&quot;</span><span class="p" data-group-id="6740245640-6">)</span><span class="w">
+    </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6740245640-7">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">stop_button</span><span class="p" data-group-id="6740245640-7">)</span><span class="w">
 
-    </span><span class="p" data-group-id="1042087552-8">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">button_agent</span><span class="p" data-group-id="1042087552-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">start_link</span><span class="p" data-group-id="1042087552-9">(</span><span class="k" data-group-id="1042087552-10">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="k" data-group-id="1042087552-10">end</span><span class="p" data-group-id="1042087552-9">)</span><span class="w">
+    </span><span class="p" data-group-id="6740245640-8">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">button_agent</span><span class="p" data-group-id="6740245640-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">start_link</span><span class="p" data-group-id="6740245640-9">(</span><span class="k" data-group-id="6740245640-10">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="k" data-group-id="6740245640-10">end</span><span class="p" data-group-id="6740245640-9">)</span><span class="w">
 
     </span><span class="n">stop_button</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="1042087552-11">(</span><span class="p" data-group-id="1042087552-11">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">listen</span><span class="p" data-group-id="1042087552-12">(</span><span class="k" data-group-id="1042087552-13">fn</span><span class="w"> </span><span class="c">_event</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="nc">Agent</span><span class="o">.</span><span class="n">update</span><span class="p" data-group-id="1042087552-14">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1042087552-15">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="1042087552-15">end</span><span class="p" data-group-id="1042087552-14">)</span><span class="w">
-    </span><span class="k" data-group-id="1042087552-13">end</span><span class="p" data-group-id="1042087552-12">)</span><span class="w">
-
-    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="1042087552-16">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="n">stop_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">get</span><span class="p" data-group-id="1042087552-17">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="1042087552-17">)</span><span class="w">
-
-      </span><span class="k">if</span><span class="w"> </span><span class="n">stop_state</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="1042087552-18">do</span><span class="w">
-        </span><span class="nc">Agent</span><span class="o">.</span><span class="n">stop</span><span class="p" data-group-id="1042087552-19">(</span><span class="n">button_agent</span><span class="p" data-group-id="1042087552-19">)</span><span class="w">
-        </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="1042087552-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;stopped&quot;</span><span class="p" data-group-id="1042087552-20">)</span><span class="w">
-        </span><span class="p" data-group-id="1042087552-21">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1042087552-21">}</span><span class="w">
-      </span><span class="k" data-group-id="1042087552-18">else</span><span class="w">
-        </span><span class="p" data-group-id="1042087552-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1042087552-22">}</span><span class="w">
-      </span><span class="k" data-group-id="1042087552-18">end</span><span class="w">
-    </span><span class="k" data-group-id="1042087552-16">end</span><span class="w">
-
-    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="1042087552-23">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="1042087552-23">)</span><span class="w">
-  </span><span class="k" data-group-id="1042087552-3">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="6740245640-11">(</span><span class="p" data-group-id="6740245640-11">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">listen</span><span class="p" data-group-id="6740245640-12">(</span><span class="k" data-group-id="6740245640-13">fn</span><span class="w"> </span><span class="c">_event</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="nc">Agent</span><span class="o">.</span><span class="n">update</span><span class="p" data-group-id="6740245640-14">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="6740245640-15">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="6740245640-15">end</span><span class="p" data-group-id="6740245640-14">)</span><span class="w">
+    </span><span class="k" data-group-id="6740245640-13">end</span><span class="p" data-group-id="6740245640-12">)</span><span class="w">
+
+    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6740245640-16">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="n">stop_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">get</span><span class="p" data-group-id="6740245640-17">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="6740245640-17">)</span><span class="w">
+
+      </span><span class="k">if</span><span class="w"> </span><span class="n">stop_state</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="6740245640-18">do</span><span class="w">
+        </span><span class="nc">Agent</span><span class="o">.</span><span class="n">stop</span><span class="p" data-group-id="6740245640-19">(</span><span class="n">button_agent</span><span class="p" data-group-id="6740245640-19">)</span><span class="w">
+        </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6740245640-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;stopped&quot;</span><span class="p" data-group-id="6740245640-20">)</span><span class="w">
+        </span><span class="p" data-group-id="6740245640-21">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6740245640-21">}</span><span class="w">
+      </span><span class="k" data-group-id="6740245640-18">else</span><span class="w">
+        </span><span class="p" data-group-id="6740245640-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6740245640-22">}</span><span class="w">
+      </span><span class="k" data-group-id="6740245640-18">end</span><span class="w">
+    </span><span class="k" data-group-id="6740245640-16">end</span><span class="w">
+
+    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="6740245640-23">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="6740245640-23">)</span><span class="w">
+  </span><span class="k" data-group-id="6740245640-3">end</span><span class="w">
 
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Plots the training and validation losses using Kino and VegaLite.
 
   This *must* come after `Axon.Loop.validate`.
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">plot_losses</span><span class="p" data-group-id="1042087552-24">(</span><span class="n">loop</span><span class="p" data-group-id="1042087552-24">)</span><span class="w"> </span><span class="k" data-group-id="1042087552-25">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">plot_losses</span><span class="p" data-group-id="6740245640-24">(</span><span class="n">loop</span><span class="p" data-group-id="6740245640-24">)</span><span class="w"> </span><span class="k" data-group-id="6740245640-25">do</span><span class="w">
     </span><span class="n">vl_widget</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="1042087552-26">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">600</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="1042087552-26">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="1042087552-27">(</span><span class="ss">:point</span><span class="p">,</span><span class="w"> </span><span class="ss">tooltip</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1042087552-27">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="1042087552-28">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;epoch&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:ordinal</span><span class="p" data-group-id="1042087552-28">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="1042087552-29">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="1042087552-29">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="1042087552-30">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dataset&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="1042087552-30">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="1042087552-31">(</span><span class="p" data-group-id="1042087552-31">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="1042087552-32">(</span><span class="p" data-group-id="1042087552-32">)</span><span class="w">
-
-    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="1042087552-33">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="p" data-group-id="1042087552-34">%</span><span class="nc" data-group-id="1042087552-34">Axon.Loop.State</span><span class="p" data-group-id="1042087552-34">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p">,</span><span class="w"> </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p" data-group-id="1042087552-34">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
-      </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="1042087552-35">[</span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="1042087552-35">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="1042087552-36">(</span><span class="p" data-group-id="1042087552-36">)</span><span class="w">
-      </span><span class="n">val_loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="1042087552-37">[</span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="1042087552-37">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="1042087552-38">(</span><span class="p" data-group-id="1042087552-38">)</span><span class="w">
-
-      </span><span class="n">points</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1042087552-39">[</span><span class="w">
-        </span><span class="p" data-group-id="1042087552-40">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;train&quot;</span><span class="p" data-group-id="1042087552-40">}</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1042087552-41">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">val_loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation&quot;</span><span class="p" data-group-id="1042087552-41">}</span><span class="w">
-      </span><span class="p" data-group-id="1042087552-39">]</span><span class="w">
-
-      </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">push_many</span><span class="p" data-group-id="1042087552-42">(</span><span class="n">vl_widget</span><span class="p">,</span><span class="w"> </span><span class="n">points</span><span class="p" data-group-id="1042087552-42">)</span><span class="w">
-      </span><span class="p" data-group-id="1042087552-43">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1042087552-43">}</span><span class="w">
-    </span><span class="k" data-group-id="1042087552-33">end</span><span class="w">
-
-    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="1042087552-44">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="1042087552-44">)</span><span class="w">
-  </span><span class="k" data-group-id="1042087552-25">end</span><span class="w">
-</span><span class="k" data-group-id="1042087552-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
-</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="0960811041-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="0960811041-2">[</span><span class="p" data-group-id="0960811041-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="0960811041-3">]</span><span class="p" data-group-id="0960811041-2">]</span><span class="w">
-  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="0960811041-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="0960811041-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="0960811041-5">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0960811041-6">[</span><span class="mi">0</span><span class="p" data-group-id="0960811041-6">]</span><span class="p" data-group-id="0960811041-5">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="0960811041-7">(</span><span class="p" data-group-id="0960811041-8">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="0960811041-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="0960811041-7">)</span><span class="w">
-</span><span class="k" data-group-id="0960811041-1">end</span><span class="w">
-
-</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0960811041-9">(</span><span class="p" data-group-id="0960811041-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="0960811041-10">(</span><span class="p" data-group-id="0960811041-10">)</span><span class="w">
-
-</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="0960811041-11">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6740245640-26">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">600</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="6740245640-26">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="6740245640-27">(</span><span class="ss">:point</span><span class="p">,</span><span class="w"> </span><span class="ss">tooltip</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6740245640-27">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="6740245640-28">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;epoch&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:ordinal</span><span class="p" data-group-id="6740245640-28">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="6740245640-29">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="6740245640-29">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="6740245640-30">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dataset&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="6740245640-30">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6740245640-31">(</span><span class="p" data-group-id="6740245640-31">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6740245640-32">(</span><span class="p" data-group-id="6740245640-32">)</span><span class="w">
+
+    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6740245640-33">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="p" data-group-id="6740245640-34">%</span><span class="nc" data-group-id="6740245640-34">Axon.Loop.State</span><span class="p" data-group-id="6740245640-34">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p">,</span><span class="w"> </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p" data-group-id="6740245640-34">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
+      </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="6740245640-35">[</span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="6740245640-35">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="6740245640-36">(</span><span class="p" data-group-id="6740245640-36">)</span><span class="w">
+      </span><span class="n">val_loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="6740245640-37">[</span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="6740245640-37">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="6740245640-38">(</span><span class="p" data-group-id="6740245640-38">)</span><span class="w">
+
+      </span><span class="n">points</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6740245640-39">[</span><span class="w">
+        </span><span class="p" data-group-id="6740245640-40">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;train&quot;</span><span class="p" data-group-id="6740245640-40">}</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6740245640-41">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">val_loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation&quot;</span><span class="p" data-group-id="6740245640-41">}</span><span class="w">
+      </span><span class="p" data-group-id="6740245640-39">]</span><span class="w">
+
+      </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">push_many</span><span class="p" data-group-id="6740245640-42">(</span><span class="n">vl_widget</span><span class="p">,</span><span class="w"> </span><span class="n">points</span><span class="p" data-group-id="6740245640-42">)</span><span class="w">
+      </span><span class="p" data-group-id="6740245640-43">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6740245640-43">}</span><span class="w">
+    </span><span class="k" data-group-id="6740245640-33">end</span><span class="w">
+
+    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="6740245640-44">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="6740245640-44">)</span><span class="w">
+  </span><span class="k" data-group-id="6740245640-25">end</span><span class="w">
+</span><span class="k" data-group-id="6740245640-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
+</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2826739148-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="2826739148-2">[</span><span class="p" data-group-id="2826739148-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="2826739148-3">]</span><span class="p" data-group-id="2826739148-2">]</span><span class="w">
+  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="2826739148-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="2826739148-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="2826739148-5">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2826739148-6">[</span><span class="mi">0</span><span class="p" data-group-id="2826739148-6">]</span><span class="p" data-group-id="2826739148-5">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="2826739148-7">(</span><span class="p" data-group-id="2826739148-8">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="2826739148-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="2826739148-7">)</span><span class="w">
+</span><span class="k" data-group-id="2826739148-1">end</span><span class="w">
+
+</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2826739148-9">(</span><span class="p" data-group-id="2826739148-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2826739148-10">(</span><span class="p" data-group-id="2826739148-10">)</span><span class="w">
+
+</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2826739148-11">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># state.step_state[:model_state] contains the model params when this event is fired</span><span class="w">
-  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="0960811041-12">[</span><span class="ss">:model_state</span><span class="p" data-group-id="0960811041-12">]</span><span class="w">
-  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="0960811041-13">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="0960811041-14">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="0960811041-15">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="0960811041-15">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0960811041-14">)</span><span class="p" data-group-id="0960811041-13">)</span><span class="w">
-  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="0960811041-16">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="0960811041-16">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="0960811041-17">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="0960811041-17">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="0960811041-18">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="0960811041-18">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="0960811041-19">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="0960811041-20">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="0960811041-20">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="0960811041-21">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="0960811041-21">}</span><span class="s">&quot;</span><span class="p" data-group-id="0960811041-19">)</span><span class="w">
-  </span><span class="p" data-group-id="0960811041-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0960811041-22">}</span><span class="w">
-</span><span class="k" data-group-id="0960811041-11">end</span><span class="w">
+  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="2826739148-12">[</span><span class="ss">:model_state</span><span class="p" data-group-id="2826739148-12">]</span><span class="w">
+  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="2826739148-13">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="2826739148-14">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="2826739148-15">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="2826739148-15">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2826739148-14">)</span><span class="p" data-group-id="2826739148-13">)</span><span class="w">
+  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="2826739148-16">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="2826739148-16">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="2826739148-17">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="2826739148-17">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2826739148-18">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="2826739148-18">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="2826739148-19">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="2826739148-20">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="2826739148-20">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="2826739148-21">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="2826739148-21">}</span><span class="s">&quot;</span><span class="p" data-group-id="2826739148-19">)</span><span class="w">
+  </span><span class="p" data-group-id="2826739148-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2826739148-22">}</span><span class="w">
+</span><span class="k" data-group-id="2826739148-11">end</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0960811041-23">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="0960811041-24">(</span><span class="mf">0.001</span><span class="p" data-group-id="0960811041-24">)</span><span class="p" data-group-id="0960811041-23">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="0960811041-25">(</span><span class="p" data-group-id="0960811041-25">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="0960811041-26">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="0960811041-26">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="0960811041-27">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="0960811041-27">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="0960811041-28">(</span><span class="p" data-group-id="0960811041-28">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0960811041-29">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0960811041-30">%{</span><span class="p" data-group-id="0960811041-30">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0960811041-29">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2826739148-23">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="2826739148-24">(</span><span class="mf">0.001</span><span class="p" data-group-id="2826739148-24">)</span><span class="p" data-group-id="2826739148-23">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="2826739148-25">(</span><span class="p" data-group-id="2826739148-25">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="2826739148-26">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="2826739148-26">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="2826739148-27">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="2826739148-27">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="2826739148-28">(</span><span class="p" data-group-id="2826739148-28">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2826739148-29">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2826739148-30">%{</span><span class="p" data-group-id="2826739148-30">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2826739148-29">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="splitting-up-the-model" class="section-heading">
   <a href="#splitting-up-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -341,191 +341,191 @@ <h1>
   Splitting up the model
 </h2>
 <p>Cool! We now have the parameters for a trained, simple autoencoder. Our next step is to split up the model so we can use the encoder and decoder separately. By doing that, we'll be able to take an image and <em>encode</em> it to get the model's compressed image representation (the latent vector). We can then manipulate the latent vector and run the manipulated latent vector through the <em>decoder</em> to get a new image.</p><p>Let's start by defining the encoder and decoder separately as two different models.</p><pre><code class="makeup elixir" translate="no"><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5561238711-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5561238711-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5561238711-2">}</span><span class="p" data-group-id="5561238711-1">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5583151075-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5583151075-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5583151075-2">}</span><span class="p" data-group-id="5583151075-1">)</span><span class="w">
   </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="5561238711-3">(</span><span class="p" data-group-id="5561238711-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="5583151075-3">(</span><span class="p" data-group-id="5583151075-3">)</span><span class="w">
   </span><span class="c1"># The encoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="5561238711-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="5561238711-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="5561238711-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="5583151075-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="5583151075-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="5583151075-6">)</span><span class="w">
   </span><span class="c1"># Bottleneck layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="5561238711-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="5583151075-7">)</span><span class="w">
 
 </span><span class="c1"># The output from the encoder</span><span class="w">
 </span><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5561238711-8">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5561238711-9">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5561238711-9">}</span><span class="p" data-group-id="5561238711-8">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5583151075-8">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5583151075-9">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5583151075-9">}</span><span class="p" data-group-id="5583151075-8">)</span><span class="w">
   </span><span class="c1"># The decoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-10">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="5561238711-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-11">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="5561238711-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-12">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="5561238711-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5561238711-13">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="5561238711-13">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="5561238711-14">(</span><span class="p" data-group-id="5561238711-14">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-10">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="5583151075-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-11">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="5583151075-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-12">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="5583151075-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5583151075-13">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="5583151075-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="5583151075-14">(</span><span class="p" data-group-id="5583151075-14">)</span><span class="w">
   </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5561238711-15">(</span><span class="p" data-group-id="5561238711-16">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5561238711-16">}</span><span class="p" data-group-id="5561238711-15">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5583151075-15">(</span><span class="p" data-group-id="5583151075-16">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5583151075-16">}</span><span class="p" data-group-id="5583151075-15">)</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="5561238711-17">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5561238711-18">(</span><span class="p" data-group-id="5561238711-19">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5561238711-19">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5561238711-18">)</span><span class="p" data-group-id="5561238711-17">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5561238711-20">(</span><span class="p" data-group-id="5561238711-20">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="5561238711-21">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5561238711-22">(</span><span class="p" data-group-id="5561238711-23">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5561238711-23">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5561238711-22">)</span><span class="p" data-group-id="5561238711-21">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5561238711-24">(</span><span class="p" data-group-id="5561238711-24">)</span></code></pre><p>We have the two models, but the problem is these are untrained models so we don't have the corresponding set of parameters. We'd like to use the parameters from the autoencoder we just trained and apply them to our split up models.</p><p>Let's first take a look at what params actually are:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span></code></pre><p>Params are just a <a href="https://hexdocs.pm/elixir/Map.html"><code class="inline">Map</code></a> with the layer name as the key identifying which parameters to use. We can easily match up the layer names with the output from the <a href="Axon.Display.html#as_table/2"><code class="inline">Axon.Display.as_table/2</code></a> call for the autoencoder model.</p><p>So all we need to do is create a new Map that plucks out the right layers from our autoencoder <code class="inline">params</code> for each model and use that to run inference on our split up models.</p><p>Fortunately, since we gave each of the layers names, this requires no work at all - we can use the Map as it is since the layer names match up! Axon will ignore any extra keys so those won't be a problem.</p><p>Note that naming the layers wasn't <em>required</em>, if the layers didn't have names we would have some renaming to do to get the names to match between the models. But giving them names made it very convenient :)</p><p>Let's try encoding an image, printing the latent and then decoding the latent using our split up model to make sure it's working.</p><pre><code class="makeup elixir" translate="no"><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="8401683991-1">[</span><span class="p" data-group-id="8401683991-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8401683991-2">]</span><span class="p" data-group-id="8401683991-1">]</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="5583151075-17">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5583151075-18">(</span><span class="p" data-group-id="5583151075-19">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5583151075-19">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5583151075-18">)</span><span class="p" data-group-id="5583151075-17">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5583151075-20">(</span><span class="p" data-group-id="5583151075-20">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="5583151075-21">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5583151075-22">(</span><span class="p" data-group-id="5583151075-23">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5583151075-23">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5583151075-22">)</span><span class="p" data-group-id="5583151075-21">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5583151075-24">(</span><span class="p" data-group-id="5583151075-24">)</span></code></pre><p>We have the two models, but the problem is these are untrained models so we don't have the corresponding set of parameters. We'd like to use the parameters from the autoencoder we just trained and apply them to our split up models.</p><p>Let's first take a look at what params actually are:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span></code></pre><p>Params are just a <a href="https://hexdocs.pm/elixir/Map.html"><code class="inline">Map</code></a> with the layer name as the key identifying which parameters to use. We can easily match up the layer names with the output from the <a href="Axon.Display.html#as_table/2"><code class="inline">Axon.Display.as_table/2</code></a> call for the autoencoder model.</p><p>So all we need to do is create a new Map that plucks out the right layers from our autoencoder <code class="inline">params</code> for each model and use that to run inference on our split up models.</p><p>Fortunately, since we gave each of the layers names, this requires no work at all - we can use the Map as it is since the layer names match up! Axon will ignore any extra keys so those won't be a problem.</p><p>Note that naming the layers wasn't <em>required</em>, if the layers didn't have names we would have some renaming to do to get the names to match between the models. But giving them names made it very convenient :)</p><p>Let's try encoding an image, printing the latent and then decoding the latent using our split up model to make sure it's working.</p><pre><code class="makeup elixir" translate="no"><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="1998021416-1">[</span><span class="p" data-group-id="1998021416-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1998021416-2">]</span><span class="p" data-group-id="1998021416-1">]</span><span class="w">
 
 </span><span class="c1"># Encode the image</span><span class="w">
-</span><span class="n">latent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="8401683991-3">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="8401683991-3">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8401683991-4">(</span><span class="n">latent</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Latent&quot;</span><span class="p" data-group-id="8401683991-4">)</span><span class="w">
+</span><span class="n">latent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="1998021416-3">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="1998021416-3">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="1998021416-4">(</span><span class="n">latent</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Latent&quot;</span><span class="p" data-group-id="1998021416-4">)</span><span class="w">
 </span><span class="c1"># Decode the image</span><span class="w">
-</span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="8401683991-5">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">latent</span><span class="p" data-group-id="8401683991-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="8401683991-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8401683991-7">[</span><span class="mi">0</span><span class="p" data-group-id="8401683991-7">]</span><span class="p" data-group-id="8401683991-6">)</span><span class="w">
+</span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="1998021416-5">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">latent</span><span class="p" data-group-id="1998021416-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="1998021416-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1998021416-7">[</span><span class="mi">0</span><span class="p" data-group-id="1998021416-7">]</span><span class="p" data-group-id="1998021416-6">)</span><span class="w">
 
-</span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="8401683991-8">(</span><span class="p" data-group-id="8401683991-9">[</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="8401683991-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="8401683991-8">)</span><span class="w">
-</span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="8401683991-10">(</span><span class="n">combined_image</span><span class="p">,</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="8401683991-10">)</span></code></pre><p>Perfect! Seems like the split up models are working as expected. Now let's try to generate some new images using our autoencoder. To do this, we'll manipulate the latent so it's slightly different from what the encoder gave us. Specifically, we'll try to interpolate between two images, showing 100 steps from our starting image to our final image.</p><pre><code class="makeup elixir" translate="no"><span class="n">num_steps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
+</span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="1998021416-8">(</span><span class="p" data-group-id="1998021416-9">[</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="1998021416-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="1998021416-8">)</span><span class="w">
+</span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="1998021416-10">(</span><span class="n">combined_image</span><span class="p">,</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="1998021416-10">)</span></code></pre><p>Perfect! Seems like the split up models are working as expected. Now let's try to generate some new images using our autoencoder. To do this, we'll manipulate the latent so it's slightly different from what the encoder gave us. Specifically, we'll try to interpolate between two images, showing 100 steps from our starting image to our final image.</p><pre><code class="makeup elixir" translate="no"><span class="n">num_steps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
 
 </span><span class="c1"># Get our latents, image at index 0 is our starting point</span><span class="w">
 </span><span class="c1"># index 1 is where we&#39;ll end</span><span class="w">
-</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5784596001-1">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5784596001-2">[</span><span class="p" data-group-id="5784596001-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="5784596001-3">]</span><span class="p" data-group-id="5784596001-2">]</span><span class="p" data-group-id="5784596001-1">)</span><span class="w">
+</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6306885295-1">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="6306885295-2">[</span><span class="p" data-group-id="6306885295-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="6306885295-3">]</span><span class="p" data-group-id="6306885295-2">]</span><span class="p" data-group-id="6306885295-1">)</span><span class="w">
 </span><span class="c1"># Latents is a {2, 10} tensor</span><span class="w">
 </span><span class="c1"># The step we&#39;ll add to our latent to move it towards image[1]</span><span class="w">
-</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="5784596001-4">(</span><span class="n">latents</span><span class="p" data-group-id="5784596001-5">[</span><span class="mi">1</span><span class="p" data-group-id="5784596001-5">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="5784596001-6">[</span><span class="mi">0</span><span class="p" data-group-id="5784596001-6">]</span><span class="p" data-group-id="5784596001-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5784596001-7">(</span><span class="n">num_steps</span><span class="p" data-group-id="5784596001-7">)</span><span class="w">
+</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="6306885295-4">(</span><span class="n">latents</span><span class="p" data-group-id="6306885295-5">[</span><span class="mi">1</span><span class="p" data-group-id="6306885295-5">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="6306885295-6">[</span><span class="mi">0</span><span class="p" data-group-id="6306885295-6">]</span><span class="p" data-group-id="6306885295-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6306885295-7">(</span><span class="n">num_steps</span><span class="p" data-group-id="6306885295-7">)</span><span class="w">
 </span><span class="c1"># We can make a batch of all our new latents</span><span class="w">
-</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="5784596001-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5784596001-9">(</span><span class="p" data-group-id="5784596001-10">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5784596001-10">}</span><span class="p" data-group-id="5784596001-9">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="5784596001-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5784596001-11">(</span><span class="n">latents</span><span class="p" data-group-id="5784596001-12">[</span><span class="mi">0</span><span class="p" data-group-id="5784596001-12">]</span><span class="p" data-group-id="5784596001-11">)</span><span class="w">
+</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6306885295-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6306885295-9">(</span><span class="p" data-group-id="6306885295-10">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6306885295-10">}</span><span class="p" data-group-id="6306885295-9">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="6306885295-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6306885295-11">(</span><span class="n">latents</span><span class="p" data-group-id="6306885295-12">[</span><span class="mi">0</span><span class="p" data-group-id="6306885295-12">]</span><span class="p" data-group-id="6306885295-11">)</span><span class="w">
 
-</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5784596001-13">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="5784596001-13">)</span><span class="w">
+</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6306885295-13">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="6306885295-13">)</span><span class="w">
 
 </span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5784596001-14">(</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="6306885295-14">(</span><span class="w">
     </span><span class="n">reconstructed_images</span><span class="p">,</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5784596001-15">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5784596001-15">)</span><span class="p">,</span><span class="w">
-    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5784596001-16">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5784596001-16">]</span><span class="w">
-  </span><span class="p" data-group-id="5784596001-14">)</span><span class="w">
-
-</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="5784596001-17">(</span><span class="n">div</span><span class="p" data-group-id="5784596001-18">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="5784596001-18">)</span><span class="p" data-group-id="5784596001-17">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="5784596001-19">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5784596001-19">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="5784596001-20">(</span><span class="k" data-group-id="5784596001-21">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5784596001-22">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5784596001-23">[</span><span class="n">i</span><span class="p" data-group-id="5784596001-23">]</span><span class="p" data-group-id="5784596001-22">)</span><span class="w">
-</span><span class="k" data-group-id="5784596001-21">end</span><span class="p" data-group-id="5784596001-20">)</span></code></pre><p>Cool! We have interpolation! But did you notice that some of the intermediate frames don't look fashionable at all? Autoencoders don't generally return good results for random vectors in their latent space. That's where a VAE can help.</p><h2 id="making-it-variational" class="section-heading">
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6306885295-15">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="6306885295-15">)</span><span class="p">,</span><span class="w">
+    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6306885295-16">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="6306885295-16">]</span><span class="w">
+  </span><span class="p" data-group-id="6306885295-14">)</span><span class="w">
+
+</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="6306885295-17">(</span><span class="n">div</span><span class="p" data-group-id="6306885295-18">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="6306885295-18">)</span><span class="p" data-group-id="6306885295-17">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="6306885295-19">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6306885295-19">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="6306885295-20">(</span><span class="k" data-group-id="6306885295-21">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6306885295-22">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="6306885295-23">[</span><span class="n">i</span><span class="p" data-group-id="6306885295-23">]</span><span class="p" data-group-id="6306885295-22">)</span><span class="w">
+</span><span class="k" data-group-id="6306885295-21">end</span><span class="p" data-group-id="6306885295-20">)</span></code></pre><p>Cool! We have interpolation! But did you notice that some of the intermediate frames don't look fashionable at all? Autoencoders don't generally return good results for random vectors in their latent space. That's where a VAE can help.</p><h2 id="making-it-variational" class="section-heading">
   <a href="#making-it-variational" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">making-it-variational</p>
   </a>
   Making it variational
 </h2>
-<p>In a VAE, instead of outputting a latent vector, our encoder will output a distribution. Essentially this means instead of 10 outputs we'll have 20. 10 of them will represent the mean and 10 will represent the log of the variance of the latent. We'll have to sample from this distribution to get our latent vector. Finally, we'll have to modify our loss function to also compute the KL Divergence between the latent distribution and a standard normal distribution (this acts as a regularizer of the latent space).</p><p>We'll start by defining our model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Vae</span><span class="w"> </span><span class="k" data-group-id="2786809486-1">do</span><span class="w">
+<p>In a VAE, instead of outputting a latent vector, our encoder will output a distribution. Essentially this means instead of 10 outputs we'll have 20. 10 of them will represent the mean and 10 will represent the log of the variance of the latent. We'll have to sample from this distribution to get our latent vector. Finally, we'll have to modify our loss function to also compute the KL Divergence between the latent distribution and a standard normal distribution (this acts as a regularizer of the latent space).</p><p>We'll start by defining our model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Vae</span><span class="w"> </span><span class="k" data-group-id="5303126634-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
   </span><span class="na">@latent_features</span><span class="w"> </span><span class="mi">10</span><span class="w">
 
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">sampling_layer</span><span class="p" data-group-id="2786809486-2">(</span><span class="p" data-group-id="2786809486-3">%</span><span class="nc" data-group-id="2786809486-3">Axon</span><span class="p" data-group-id="2786809486-3">{</span><span class="p" data-group-id="2786809486-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="2786809486-4">[</span><span class="p" data-group-id="2786809486-4">]</span><span class="p" data-group-id="2786809486-2">)</span><span class="w"> </span><span class="k" data-group-id="2786809486-5">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="2786809486-6">(</span><span class="o">&amp;</span><span class="n">sampling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2786809486-7">[</span><span class="n">input</span><span class="p" data-group-id="2786809486-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;sampling_layer&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:sample</span><span class="p" data-group-id="2786809486-6">)</span><span class="w">
-  </span><span class="k" data-group-id="2786809486-5">end</span><span class="w">
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">sampling_layer</span><span class="p" data-group-id="5303126634-2">(</span><span class="p" data-group-id="5303126634-3">%</span><span class="nc" data-group-id="5303126634-3">Axon</span><span class="p" data-group-id="5303126634-3">{</span><span class="p" data-group-id="5303126634-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="5303126634-4">[</span><span class="p" data-group-id="5303126634-4">]</span><span class="p" data-group-id="5303126634-2">)</span><span class="w"> </span><span class="k" data-group-id="5303126634-5">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="5303126634-6">(</span><span class="o">&amp;</span><span class="n">sampling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5303126634-7">[</span><span class="n">input</span><span class="p" data-group-id="5303126634-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;sampling_layer&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:sample</span><span class="p" data-group-id="5303126634-6">)</span><span class="w">
+  </span><span class="k" data-group-id="5303126634-5">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">sampling_layer_impl</span><span class="p" data-group-id="2786809486-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="2786809486-9">[</span><span class="p" data-group-id="2786809486-9">]</span><span class="p" data-group-id="2786809486-8">)</span><span class="w"> </span><span class="k" data-group-id="2786809486-10">do</span><span class="w">
-    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="2786809486-11">[</span><span class="p" data-group-id="2786809486-12">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="2786809486-12">]</span><span class="p" data-group-id="2786809486-11">]</span><span class="w">
-    </span><span class="n">log_var</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="2786809486-13">[</span><span class="p" data-group-id="2786809486-14">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="2786809486-14">]</span><span class="p" data-group-id="2786809486-13">]</span><span class="w">
-    </span><span class="n">std_dev</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="2786809486-15">(</span><span class="mf">0.5</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">log_var</span><span class="p" data-group-id="2786809486-15">)</span><span class="w">
-    </span><span class="n">eps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="2786809486-16">(</span><span class="n">std_dev</span><span class="p" data-group-id="2786809486-16">)</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">sampling_layer_impl</span><span class="p" data-group-id="5303126634-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="5303126634-9">[</span><span class="p" data-group-id="5303126634-9">]</span><span class="p" data-group-id="5303126634-8">)</span><span class="w"> </span><span class="k" data-group-id="5303126634-10">do</span><span class="w">
+    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="5303126634-11">[</span><span class="p" data-group-id="5303126634-12">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="5303126634-12">]</span><span class="p" data-group-id="5303126634-11">]</span><span class="w">
+    </span><span class="n">log_var</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="5303126634-13">[</span><span class="p" data-group-id="5303126634-14">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="5303126634-14">]</span><span class="p" data-group-id="5303126634-13">]</span><span class="w">
+    </span><span class="n">std_dev</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="5303126634-15">(</span><span class="mf">0.5</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">log_var</span><span class="p" data-group-id="5303126634-15">)</span><span class="w">
+    </span><span class="n">eps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5303126634-16">(</span><span class="n">std_dev</span><span class="p" data-group-id="5303126634-16">)</span><span class="w">
     </span><span class="n">sample</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">std_dev</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">eps</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="2786809486-17">(</span><span class="p" data-group-id="2786809486-18">[</span><span class="n">sample</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">std_dev</span><span class="p" data-group-id="2786809486-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2786809486-17">)</span><span class="w">
-  </span><span class="k" data-group-id="2786809486-10">end</span><span class="w">
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="5303126634-17">(</span><span class="p" data-group-id="5303126634-18">[</span><span class="n">sample</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">std_dev</span><span class="p" data-group-id="5303126634-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5303126634-17">)</span><span class="w">
+  </span><span class="k" data-group-id="5303126634-10">end</span><span class="w">
 
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">encoder_partial</span><span class="p" data-group-id="2786809486-19">(</span><span class="p" data-group-id="2786809486-19">)</span><span class="w"> </span><span class="k" data-group-id="2786809486-20">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2786809486-21">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2786809486-22">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="2786809486-22">}</span><span class="p" data-group-id="2786809486-21">)</span><span class="w">
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">encoder_partial</span><span class="p" data-group-id="5303126634-19">(</span><span class="p" data-group-id="5303126634-19">)</span><span class="w"> </span><span class="k" data-group-id="5303126634-20">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5303126634-21">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5303126634-22">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5303126634-22">}</span><span class="p" data-group-id="5303126634-21">)</span><span class="w">
     </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="2786809486-23">(</span><span class="p" data-group-id="2786809486-23">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="5303126634-23">(</span><span class="p" data-group-id="5303126634-23">)</span><span class="w">
     </span><span class="c1"># The encoder</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-24">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="2786809486-24">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-25">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="2786809486-25">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-26">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="2786809486-26">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-24">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="5303126634-24">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-25">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="5303126634-25">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-26">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="5303126634-26">)</span><span class="w">
     </span><span class="c1"># Bottleneck layer</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-27">(</span><span class="na">@latent_features</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="2786809486-27">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-27">(</span><span class="na">@latent_features</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="5303126634-27">)</span><span class="w">
     </span><span class="c1"># Split up the mu and logvar</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2786809486-28">(</span><span class="p" data-group-id="2786809486-29">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="na">@latent_features</span><span class="p" data-group-id="2786809486-29">}</span><span class="p" data-group-id="2786809486-28">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">sampling_layer</span><span class="p" data-group-id="2786809486-30">(</span><span class="p" data-group-id="2786809486-30">)</span><span class="w">
-  </span><span class="k" data-group-id="2786809486-20">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5303126634-28">(</span><span class="p" data-group-id="5303126634-29">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="na">@latent_features</span><span class="p" data-group-id="5303126634-29">}</span><span class="p" data-group-id="5303126634-28">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">sampling_layer</span><span class="p" data-group-id="5303126634-30">(</span><span class="p" data-group-id="5303126634-30">)</span><span class="w">
+  </span><span class="k" data-group-id="5303126634-20">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">encoder</span><span class="p" data-group-id="2786809486-31">(</span><span class="p" data-group-id="2786809486-31">)</span><span class="w"> </span><span class="k" data-group-id="2786809486-32">do</span><span class="w">
-    </span><span class="n">encoder_partial</span><span class="p" data-group-id="2786809486-33">(</span><span class="p" data-group-id="2786809486-33">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">encoder</span><span class="p" data-group-id="5303126634-31">(</span><span class="p" data-group-id="5303126634-31">)</span><span class="w"> </span><span class="k" data-group-id="5303126634-32">do</span><span class="w">
+    </span><span class="n">encoder_partial</span><span class="p" data-group-id="5303126634-33">(</span><span class="p" data-group-id="5303126634-33">)</span><span class="w">
     </span><span class="c1"># Grab only the sample (ie. the sampled latent)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="2786809486-34">(</span><span class="k" data-group-id="2786809486-35">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="2786809486-36">[</span><span class="p" data-group-id="2786809486-37">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2786809486-37">]</span><span class="p" data-group-id="2786809486-36">]</span><span class="w"> </span><span class="k" data-group-id="2786809486-35">end</span><span class="p" data-group-id="2786809486-34">)</span><span class="w">
-  </span><span class="k" data-group-id="2786809486-32">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="5303126634-34">(</span><span class="k" data-group-id="5303126634-35">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="5303126634-36">[</span><span class="p" data-group-id="5303126634-37">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5303126634-37">]</span><span class="p" data-group-id="5303126634-36">]</span><span class="w"> </span><span class="k" data-group-id="5303126634-35">end</span><span class="p" data-group-id="5303126634-34">)</span><span class="w">
+  </span><span class="k" data-group-id="5303126634-32">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">decoder</span><span class="p" data-group-id="2786809486-38">(</span><span class="n">input_latent</span><span class="p" data-group-id="2786809486-38">)</span><span class="w"> </span><span class="k" data-group-id="2786809486-39">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">decoder</span><span class="p" data-group-id="5303126634-38">(</span><span class="n">input_latent</span><span class="p" data-group-id="5303126634-38">)</span><span class="w"> </span><span class="k" data-group-id="5303126634-39">do</span><span class="w">
     </span><span class="n">input_latent</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-40">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="2786809486-40">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-41">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="2786809486-41">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-42">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="2786809486-42">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2786809486-43">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="2786809486-43">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="2786809486-44">(</span><span class="p" data-group-id="2786809486-44">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-40">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="5303126634-40">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-41">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="5303126634-41">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-42">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="5303126634-42">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5303126634-43">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="5303126634-43">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="5303126634-44">(</span><span class="p" data-group-id="5303126634-44">)</span><span class="w">
     </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2786809486-45">(</span><span class="p" data-group-id="2786809486-46">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="2786809486-46">}</span><span class="p" data-group-id="2786809486-45">)</span><span class="w">
-  </span><span class="k" data-group-id="2786809486-39">end</span><span class="w">
-
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">autoencoder</span><span class="p" data-group-id="2786809486-47">(</span><span class="p" data-group-id="2786809486-47">)</span><span class="w"> </span><span class="k" data-group-id="2786809486-48">do</span><span class="w">
-    </span><span class="n">encoder_partial</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p" data-group-id="2786809486-49">(</span><span class="p" data-group-id="2786809486-49">)</span><span class="w">
-    </span><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder</span><span class="p" data-group-id="2786809486-50">(</span><span class="p" data-group-id="2786809486-50">)</span><span class="w">
-    </span><span class="n">autoencoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">decoder</span><span class="p" data-group-id="2786809486-51">(</span><span class="n">encoder</span><span class="p" data-group-id="2786809486-51">)</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="2786809486-52">(</span><span class="p" data-group-id="2786809486-53">%{</span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p">,</span><span class="w"> </span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">autoencoder</span><span class="p" data-group-id="2786809486-53">}</span><span class="p" data-group-id="2786809486-52">)</span><span class="w">
-  </span><span class="k" data-group-id="2786809486-48">end</span><span class="w">
-</span><span class="k" data-group-id="2786809486-1">end</span></code></pre><p>There's a few interesting things going on here. First, since our model has become more complex, we've used a module to keep it organized. We also built a custom layer to do the sampling and output the sampled latent vector as well as the distribution parameters (mu and sigma).</p><p>Finally, we need the distribution itself so we can calculate the KL Divergence in our loss function. To make the model output the distribution parameters (mu and sigma), we use <a href="Axon.html#container/1"><code class="inline">Axon.container/1</code></a> to produce two outputs from our model instead of one. Now, instead of getting a tensor as an output, we'll get a map with the two tensors we need for our loss function.</p><p>Our loss function also has to be modified so be the sum of the KL divergence and MSE. Here's our custom loss function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLoss</span><span class="w"> </span><span class="k" data-group-id="7063672607-1">do</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5303126634-45">(</span><span class="p" data-group-id="5303126634-46">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5303126634-46">}</span><span class="p" data-group-id="5303126634-45">)</span><span class="w">
+  </span><span class="k" data-group-id="5303126634-39">end</span><span class="w">
+
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">autoencoder</span><span class="p" data-group-id="5303126634-47">(</span><span class="p" data-group-id="5303126634-47">)</span><span class="w"> </span><span class="k" data-group-id="5303126634-48">do</span><span class="w">
+    </span><span class="n">encoder_partial</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p" data-group-id="5303126634-49">(</span><span class="p" data-group-id="5303126634-49">)</span><span class="w">
+    </span><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder</span><span class="p" data-group-id="5303126634-50">(</span><span class="p" data-group-id="5303126634-50">)</span><span class="w">
+    </span><span class="n">autoencoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">decoder</span><span class="p" data-group-id="5303126634-51">(</span><span class="n">encoder</span><span class="p" data-group-id="5303126634-51">)</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="5303126634-52">(</span><span class="p" data-group-id="5303126634-53">%{</span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p">,</span><span class="w"> </span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">autoencoder</span><span class="p" data-group-id="5303126634-53">}</span><span class="p" data-group-id="5303126634-52">)</span><span class="w">
+  </span><span class="k" data-group-id="5303126634-48">end</span><span class="w">
+</span><span class="k" data-group-id="5303126634-1">end</span></code></pre><p>There's a few interesting things going on here. First, since our model has become more complex, we've used a module to keep it organized. We also built a custom layer to do the sampling and output the sampled latent vector as well as the distribution parameters (mu and sigma).</p><p>Finally, we need the distribution itself so we can calculate the KL Divergence in our loss function. To make the model output the distribution parameters (mu and sigma), we use <a href="Axon.html#container/1"><code class="inline">Axon.container/1</code></a> to produce two outputs from our model instead of one. Now, instead of getting a tensor as an output, we'll get a map with the two tensors we need for our loss function.</p><p>Our loss function also has to be modified so be the sum of the KL divergence and MSE. Here's our custom loss function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLoss</span><span class="w"> </span><span class="k" data-group-id="3783313909-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">loss</span><span class="p" data-group-id="7063672607-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7063672607-3">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="7063672607-3">}</span><span class="p" data-group-id="7063672607-2">)</span><span class="w"> </span><span class="k" data-group-id="7063672607-4">do</span><span class="w">
-    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="7063672607-5">[</span><span class="p" data-group-id="7063672607-6">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="7063672607-6">]</span><span class="p" data-group-id="7063672607-5">]</span><span class="w">
-    </span><span class="n">sigma</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="7063672607-7">[</span><span class="p" data-group-id="7063672607-8">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="7063672607-8">]</span><span class="p" data-group-id="7063672607-7">]</span><span class="w">
-    </span><span class="n">kld</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="7063672607-9">(</span><span class="o">-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="7063672607-10">(</span><span class="n">sigma</span><span class="p" data-group-id="7063672607-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="7063672607-11">(</span><span class="n">sigma</span><span class="p">,</span><span class="w"> </span><span class="n">sigma</span><span class="p" data-group-id="7063672607-11">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="7063672607-12">(</span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p" data-group-id="7063672607-12">)</span><span class="p" data-group-id="7063672607-9">)</span><span class="w">
-    </span><span class="n">kld</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mf">0.1</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="7063672607-13">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7063672607-13">)</span><span class="w">
-  </span><span class="k" data-group-id="7063672607-4">end</span><span class="w">
-</span><span class="k" data-group-id="7063672607-1">end</span></code></pre><p>With all our pieces ready, we can pretty much use the same training loop as we did earlier. The only modifications needed are to account for the fact that the model outputs a map with two values instead of a single tensor and telling the trainer to use our custom loss.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">autoencoder</span><span class="p" data-group-id="5680413540-1">(</span><span class="p" data-group-id="5680413540-1">)</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">loss</span><span class="p" data-group-id="3783313909-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3783313909-3">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="3783313909-3">}</span><span class="p" data-group-id="3783313909-2">)</span><span class="w"> </span><span class="k" data-group-id="3783313909-4">do</span><span class="w">
+    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="3783313909-5">[</span><span class="p" data-group-id="3783313909-6">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="3783313909-6">]</span><span class="p" data-group-id="3783313909-5">]</span><span class="w">
+    </span><span class="n">sigma</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="3783313909-7">[</span><span class="p" data-group-id="3783313909-8">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="3783313909-8">]</span><span class="p" data-group-id="3783313909-7">]</span><span class="w">
+    </span><span class="n">kld</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="3783313909-9">(</span><span class="o">-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="3783313909-10">(</span><span class="n">sigma</span><span class="p" data-group-id="3783313909-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3783313909-11">(</span><span class="n">sigma</span><span class="p">,</span><span class="w"> </span><span class="n">sigma</span><span class="p" data-group-id="3783313909-11">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3783313909-12">(</span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p" data-group-id="3783313909-12">)</span><span class="p" data-group-id="3783313909-9">)</span><span class="w">
+    </span><span class="n">kld</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mf">0.1</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="3783313909-13">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="3783313909-13">)</span><span class="w">
+  </span><span class="k" data-group-id="3783313909-4">end</span><span class="w">
+</span><span class="k" data-group-id="3783313909-1">end</span></code></pre><p>With all our pieces ready, we can pretty much use the same training loop as we did earlier. The only modifications needed are to account for the fact that the model outputs a map with two values instead of a single tensor and telling the trainer to use our custom loss.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">autoencoder</span><span class="p" data-group-id="4748575552-1">(</span><span class="p" data-group-id="4748575552-1">)</span><span class="w">
 
 </span><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
-</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5680413540-2">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5680413540-3">[</span><span class="p" data-group-id="5680413540-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="5680413540-4">]</span><span class="p" data-group-id="5680413540-3">]</span><span class="w">
-  </span><span class="p" data-group-id="5680413540-5">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="5680413540-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5680413540-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="5680413540-6">)</span><span class="w">
-  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="5680413540-7">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5680413540-8">[</span><span class="mi">0</span><span class="p" data-group-id="5680413540-8">]</span><span class="p" data-group-id="5680413540-7">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="5680413540-9">(</span><span class="p" data-group-id="5680413540-10">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="5680413540-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5680413540-9">)</span><span class="w">
-</span><span class="k" data-group-id="5680413540-2">end</span><span class="w">
+</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4748575552-2">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="4748575552-3">[</span><span class="p" data-group-id="4748575552-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4748575552-4">]</span><span class="p" data-group-id="4748575552-3">]</span><span class="w">
+  </span><span class="p" data-group-id="4748575552-5">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="4748575552-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4748575552-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="4748575552-6">)</span><span class="w">
+  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="4748575552-7">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4748575552-8">[</span><span class="mi">0</span><span class="p" data-group-id="4748575552-8">]</span><span class="p" data-group-id="4748575552-7">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="4748575552-9">(</span><span class="p" data-group-id="4748575552-10">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="4748575552-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="4748575552-9">)</span><span class="w">
+</span><span class="k" data-group-id="4748575552-2">end</span><span class="w">
 
-</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="5680413540-11">(</span><span class="p" data-group-id="5680413540-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5680413540-12">(</span><span class="p" data-group-id="5680413540-12">)</span><span class="w">
+</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="4748575552-11">(</span><span class="p" data-group-id="4748575552-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4748575552-12">(</span><span class="p" data-group-id="4748575552-12">)</span><span class="w">
 
-</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5680413540-13">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4748575552-13">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># state.step_state[:model_state] contains the model params when this event is fired</span><span class="w">
-  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="5680413540-14">[</span><span class="ss">:model_state</span><span class="p" data-group-id="5680413540-14">]</span><span class="w">
-  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="5680413540-15">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="5680413540-16">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="5680413540-17">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="5680413540-17">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5680413540-16">)</span><span class="p" data-group-id="5680413540-15">)</span><span class="w">
-  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="5680413540-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="5680413540-18">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5680413540-19">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="5680413540-19">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5680413540-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="5680413540-20">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="5680413540-21">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="5680413540-22">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="5680413540-22">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="5680413540-23">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="5680413540-23">}</span><span class="s">&quot;</span><span class="p" data-group-id="5680413540-21">)</span><span class="w">
-  </span><span class="p" data-group-id="5680413540-24">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="5680413540-24">}</span><span class="w">
-</span><span class="k" data-group-id="5680413540-13">end</span><span class="w">
+  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="4748575552-14">[</span><span class="ss">:model_state</span><span class="p" data-group-id="4748575552-14">]</span><span class="w">
+  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="4748575552-15">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="4748575552-16">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="4748575552-17">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="4748575552-17">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4748575552-16">)</span><span class="p" data-group-id="4748575552-15">)</span><span class="w">
+  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="4748575552-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4748575552-18">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="4748575552-19">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="4748575552-19">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4748575552-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="4748575552-20">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="4748575552-21">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="4748575552-22">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="4748575552-22">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="4748575552-23">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="4748575552-23">}</span><span class="s">&quot;</span><span class="p" data-group-id="4748575552-21">)</span><span class="w">
+  </span><span class="p" data-group-id="4748575552-24">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="4748575552-24">}</span><span class="w">
+</span><span class="k" data-group-id="4748575552-13">end</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5680413540-25">(</span><span class="o">&amp;</span><span class="nc">CustomLoss</span><span class="o">.</span><span class="n">loss</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="5680413540-26">(</span><span class="mf">0.001</span><span class="p" data-group-id="5680413540-26">)</span><span class="p" data-group-id="5680413540-25">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="5680413540-27">(</span><span class="p" data-group-id="5680413540-27">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="5680413540-28">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p" data-group-id="5680413540-28">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="5680413540-29">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="5680413540-29">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="5680413540-30">(</span><span class="p" data-group-id="5680413540-30">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5680413540-31">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5680413540-32">%{</span><span class="p" data-group-id="5680413540-32">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5680413540-31">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4748575552-25">(</span><span class="o">&amp;</span><span class="nc">CustomLoss</span><span class="o">.</span><span class="n">loss</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="4748575552-26">(</span><span class="mf">0.001</span><span class="p" data-group-id="4748575552-26">)</span><span class="p" data-group-id="4748575552-25">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="4748575552-27">(</span><span class="p" data-group-id="4748575552-27">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="4748575552-28">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p" data-group-id="4748575552-28">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="4748575552-29">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="4748575552-29">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="4748575552-30">(</span><span class="p" data-group-id="4748575552-30">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4748575552-31">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4748575552-32">%{</span><span class="p" data-group-id="4748575552-32">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4748575552-31">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>Finally, we can try our interpolation again:</p><pre><code class="makeup elixir" translate="no"><span class="n">num_steps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
 
 </span><span class="c1"># Get our latents, image at index 0 is our starting point</span><span class="w">
 </span><span class="c1"># index 1 is where we&#39;ll end</span><span class="w">
-</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6666841027-1">(</span><span class="nc">Vae</span><span class="o">.</span><span class="n">encoder</span><span class="p" data-group-id="6666841027-2">(</span><span class="p" data-group-id="6666841027-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="6666841027-3">[</span><span class="p" data-group-id="6666841027-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="6666841027-4">]</span><span class="p" data-group-id="6666841027-3">]</span><span class="p" data-group-id="6666841027-1">)</span><span class="w">
+</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4902730698-1">(</span><span class="nc">Vae</span><span class="o">.</span><span class="n">encoder</span><span class="p" data-group-id="4902730698-2">(</span><span class="p" data-group-id="4902730698-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="4902730698-3">[</span><span class="p" data-group-id="4902730698-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="4902730698-4">]</span><span class="p" data-group-id="4902730698-3">]</span><span class="p" data-group-id="4902730698-1">)</span><span class="w">
 </span><span class="c1"># Latents is a {2, 10} tensor</span><span class="w">
 </span><span class="c1"># The step we&#39;ll add to our latent to move it towards image[1]</span><span class="w">
-</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="6666841027-5">(</span><span class="n">latents</span><span class="p" data-group-id="6666841027-6">[</span><span class="mi">1</span><span class="p" data-group-id="6666841027-6">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="6666841027-7">[</span><span class="mi">0</span><span class="p" data-group-id="6666841027-7">]</span><span class="p" data-group-id="6666841027-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6666841027-8">(</span><span class="n">num_steps</span><span class="p" data-group-id="6666841027-8">)</span><span class="w">
+</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="4902730698-5">(</span><span class="n">latents</span><span class="p" data-group-id="4902730698-6">[</span><span class="mi">1</span><span class="p" data-group-id="4902730698-6">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="4902730698-7">[</span><span class="mi">0</span><span class="p" data-group-id="4902730698-7">]</span><span class="p" data-group-id="4902730698-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="4902730698-8">(</span><span class="n">num_steps</span><span class="p" data-group-id="4902730698-8">)</span><span class="w">
 </span><span class="c1"># We can make a batch of all our new latents</span><span class="w">
-</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6666841027-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6666841027-10">(</span><span class="p" data-group-id="6666841027-11">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6666841027-11">}</span><span class="p" data-group-id="6666841027-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="6666841027-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6666841027-12">(</span><span class="n">latents</span><span class="p" data-group-id="6666841027-13">[</span><span class="mi">0</span><span class="p" data-group-id="6666841027-13">]</span><span class="p" data-group-id="6666841027-12">)</span><span class="w">
+</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4902730698-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4902730698-10">(</span><span class="p" data-group-id="4902730698-11">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4902730698-11">}</span><span class="p" data-group-id="4902730698-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="4902730698-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="4902730698-12">(</span><span class="n">latents</span><span class="p" data-group-id="4902730698-13">[</span><span class="mi">0</span><span class="p" data-group-id="4902730698-13">]</span><span class="p" data-group-id="4902730698-12">)</span><span class="w">
 
-</span><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6666841027-14">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6666841027-15">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="6666841027-15">}</span><span class="p" data-group-id="6666841027-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">decoder</span><span class="p" data-group-id="6666841027-16">(</span><span class="p" data-group-id="6666841027-16">)</span><span class="w">
+</span><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4902730698-14">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4902730698-15">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="4902730698-15">}</span><span class="p" data-group-id="4902730698-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">decoder</span><span class="p" data-group-id="4902730698-16">(</span><span class="p" data-group-id="4902730698-16">)</span><span class="w">
 
-</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6666841027-17">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="6666841027-17">)</span><span class="w">
+</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4902730698-17">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="4902730698-17">)</span><span class="w">
 
 </span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="6666841027-18">(</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="4902730698-18">(</span><span class="w">
     </span><span class="n">reconstructed_images</span><span class="p">,</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6666841027-19">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="6666841027-19">)</span><span class="p">,</span><span class="w">
-    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6666841027-20">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="6666841027-20">]</span><span class="w">
-  </span><span class="p" data-group-id="6666841027-18">)</span><span class="w">
-
-</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="6666841027-21">(</span><span class="n">div</span><span class="p" data-group-id="6666841027-22">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="6666841027-22">)</span><span class="p" data-group-id="6666841027-21">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="6666841027-23">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6666841027-23">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="6666841027-24">(</span><span class="k" data-group-id="6666841027-25">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6666841027-26">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="6666841027-27">[</span><span class="n">i</span><span class="p" data-group-id="6666841027-27">]</span><span class="p" data-group-id="6666841027-26">)</span><span class="w">
-</span><span class="k" data-group-id="6666841027-25">end</span><span class="p" data-group-id="6666841027-24">)</span></code></pre><p>Did you notice the difference? Every step in our interpolation looks similar to items in our dataset! This is the benefit of the VAE: we can generate new items by using random latents. In contrast, in the simple autoencoder, for the most part only latents we got from our encoder were likely to produce sensible outputs.</p>
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4902730698-19">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="4902730698-19">)</span><span class="p">,</span><span class="w">
+    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4902730698-20">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="4902730698-20">]</span><span class="w">
+  </span><span class="p" data-group-id="4902730698-18">)</span><span class="w">
+
+</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="4902730698-21">(</span><span class="n">div</span><span class="p" data-group-id="4902730698-22">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="4902730698-22">)</span><span class="p" data-group-id="4902730698-21">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="4902730698-23">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4902730698-23">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="4902730698-24">(</span><span class="k" data-group-id="4902730698-25">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="4902730698-26">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="4902730698-27">[</span><span class="n">i</span><span class="p" data-group-id="4902730698-27">]</span><span class="p" data-group-id="4902730698-26">)</span><span class="w">
+</span><span class="k" data-group-id="4902730698-25">end</span><span class="p" data-group-id="4902730698-24">)</span></code></pre><p>Did you notice the difference? Every step in our interpolation looks similar to items in our dataset! This is the benefit of the VAE: we can generate new items by using random latents. In contrast, in the simple autoencoder, for the most part only latents we got from our encoder were likely to produce sensible outputs.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/horses_or_humans.html b/horses_or_humans.html
index 8e1e4913..be9c688c 100644
--- a/horses_or_humans.html
+++ b/horses_or_humans.html
@@ -115,17 +115,17 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0462567752-1">(</span><span class="p" data-group-id="0462567752-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0462567752-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="0462567752-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0462567752-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0462567752-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0462567752-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;exla&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0462567752-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0462567752-6">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="0462567752-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0462567752-7">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="0462567752-7">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0462567752-8">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="0462567752-8">}</span><span class="w">
-</span><span class="p" data-group-id="0462567752-2">]</span><span class="p" data-group-id="0462567752-1">)</span><span class="w">
-
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="0462567752-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="0462567752-9">)</span><span class="w">
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="0462567752-10">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0462567752-10">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3547083681-1">(</span><span class="p" data-group-id="3547083681-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3547083681-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="3547083681-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3547083681-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3547083681-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3547083681-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;exla&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3547083681-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3547083681-6">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="3547083681-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3547083681-7">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="3547083681-7">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3547083681-8">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="3547083681-8">}</span><span class="w">
+</span><span class="p" data-group-id="3547083681-2">]</span><span class="p" data-group-id="3547083681-1">)</span><span class="w">
+
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="3547083681-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="3547083681-9">)</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="3547083681-10">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3547083681-10">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">introduction</p>
   </a>
@@ -137,151 +137,151 @@ <h1>
   </a>
   Loading the data
 </h2>
-<p>We will be using the <a href="https://laurencemoroney.com/datasets.html#horses-or-humans-dataset">Horses or Humans Dataset</a>. The dataset is available as a ZIP with image files, we will download it using <code class="inline">req</code>. Conveniently, <code class="inline">req</code> will unzip the files for us, we just need to convert the filenames from strings.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4171506789-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">files</span><span class="p" data-group-id="4171506789-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="4171506789-2">(</span><span class="s">&quot;https://storage.googleapis.com/laurencemoroney-blog.appspot.com/horse-or-human.zip&quot;</span><span class="p" data-group-id="4171506789-2">)</span><span class="w">
+<p>We will be using the <a href="https://laurencemoroney.com/datasets.html#horses-or-humans-dataset">Horses or Humans Dataset</a>. The dataset is available as a ZIP with image files, we will download it using <code class="inline">req</code>. Conveniently, <code class="inline">req</code> will unzip the files for us, we just need to convert the filenames from strings.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2781178032-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">files</span><span class="p" data-group-id="2781178032-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="2781178032-2">(</span><span class="s">&quot;https://storage.googleapis.com/laurencemoroney-blog.appspot.com/horse-or-human.zip&quot;</span><span class="p" data-group-id="2781178032-2">)</span><span class="w">
 
-</span><span class="n">files</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="4171506789-3">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="4171506789-3">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4171506789-4">{</span><span class="nc">List</span><span class="o">.</span><span class="n">to_string</span><span class="p" data-group-id="4171506789-5">(</span><span class="n">name</span><span class="p" data-group-id="4171506789-5">)</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="4171506789-4">}</span></code></pre><h3 id="note-on-batching" class="section-heading">
+</span><span class="n">files</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="2781178032-3">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="2781178032-3">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2781178032-4">{</span><span class="nc">List</span><span class="o">.</span><span class="n">to_string</span><span class="p" data-group-id="2781178032-5">(</span><span class="n">name</span><span class="p" data-group-id="2781178032-5">)</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="2781178032-4">}</span></code></pre><h3 id="note-on-batching" class="section-heading">
   <a href="#note-on-batching" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">note-on-batching</p>
   </a>
   Note on batching
 </h3>
 <p>We need to know how many images to include in a batch. A batch is a group of images to load into the GPU at a time. If the batch size is too big for your GPU, it will run out of memory, in such case you can reduce the batch size. It is generally optimal to utilize almost all of the GPU memory during training. It will take more time to train with a lower batch size.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">32</span><span class="w">
-</span><span class="n">batches_per_epoch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">div</span><span class="p" data-group-id="5080697775-1">(</span><span class="n">length</span><span class="p" data-group-id="5080697775-2">(</span><span class="n">files</span><span class="p" data-group-id="5080697775-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="5080697775-1">)</span></code></pre><h2 id="a-look-at-the-data" class="section-heading">
+</span><span class="n">batches_per_epoch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">div</span><span class="p" data-group-id="5470770116-1">(</span><span class="n">length</span><span class="p" data-group-id="5470770116-2">(</span><span class="n">files</span><span class="p" data-group-id="5470770116-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="5470770116-1">)</span></code></pre><h2 id="a-look-at-the-data" class="section-heading">
   <a href="#a-look-at-the-data" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">a-look-at-the-data</p>
   </a>
   A look at the data
 </h2>
-<p>We'll have a really quick look at our data. Let's see what we are dealing with:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3549036144-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="3549036144-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="3549036144-2">(</span><span class="n">files</span><span class="p" data-group-id="3549036144-2">)</span><span class="w">
-</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3549036144-3">(</span><span class="n">name</span><span class="p" data-group-id="3549036144-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3549036144-4">(</span><span class="p" data-group-id="3549036144-4">)</span><span class="w">
-</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3549036144-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="3549036144-5">)</span></code></pre><p>Reevaluate the cell a couple times to view different images. Note that the file names are either <code class="inline">horse[N]-[M].png</code> or <code class="inline">human[N]-[M].png</code>, so we can derive the expected class from that.</p><p>While we are at it, look at this beautiful animation:</p><pre><code class="makeup elixir" translate="no"><span class="n">names_to_animate</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0506485660-1">[</span><span class="s">&quot;horse01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horse05&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human05&quot;</span><span class="p" data-group-id="0506485660-1">]</span><span class="w">
+<p>We'll have a really quick look at our data. Let's see what we are dealing with:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2205849234-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="2205849234-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="2205849234-2">(</span><span class="n">files</span><span class="p" data-group-id="2205849234-2">)</span><span class="w">
+</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2205849234-3">(</span><span class="n">name</span><span class="p" data-group-id="2205849234-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2205849234-4">(</span><span class="p" data-group-id="2205849234-4">)</span><span class="w">
+</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2205849234-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="2205849234-5">)</span></code></pre><p>Reevaluate the cell a couple times to view different images. Note that the file names are either <code class="inline">horse[N]-[M].png</code> or <code class="inline">human[N]-[M].png</code>, so we can derive the expected class from that.</p><p>While we are at it, look at this beautiful animation:</p><pre><code class="makeup elixir" translate="no"><span class="n">names_to_animate</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0910491314-1">[</span><span class="s">&quot;horse01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horse05&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human05&quot;</span><span class="p" data-group-id="0910491314-1">]</span><span class="w">
 
 </span><span class="n">images_to_animate</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="0506485660-2">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="0506485660-2">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">any?</span><span class="p" data-group-id="0506485660-3">(</span><span class="n">names_to_animate</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">String</span><span class="o">.</span><span class="n">contains?</span><span class="p" data-group-id="0506485660-4">(</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="0506485660-4">)</span><span class="p" data-group-id="0506485660-3">)</span><span class="w"> </span><span class="k" data-group-id="0506485660-5">do</span><span class="w">
-    </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0506485660-6">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="0506485660-6">)</span><span class="w">
-  </span><span class="k" data-group-id="0506485660-5">end</span><span class="w">
-
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="0506485660-7">(</span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="n">images_to_animate</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0506485660-8">fn</span><span class="w">
-  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0506485660-9">[</span><span class="n">image</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="0506485660-9">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="0506485660-10">{</span><span class="ss">:cont</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="0506485660-10">}</span><span class="w">
-  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0506485660-11">[</span><span class="p" data-group-id="0506485660-11">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:halt</span><span class="w">
-</span><span class="k" data-group-id="0506485660-8">end</span><span class="p" data-group-id="0506485660-7">)</span></code></pre><p>How many images are there?</p><pre><code class="makeup elixir" translate="no"><span class="n">length</span><span class="p" data-group-id="0787349820-1">(</span><span class="n">files</span><span class="p" data-group-id="0787349820-1">)</span></code></pre><p>How many images will not be used for training? The remainder of the integer division will be ignored.</p><pre><code class="makeup elixir" translate="no"><span class="n">files</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">length</span><span class="p" data-group-id="6818830965-1">(</span><span class="p" data-group-id="6818830965-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">rem</span><span class="p" data-group-id="6818830965-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="6818830965-2">)</span></code></pre><h2 id="data-processing" class="section-heading">
+  </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="0910491314-2">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="0910491314-2">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">any?</span><span class="p" data-group-id="0910491314-3">(</span><span class="n">names_to_animate</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">String</span><span class="o">.</span><span class="n">contains?</span><span class="p" data-group-id="0910491314-4">(</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="0910491314-4">)</span><span class="p" data-group-id="0910491314-3">)</span><span class="w"> </span><span class="k" data-group-id="0910491314-5">do</span><span class="w">
+    </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0910491314-6">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="0910491314-6">)</span><span class="w">
+  </span><span class="k" data-group-id="0910491314-5">end</span><span class="w">
+
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="0910491314-7">(</span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="n">images_to_animate</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0910491314-8">fn</span><span class="w">
+  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0910491314-9">[</span><span class="n">image</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="0910491314-9">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="0910491314-10">{</span><span class="ss">:cont</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="0910491314-10">}</span><span class="w">
+  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0910491314-11">[</span><span class="p" data-group-id="0910491314-11">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:halt</span><span class="w">
+</span><span class="k" data-group-id="0910491314-8">end</span><span class="p" data-group-id="0910491314-7">)</span></code></pre><p>How many images are there?</p><pre><code class="makeup elixir" translate="no"><span class="n">length</span><span class="p" data-group-id="6286082527-1">(</span><span class="n">files</span><span class="p" data-group-id="6286082527-1">)</span></code></pre><p>How many images will not be used for training? The remainder of the integer division will be ignored.</p><pre><code class="makeup elixir" translate="no"><span class="n">files</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">length</span><span class="p" data-group-id="7325204422-1">(</span><span class="p" data-group-id="7325204422-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">rem</span><span class="p" data-group-id="7325204422-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="7325204422-2">)</span></code></pre><h2 id="data-processing" class="section-heading">
   <a href="#data-processing" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">data-processing</p>
   </a>
   Data processing
 </h2>
-<p>First, we need to preprocess the data for our CNN. At the beginning of the process, we chunk images into batches. Then, we use the <code class="inline">parse_file/1</code> function to load images and label them accurately. Finally, we &quot;augment&quot; the input, which means that we normalize data and flip the images along one of the axes. The last procedure helps a neural network to make predictions regardless of the orientation of the image.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="w"> </span><span class="k" data-group-id="7421696437-1">do</span><span class="w">
+<p>First, we need to preprocess the data for our CNN. At the beginning of the process, we chunk images into batches. Then, we use the <code class="inline">parse_file/1</code> function to load images and label them accurately. Finally, we &quot;augment&quot; the input, which means that we normalize data and flip the images along one of the axes. The last procedure helps a neural network to make predictions regardless of the orientation of the image.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="w"> </span><span class="k" data-group-id="5274697603-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">data_stream</span><span class="p" data-group-id="7421696437-2">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="7421696437-2">)</span><span class="w"> </span><span class="k" data-group-id="7421696437-3">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">data_stream</span><span class="p" data-group-id="5274697603-2">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="5274697603-2">)</span><span class="w"> </span><span class="k" data-group-id="5274697603-3">do</span><span class="w">
     </span><span class="n">files</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="7421696437-4">(</span><span class="p" data-group-id="7421696437-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="7421696437-5">(</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="7421696437-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Task</span><span class="o">.</span><span class="n">async_stream</span><span class="p" data-group-id="7421696437-6">(</span><span class="w">
-      </span><span class="k" data-group-id="7421696437-7">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-        </span><span class="p" data-group-id="7421696437-8">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="7421696437-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7421696437-9">(</span><span class="o">&amp;</span><span class="n">parse_file</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7421696437-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">unzip</span><span class="p" data-group-id="7421696437-10">(</span><span class="p" data-group-id="7421696437-10">)</span><span class="w">
-        </span><span class="p" data-group-id="7421696437-11">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="7421696437-12">(</span><span class="n">images</span><span class="p" data-group-id="7421696437-12">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="7421696437-13">(</span><span class="n">labels</span><span class="p" data-group-id="7421696437-13">)</span><span class="p" data-group-id="7421696437-11">}</span><span class="w">
-      </span><span class="k" data-group-id="7421696437-7">end</span><span class="p">,</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="5274697603-4">(</span><span class="p" data-group-id="5274697603-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="5274697603-5">(</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="5274697603-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Task</span><span class="o">.</span><span class="n">async_stream</span><span class="p" data-group-id="5274697603-6">(</span><span class="w">
+      </span><span class="k" data-group-id="5274697603-7">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+        </span><span class="p" data-group-id="5274697603-8">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="5274697603-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="5274697603-9">(</span><span class="o">&amp;</span><span class="n">parse_file</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5274697603-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">unzip</span><span class="p" data-group-id="5274697603-10">(</span><span class="p" data-group-id="5274697603-10">)</span><span class="w">
+        </span><span class="p" data-group-id="5274697603-11">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="5274697603-12">(</span><span class="n">images</span><span class="p" data-group-id="5274697603-12">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="5274697603-13">(</span><span class="n">labels</span><span class="p" data-group-id="5274697603-13">)</span><span class="p" data-group-id="5274697603-11">}</span><span class="w">
+      </span><span class="k" data-group-id="5274697603-7">end</span><span class="p">,</span><span class="w">
       </span><span class="ss">timeout</span><span class="p">:</span><span class="w"> </span><span class="ss">:infinity</span><span class="w">
-    </span><span class="p" data-group-id="7421696437-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7421696437-14">(</span><span class="k" data-group-id="7421696437-15">fn</span><span class="w"> </span><span class="p" data-group-id="7421696437-16">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7421696437-17">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="7421696437-17">}</span><span class="p" data-group-id="7421696437-16">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="7421696437-18">{</span><span class="n">augment</span><span class="p" data-group-id="7421696437-19">(</span><span class="n">images</span><span class="p" data-group-id="7421696437-19">)</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="7421696437-18">}</span><span class="w"> </span><span class="k" data-group-id="7421696437-15">end</span><span class="p" data-group-id="7421696437-14">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">cycle</span><span class="p" data-group-id="7421696437-20">(</span><span class="p" data-group-id="7421696437-20">)</span><span class="w">
-  </span><span class="k" data-group-id="7421696437-3">end</span><span class="w">
+    </span><span class="p" data-group-id="5274697603-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="5274697603-14">(</span><span class="k" data-group-id="5274697603-15">fn</span><span class="w"> </span><span class="p" data-group-id="5274697603-16">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5274697603-17">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="5274697603-17">}</span><span class="p" data-group-id="5274697603-16">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="5274697603-18">{</span><span class="n">augment</span><span class="p" data-group-id="5274697603-19">(</span><span class="n">images</span><span class="p" data-group-id="5274697603-19">)</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="5274697603-18">}</span><span class="w"> </span><span class="k" data-group-id="5274697603-15">end</span><span class="p" data-group-id="5274697603-14">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">cycle</span><span class="p" data-group-id="5274697603-20">(</span><span class="p" data-group-id="5274697603-20">)</span><span class="w">
+  </span><span class="k" data-group-id="5274697603-3">end</span><span class="w">
 
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">parse_file</span><span class="p" data-group-id="7421696437-21">(</span><span class="p" data-group-id="7421696437-22">{</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="7421696437-22">}</span><span class="p" data-group-id="7421696437-21">)</span><span class="w"> </span><span class="k" data-group-id="7421696437-23">do</span><span class="w">
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">parse_file</span><span class="p" data-group-id="5274697603-21">(</span><span class="p" data-group-id="5274697603-22">{</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="5274697603-22">}</span><span class="p" data-group-id="5274697603-21">)</span><span class="w"> </span><span class="k" data-group-id="5274697603-23">do</span><span class="w">
     </span><span class="n">label</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="k">if</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">starts_with?</span><span class="p" data-group-id="7421696437-24">(</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horses/&quot;</span><span class="p" data-group-id="7421696437-24">)</span><span class="p">,</span><span class="w">
-        </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7421696437-25">(</span><span class="p" data-group-id="7421696437-26">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7421696437-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7421696437-27">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7421696437-27">}</span><span class="p" data-group-id="7421696437-25">)</span><span class="p">,</span><span class="w">
-        </span><span class="ss">else</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7421696437-28">(</span><span class="p" data-group-id="7421696437-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7421696437-29">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7421696437-30">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7421696437-30">}</span><span class="p" data-group-id="7421696437-28">)</span><span class="w">
+      </span><span class="k">if</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">starts_with?</span><span class="p" data-group-id="5274697603-24">(</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horses/&quot;</span><span class="p" data-group-id="5274697603-24">)</span><span class="p">,</span><span class="w">
+        </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5274697603-25">(</span><span class="p" data-group-id="5274697603-26">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5274697603-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5274697603-27">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5274697603-27">}</span><span class="p" data-group-id="5274697603-25">)</span><span class="p">,</span><span class="w">
+        </span><span class="ss">else</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5274697603-28">(</span><span class="p" data-group-id="5274697603-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5274697603-29">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5274697603-30">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5274697603-30">}</span><span class="p" data-group-id="5274697603-28">)</span><span class="w">
 
-    </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">binary</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="7421696437-31">(</span><span class="p" data-group-id="7421696437-31">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="7421696437-32">(</span><span class="p" data-group-id="7421696437-32">)</span><span class="w">
+    </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">binary</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="5274697603-31">(</span><span class="p" data-group-id="5274697603-31">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="5274697603-32">(</span><span class="p" data-group-id="5274697603-32">)</span><span class="w">
 
-    </span><span class="p" data-group-id="7421696437-33">{</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">label</span><span class="p" data-group-id="7421696437-33">}</span><span class="w">
-  </span><span class="k" data-group-id="7421696437-23">end</span><span class="w">
+    </span><span class="p" data-group-id="5274697603-33">{</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">label</span><span class="p" data-group-id="5274697603-33">}</span><span class="w">
+  </span><span class="k" data-group-id="5274697603-23">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">augment</span><span class="p" data-group-id="7421696437-34">(</span><span class="n">images</span><span class="p" data-group-id="7421696437-34">)</span><span class="w"> </span><span class="k" data-group-id="7421696437-35">do</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">augment</span><span class="p" data-group-id="5274697603-34">(</span><span class="n">images</span><span class="p" data-group-id="5274697603-34">)</span><span class="w"> </span><span class="k" data-group-id="5274697603-35">do</span><span class="w">
     </span><span class="c1"># Normalize</span><span class="w">
     </span><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">images</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="mf">255.0</span><span class="w">
 
     </span><span class="c1"># Optional vertical/horizontal flip</span><span class="w">
-    </span><span class="n">u</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="7421696437-36">(</span><span class="p" data-group-id="7421696437-37">{</span><span class="p" data-group-id="7421696437-37">}</span><span class="p" data-group-id="7421696437-36">)</span><span class="w">
+    </span><span class="n">u</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="5274697603-36">(</span><span class="p" data-group-id="5274697603-37">{</span><span class="p" data-group-id="5274697603-37">}</span><span class="p" data-group-id="5274697603-36">)</span><span class="w">
 
-    </span><span class="k">cond</span><span class="w"> </span><span class="k" data-group-id="7421696437-38">do</span><span class="w">
+    </span><span class="k">cond</span><span class="w"> </span><span class="k" data-group-id="5274697603-38">do</span><span class="w">
       </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.25</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">images</span><span class="w">
-      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="7421696437-39">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7421696437-40">[</span><span class="mi">2</span><span class="p" data-group-id="7421696437-40">]</span><span class="p" data-group-id="7421696437-39">)</span><span class="w">
-      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.75</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="7421696437-41">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7421696437-42">[</span><span class="mi">3</span><span class="p" data-group-id="7421696437-42">]</span><span class="p" data-group-id="7421696437-41">)</span><span class="w">
-      </span><span class="no">true</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="7421696437-43">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7421696437-44">[</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7421696437-44">]</span><span class="p" data-group-id="7421696437-43">)</span><span class="w">
-    </span><span class="k" data-group-id="7421696437-38">end</span><span class="w">
-  </span><span class="k" data-group-id="7421696437-35">end</span><span class="w">
-</span><span class="k" data-group-id="7421696437-1">end</span></code></pre><h2 id="building-the-model" class="section-heading">
+      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="5274697603-39">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5274697603-40">[</span><span class="mi">2</span><span class="p" data-group-id="5274697603-40">]</span><span class="p" data-group-id="5274697603-39">)</span><span class="w">
+      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.75</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="5274697603-41">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5274697603-42">[</span><span class="mi">3</span><span class="p" data-group-id="5274697603-42">]</span><span class="p" data-group-id="5274697603-41">)</span><span class="w">
+      </span><span class="no">true</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="5274697603-43">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5274697603-44">[</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5274697603-44">]</span><span class="p" data-group-id="5274697603-43">)</span><span class="w">
+    </span><span class="k" data-group-id="5274697603-38">end</span><span class="w">
+  </span><span class="k" data-group-id="5274697603-35">end</span><span class="w">
+</span><span class="k" data-group-id="5274697603-1">end</span></code></pre><h2 id="building-the-model" class="section-heading">
   <a href="#building-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">building-the-model</p>
   </a>
   Building the model
 </h2>
 <p>The next step is creating our model. In this notebook, we choose the classic Convolutional Neural Network architecture. Let's dive in to the core components of a CNN.</p><p><a href="Axon.html#conv/3"><code class="inline">Axon.conv/3</code></a> adds a convolutional layer, which is at the core of a CNN. A convolutional layer applies a filter function throughout the image, sliding a window with shape <code class="inline">:kernel_size</code>. As opposed to dense layers, a convolutional layer exploits weight sharing to better model data where locality matters. This feature is a natural fit for images.</p><table><thead><tr><th style="text-align: center;"><img src="https://miroslawmamczur.pl/wp-content/uploads/2021/03/06.gif" alt=""/></th></tr></thead><tbody><tr><td style="text-align: center;">Figure 1: A step-by-step visualization of a convolution layer for <code class="inline">kernel_size: {3, 3}</code></td></tr></tbody></table><p><a href="Axon.html#max_pool/2"><code class="inline">Axon.max_pool/2</code></a> adds a downscaling operation that takes the maximum value from a subtensor according to <code class="inline">:kernel_size</code>.</p><table><thead><tr><th style="text-align: center;"><img src="https://production-media.paperswithcode.com/methods/MaxpoolSample2.png" alt=""/></th></tr></thead><tbody><tr><td style="text-align: center;">Figure 2: Max pooling operation for <code class="inline">kernel_size: {2, 2}</code></td></tr></tbody></table><p><a href="Axon.html#dropout/2"><code class="inline">Axon.dropout/2</code></a> and <a href="Axon.html#spatial_dropout/2"><code class="inline">Axon.spatial_dropout/2</code></a> add dropout layers which prevent a neural network from overfitting. Standard dropout drops a given rate of randomly chosen neurons during the training process. On the other hand, spatial dropout gets rid of whole feature maps. The graphical difference between dropout and spatial dropout is presented in a picture below.</p><table><thead><tr><th style="text-align: center;"><img src="https://miro.medium.com/max/1400/1*KkqxjvXTIV_b365B41ltfg.png" alt=""/></th></tr></thead><tbody><tr><td style="text-align: center;">Figure 3: The difference between standard dropout and spatial dropout</td></tr></tbody></table><p>Knowing the relevant building blocks, let's build our network! It will have a convolutional part, composed of convolutional and pooling layers, this part should capture the spatial features of an image. Then at the end, we will add a dense layer with 512 neurons fed with all the spatial features, and a final two-neuron layer for as our classification output.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9847284085-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="9847284085-2">}</span><span class="p" data-group-id="9847284085-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9847284085-3">(</span><span class="mi">16</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-4">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9847284085-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9847284085-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9847284085-5">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-6">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9847284085-6">}</span><span class="p" data-group-id="9847284085-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9847284085-7">(</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-8">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9847284085-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9847284085-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="9847284085-9">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9847284085-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9847284085-10">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-11">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9847284085-11">}</span><span class="p" data-group-id="9847284085-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9847284085-12">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-13">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9847284085-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9847284085-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="9847284085-14">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9847284085-14">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9847284085-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9847284085-16">}</span><span class="p" data-group-id="9847284085-15">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9847284085-17">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-18">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9847284085-18">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9847284085-17">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9847284085-19">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-20">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9847284085-20">}</span><span class="p" data-group-id="9847284085-19">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9847284085-21">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-22">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9847284085-22">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9847284085-21">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9847284085-23">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9847284085-24">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9847284085-24">}</span><span class="p" data-group-id="9847284085-23">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="9847284085-25">(</span><span class="p" data-group-id="9847284085-25">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="9847284085-26">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9847284085-26">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9847284085-27">(</span><span class="mi">512</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9847284085-27">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9847284085-28">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="9847284085-28">)</span></code></pre><h2 id="training-the-model" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1278677198-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="1278677198-2">}</span><span class="p" data-group-id="1278677198-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="1278677198-3">(</span><span class="mi">16</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-4">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1278677198-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1278677198-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="1278677198-5">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-6">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1278677198-6">}</span><span class="p" data-group-id="1278677198-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="1278677198-7">(</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-8">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1278677198-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1278677198-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="1278677198-9">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="1278677198-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="1278677198-10">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-11">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1278677198-11">}</span><span class="p" data-group-id="1278677198-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="1278677198-12">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-13">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1278677198-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1278677198-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="1278677198-14">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="1278677198-14">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="1278677198-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1278677198-16">}</span><span class="p" data-group-id="1278677198-15">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="1278677198-17">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-18">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1278677198-18">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1278677198-17">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="1278677198-19">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-20">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1278677198-20">}</span><span class="p" data-group-id="1278677198-19">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="1278677198-21">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-22">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1278677198-22">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1278677198-21">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="1278677198-23">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1278677198-24">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1278677198-24">}</span><span class="p" data-group-id="1278677198-23">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="1278677198-25">(</span><span class="p" data-group-id="1278677198-25">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="1278677198-26">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="1278677198-26">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1278677198-27">(</span><span class="mi">512</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1278677198-27">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1278677198-28">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="1278677198-28">)</span></code></pre><h2 id="training-the-model" class="section-heading">
   <a href="#training-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training-the-model</p>
   </a>
   Training the model
 </h2>
-<p>It's time to train our model. We specify the loss, optimizer and choose accuracy as our metric. We also set <code class="inline">log: 1</code> to frequently update the training progress. We manually specify the number of iterations, such that each epoch goes through all of the baches once.</p><pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="o">.</span><span class="n">data_stream</span><span class="p" data-group-id="1329825461-1">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="1329825461-1">)</span><span class="w">
+<p>It's time to train our model. We specify the loss, optimizer and choose accuracy as our metric. We also set <code class="inline">log: 1</code> to frequently update the training progress. We manually specify the number of iterations, such that each epoch goes through all of the baches once.</p><pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="o">.</span><span class="n">data_stream</span><span class="p" data-group-id="9643882564-1">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="9643882564-1">)</span><span class="w">
 
-</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="1329825461-2">(</span><span class="mf">1.0e-4</span><span class="p" data-group-id="1329825461-2">)</span><span class="w">
+</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="9643882564-2">(</span><span class="mf">1.0e-4</span><span class="p" data-group-id="9643882564-2">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1329825461-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">:identity</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1329825461-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1329825461-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="1329825461-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1329825461-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1329825461-6">%{</span><span class="p" data-group-id="1329825461-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="1329825461-5">)</span></code></pre><h2 id="extra-gradient-centralization" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9643882564-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">:identity</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9643882564-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9643882564-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="9643882564-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9643882564-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9643882564-6">%{</span><span class="p" data-group-id="9643882564-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="9643882564-5">)</span></code></pre><h2 id="extra-gradient-centralization" class="section-heading">
   <a href="#extra-gradient-centralization" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">extra-gradient-centralization</p>
   </a>
   Extra: gradient centralization
 </h2>
-<p>We can improve the training by applying gradient centralization. It is a technique with a similar purpose to batch normalization. For each loss gradient, we subtract a mean value to have a gradient with mean equal to zero. This process prevents gradients from exploding.</p><pre><code class="makeup elixir" translate="no"><span class="n">centralized_optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">compose</span><span class="p" data-group-id="6653903213-1">(</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="6653903213-2">(</span><span class="p" data-group-id="6653903213-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="6653903213-1">)</span><span class="w">
+<p>We can improve the training by applying gradient centralization. It is a technique with a similar purpose to batch normalization. For each loss gradient, we subtract a mean value to have a gradient with mean equal to zero. This process prevents gradients from exploding.</p><pre><code class="makeup elixir" translate="no"><span class="n">centralized_optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">compose</span><span class="p" data-group-id="9321649617-1">(</span><span class="nc">Axon.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="9321649617-2">(</span><span class="p" data-group-id="9321649617-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="9321649617-1">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6653903213-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">centralized_optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">:identity</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6653903213-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6653903213-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="6653903213-4">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6653903213-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6653903213-6">%{</span><span class="p" data-group-id="6653903213-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="6653903213-5">)</span></code></pre><h2 id="inference" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9321649617-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">centralized_optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">:identity</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9321649617-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9321649617-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="9321649617-4">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9321649617-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9321649617-6">%{</span><span class="p" data-group-id="9321649617-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="9321649617-5">)</span></code></pre><h2 id="inference" class="section-heading">
   <a href="#inference" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">inference</p>
   </a>
   Inference
 </h2>
-<p>We can now use our trained model, let's try a couple examples.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8844526710-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="8844526710-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="8844526710-2">(</span><span class="n">files</span><span class="p" data-group-id="8844526710-2">)</span><span class="w">
-</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8844526710-3">(</span><span class="n">name</span><span class="p" data-group-id="8844526710-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="8844526710-4">(</span><span class="p" data-group-id="8844526710-4">)</span><span class="w">
-</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8844526710-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="8844526710-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="8844526710-6">(</span><span class="p" data-group-id="8844526710-6">)</span><span class="w">
+<p>We can now use our trained model, let's try a couple examples.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3721966754-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="3721966754-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="3721966754-2">(</span><span class="n">files</span><span class="p" data-group-id="3721966754-2">)</span><span class="w">
+</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3721966754-3">(</span><span class="n">name</span><span class="p" data-group-id="3721966754-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3721966754-4">(</span><span class="p" data-group-id="3721966754-4">)</span><span class="w">
+</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3721966754-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="3721966754-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3721966754-6">(</span><span class="p" data-group-id="3721966754-6">)</span><span class="w">
 
 </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">binary</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="8844526710-7">(</span><span class="p" data-group-id="8844526710-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="8844526710-8">(</span><span class="p" data-group-id="8844526710-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="8844526710-9">(</span><span class="mi">0</span><span class="p" data-group-id="8844526710-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="8844526710-10">(</span><span class="mf">255.0</span><span class="p" data-group-id="8844526710-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="3721966754-7">(</span><span class="p" data-group-id="3721966754-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="3721966754-8">(</span><span class="p" data-group-id="3721966754-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="3721966754-9">(</span><span class="mi">0</span><span class="p" data-group-id="3721966754-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="3721966754-10">(</span><span class="mf">255.0</span><span class="p" data-group-id="3721966754-10">)</span><span class="w">
 
-</span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="8844526710-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8844526710-11">)</span></code></pre><p><em>Note: the model output refers to the probability that the image presents a horse and a human respectively.</em></p><p>The website from where we loaded the dataset also includes a validation set, in case you want to experiment further!</p>
+</span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="3721966754-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="3721966754-11">)</span></code></pre><p><em>Note: the model output refers to the probability that the image presents a horse and a human respectively.</em></p><p>The website from where we loaded the dataset also includes a validation set, in case you want to experiment further!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/instrumenting_loops_with_metrics.html b/instrumenting_loops_with_metrics.html
index 4a6d42ee..fd8b901d 100644
--- a/instrumenting_loops_with_metrics.html
+++ b/instrumenting_loops_with_metrics.html
@@ -115,205 +115,205 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1758472901-1">(</span><span class="p" data-group-id="1758472901-2">[</span><span class="w">
-  </span><span class="p" data-group-id="1758472901-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="1758472901-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1758472901-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1758472901-4">}</span><span class="w">
-</span><span class="p" data-group-id="1758472901-2">]</span><span class="p" data-group-id="1758472901-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-metrics-to-training-loops" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1721212799-1">(</span><span class="p" data-group-id="1721212799-2">[</span><span class="w">
+  </span><span class="p" data-group-id="1721212799-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="1721212799-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1721212799-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1721212799-4">}</span><span class="w">
+</span><span class="p" data-group-id="1721212799-2">]</span><span class="p" data-group-id="1721212799-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-metrics-to-training-loops" class="section-heading">
   <a href="#adding-metrics-to-training-loops" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">adding-metrics-to-training-loops</p>
   </a>
   Adding metrics to training loops
 </h2>
 <p>Often times when executing a loop you want to keep track of various metrics such as accuracy or precision. For training loops, Axon by default only tracks loss; however, you can instrument the loop with additional built-in metrics. For example, you might want to track mean-absolute error on top of a mean-squared error loss:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8218254869-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8218254869-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8218254869-2">(</span><span class="mi">8</span><span class="p" data-group-id="8218254869-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8218254869-3">(</span><span class="p" data-group-id="8218254869-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8218254869-4">(</span><span class="mi">4</span><span class="p" data-group-id="8218254869-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8218254869-5">(</span><span class="p" data-group-id="8218254869-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8218254869-6">(</span><span class="mi">1</span><span class="p" data-group-id="8218254869-6">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8076114191-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8076114191-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8076114191-2">(</span><span class="mi">8</span><span class="p" data-group-id="8076114191-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8076114191-3">(</span><span class="p" data-group-id="8076114191-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8076114191-4">(</span><span class="mi">4</span><span class="p" data-group-id="8076114191-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8076114191-5">(</span><span class="p" data-group-id="8076114191-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8076114191-6">(</span><span class="mi">1</span><span class="p" data-group-id="8076114191-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8218254869-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8218254869-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8218254869-8">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="8218254869-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4466822180-1">#</span><span class="nc" data-group-id="4466822180-1">Axon.Loop</span><span class="p" data-group-id="4466822180-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-3">[</span><span class="p" data-group-id="4466822180-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-4">[</span><span class="w">
-      </span><span class="p" data-group-id="4466822180-5">{</span><span class="p" data-group-id="4466822180-6">#</span><span class="nc" data-group-id="4466822180-6">Function</span><span class="p" data-group-id="4466822180-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4466822180-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4466822180-7">#</span><span class="nc" data-group-id="4466822180-7">Function</span><span class="p" data-group-id="4466822180-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4466822180-7">&gt;</span><span class="p" data-group-id="4466822180-5">}</span><span class="w">
-    </span><span class="p" data-group-id="4466822180-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-8">[</span><span class="p" data-group-id="4466822180-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-9">[</span><span class="p" data-group-id="4466822180-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-10">[</span><span class="p" data-group-id="4466822180-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-11">[</span><span class="w">
-      </span><span class="p" data-group-id="4466822180-12">{</span><span class="p" data-group-id="4466822180-13">#</span><span class="nc" data-group-id="4466822180-13">Function</span><span class="p" data-group-id="4466822180-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4466822180-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4466822180-14">#</span><span class="nc" data-group-id="4466822180-14">Function</span><span class="p" data-group-id="4466822180-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4466822180-14">&gt;</span><span class="p" data-group-id="4466822180-12">}</span><span class="w">
-    </span><span class="p" data-group-id="4466822180-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-15">[</span><span class="p" data-group-id="4466822180-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-16">[</span><span class="p" data-group-id="4466822180-16">]</span><span class="w">
-  </span><span class="p" data-group-id="4466822180-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466822180-17">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4466822180-18">{</span><span class="p" data-group-id="4466822180-19">#</span><span class="nc" data-group-id="4466822180-19">Function</span><span class="p" data-group-id="4466822180-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4466822180-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="4466822180-20">#</span><span class="nc" data-group-id="4466822180-20">Function</span><span class="p" data-group-id="4466822180-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4466822180-20">&gt;</span><span class="p" data-group-id="4466822180-18">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4466822180-21">{</span><span class="p" data-group-id="4466822180-22">#</span><span class="nc" data-group-id="4466822180-22">Function</span><span class="p" data-group-id="4466822180-22">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4466822180-22">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="4466822180-21">}</span><span class="w">
-  </span><span class="p" data-group-id="4466822180-17">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8076114191-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8076114191-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8076114191-8">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="8076114191-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0043195904-1">#</span><span class="nc" data-group-id="0043195904-1">Axon.Loop</span><span class="p" data-group-id="0043195904-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-3">[</span><span class="p" data-group-id="0043195904-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-4">[</span><span class="w">
+      </span><span class="p" data-group-id="0043195904-5">{</span><span class="p" data-group-id="0043195904-6">#</span><span class="nc" data-group-id="0043195904-6">Function</span><span class="p" data-group-id="0043195904-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="0043195904-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="0043195904-7">#</span><span class="nc" data-group-id="0043195904-7">Function</span><span class="p" data-group-id="0043195904-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0043195904-7">&gt;</span><span class="p" data-group-id="0043195904-5">}</span><span class="w">
+    </span><span class="p" data-group-id="0043195904-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-8">[</span><span class="p" data-group-id="0043195904-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-9">[</span><span class="p" data-group-id="0043195904-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-10">[</span><span class="p" data-group-id="0043195904-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-11">[</span><span class="w">
+      </span><span class="p" data-group-id="0043195904-12">{</span><span class="p" data-group-id="0043195904-13">#</span><span class="nc" data-group-id="0043195904-13">Function</span><span class="p" data-group-id="0043195904-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="0043195904-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="0043195904-14">#</span><span class="nc" data-group-id="0043195904-14">Function</span><span class="p" data-group-id="0043195904-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0043195904-14">&gt;</span><span class="p" data-group-id="0043195904-12">}</span><span class="w">
+    </span><span class="p" data-group-id="0043195904-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-15">[</span><span class="p" data-group-id="0043195904-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-16">[</span><span class="p" data-group-id="0043195904-16">]</span><span class="w">
+  </span><span class="p" data-group-id="0043195904-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0043195904-17">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0043195904-18">{</span><span class="p" data-group-id="0043195904-19">#</span><span class="nc" data-group-id="0043195904-19">Function</span><span class="p" data-group-id="0043195904-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0043195904-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="0043195904-20">#</span><span class="nc" data-group-id="0043195904-20">Function</span><span class="p" data-group-id="0043195904-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0043195904-20">&gt;</span><span class="p" data-group-id="0043195904-18">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0043195904-21">{</span><span class="p" data-group-id="0043195904-22">#</span><span class="nc" data-group-id="0043195904-22">Function</span><span class="p" data-group-id="0043195904-22">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0043195904-22">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="0043195904-21">}</span><span class="w">
+  </span><span class="p" data-group-id="0043195904-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="4466822180-1">&gt;</span></code></pre><p>When specifying a metric, you can specify an atom which maps to any of the metrics defined in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. You can also define custom metrics. For more information on custom metrics, see <a href="writing_custom_metrics.html">Writing custom metrics</a>.</p><p>When you run a loop with metrics, Axon will aggregate that metric over the course of the loop execution. For training loops, Axon will also report the aggregate metric in the training logs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5668025633-1">(</span><span class="k" data-group-id="5668025633-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5668025633-3">(</span><span class="p" data-group-id="5668025633-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5668025633-4">}</span><span class="p" data-group-id="5668025633-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5668025633-5">(</span><span class="n">xs</span><span class="p" data-group-id="5668025633-5">)</span><span class="w">
-    </span><span class="p" data-group-id="5668025633-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="5668025633-6">}</span><span class="w">
-  </span><span class="k" data-group-id="5668025633-2">end</span><span class="p" data-group-id="5668025633-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5668025633-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5668025633-8">%{</span><span class="p" data-group-id="5668025633-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="5668025633-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0646209</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1720028</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8493111578-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-3">#</span><span class="nc" data-group-id="8493111578-3">Nx.Tensor</span><span class="p" data-group-id="8493111578-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8493111578-4">[</span><span class="mi">8</span><span class="p" data-group-id="8493111578-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-5">[</span><span class="o">-</span><span class="mf">0.2462722808122635</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18984302878379822</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0016971784643828869</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19568635523319244</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33571094274520874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07703055441379547</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29576605558395386</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14511419832706451</span><span class="p" data-group-id="8493111578-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8493111578-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-6">#</span><span class="nc" data-group-id="8493111578-6">Nx.Tensor</span><span class="p" data-group-id="8493111578-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8493111578-7">[</span><span class="mi">1</span><span class="p" data-group-id="8493111578-7">]</span><span class="p" data-group-id="8493111578-8">[</span><span class="mi">8</span><span class="p" data-group-id="8493111578-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-10">[</span><span class="o">-</span><span class="mf">0.7807592749595642</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17303702235221863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43004679679870605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46043306589126587</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6577866077423096</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7490359544754028</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5164405703544617</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.77418452501297</span><span class="p" data-group-id="8493111578-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8493111578-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8493111578-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-12">#</span><span class="nc" data-group-id="8493111578-12">Nx.Tensor</span><span class="p" data-group-id="8493111578-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8493111578-13">[</span><span class="mi">4</span><span class="p" data-group-id="8493111578-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-14">[</span><span class="mf">0.027583779767155647</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4279942214488983</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10632428526878357</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05149337649345398</span><span class="p" data-group-id="8493111578-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8493111578-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-15">#</span><span class="nc" data-group-id="8493111578-15">Nx.Tensor</span><span class="p" data-group-id="8493111578-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8493111578-16">[</span><span class="mi">8</span><span class="p" data-group-id="8493111578-16">]</span><span class="p" data-group-id="8493111578-17">[</span><span class="mi">4</span><span class="p" data-group-id="8493111578-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-19">[</span><span class="o">-</span><span class="mf">0.5688502192497253</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49978527426719666</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0660838857293129</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30804139375686646</span><span class="p" data-group-id="8493111578-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-20">[</span><span class="mf">0.21578946709632874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4183472990989685</span><span class="p">,</span><span class="w"> </span><span class="mf">0.530754566192627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1742597073316574</span><span class="p" data-group-id="8493111578-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-21">[</span><span class="o">-</span><span class="mf">0.17872463166713715</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08955764025449753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7048909664154053</span><span class="p">,</span><span class="w"> </span><span class="mf">0.053243234753608704</span><span class="p" data-group-id="8493111578-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-22">[</span><span class="o">-</span><span class="mf">0.41064000129699707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3491946756839752</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3753710091114044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6630277037620544</span><span class="p" data-group-id="8493111578-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-23">[</span><span class="o">-</span><span class="mf">0.1781950145959854</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5766432881355286</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5829672813415527</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34879636764526367</span><span class="p" data-group-id="8493111578-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-24">[</span><span class="o">-</span><span class="mf">0.026939965784549713</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44429031014442444</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12619371712207794</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0030224998481571674</span><span class="p" data-group-id="8493111578-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-25">[</span><span class="mf">0.411702424287796</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3330642879009247</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5062007308006287</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0731467455625534</span><span class="p" data-group-id="8493111578-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-26">[</span><span class="o">-</span><span class="mf">0.41474586725234985</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23881299793720245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3847745358943939</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5769480466842651</span><span class="p" data-group-id="8493111578-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8493111578-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8493111578-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-28">#</span><span class="nc" data-group-id="8493111578-28">Nx.Tensor</span><span class="p" data-group-id="8493111578-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8493111578-29">[</span><span class="mi">1</span><span class="p" data-group-id="8493111578-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-30">[</span><span class="mf">0.8004998564720154</span><span class="p" data-group-id="8493111578-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8493111578-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8493111578-31">#</span><span class="nc" data-group-id="8493111578-31">Nx.Tensor</span><span class="p" data-group-id="8493111578-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8493111578-32">[</span><span class="mi">4</span><span class="p" data-group-id="8493111578-32">]</span><span class="p" data-group-id="8493111578-33">[</span><span class="mi">1</span><span class="p" data-group-id="8493111578-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-35">[</span><span class="o">-</span><span class="mf">0.40993982553482056</span><span class="p" data-group-id="8493111578-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-36">[</span><span class="o">-</span><span class="mf">1.0208697319030762</span><span class="p" data-group-id="8493111578-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-37">[</span><span class="mf">0.18116380274295807</span><span class="p" data-group-id="8493111578-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8493111578-38">[</span><span class="o">-</span><span class="mf">0.8320646286010742</span><span class="p" data-group-id="8493111578-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8493111578-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8493111578-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8493111578-27">}</span><span class="w">
-</span><span class="p" data-group-id="8493111578-1">}</span></code></pre><p>By default, the metric will have a name which matches the string form of the given metric. You can give metrics semantic meaning by providing an explicit name:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2299319333-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2299319333-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="2299319333-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;model error&quot;</span><span class="p" data-group-id="2299319333-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2299319333-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2299319333-4">%{</span><span class="p" data-group-id="2299319333-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="2299319333-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0559179</span><span class="w"> </span><span class="n">model</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1430965</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7681431089-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-3">#</span><span class="nc" data-group-id="7681431089-3">Nx.Tensor</span><span class="p" data-group-id="7681431089-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7681431089-4">[</span><span class="mi">8</span><span class="p" data-group-id="7681431089-4">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-5">[</span><span class="o">-</span><span class="mf">0.2884136438369751</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.016403740271925926</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30548375844955444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2799474000930786</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017874717712402344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3168976306915283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10385002940893173</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18653006851673126</span><span class="p" data-group-id="7681431089-5">]</span><span class="w">
-    </span><span class="p" data-group-id="7681431089-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-6">#</span><span class="nc" data-group-id="7681431089-6">Nx.Tensor</span><span class="p" data-group-id="7681431089-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7681431089-7">[</span><span class="mi">1</span><span class="p" data-group-id="7681431089-7">]</span><span class="p" data-group-id="7681431089-8">[</span><span class="mi">8</span><span class="p" data-group-id="7681431089-8">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-9">[</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-10">[</span><span class="o">-</span><span class="mf">0.44000443816185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6495574712753296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5427255034446716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.795007050037384</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0035864184610545635</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5102121233940125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10152970999479294</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3913733959197998</span><span class="p" data-group-id="7681431089-10">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-9">]</span><span class="w">
-    </span><span class="p" data-group-id="7681431089-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7681431089-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-12">#</span><span class="nc" data-group-id="7681431089-12">Nx.Tensor</span><span class="p" data-group-id="7681431089-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7681431089-13">[</span><span class="mi">4</span><span class="p" data-group-id="7681431089-13">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-14">[</span><span class="o">-</span><span class="mf">0.24588409066200256</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05674195662140846</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08545850962400436</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27886852622032166</span><span class="p" data-group-id="7681431089-14">]</span><span class="w">
-    </span><span class="p" data-group-id="7681431089-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-15">#</span><span class="nc" data-group-id="7681431089-15">Nx.Tensor</span><span class="p" data-group-id="7681431089-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7681431089-16">[</span><span class="mi">8</span><span class="p" data-group-id="7681431089-16">]</span><span class="p" data-group-id="7681431089-17">[</span><span class="mi">4</span><span class="p" data-group-id="7681431089-17">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-18">[</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-19">[</span><span class="mf">0.6334101557731628</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44550418853759766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34385600686073303</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24886265397071838</span><span class="p" data-group-id="7681431089-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-20">[</span><span class="o">-</span><span class="mf">0.5474148988723755</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09881290793418884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14616712927818298</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8087677359580994</span><span class="p" data-group-id="7681431089-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-21">[</span><span class="o">-</span><span class="mf">0.15381869673728943</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5322079658508301</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6275551915168762</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4207017421722412</span><span class="p" data-group-id="7681431089-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-22">[</span><span class="mf">0.4673740863800049</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5706797242164612</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44344833493232727</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5382705926895142</span><span class="p" data-group-id="7681431089-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-23">[</span><span class="mf">0.6662552356719971</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3875215947628021</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5359503626823425</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6198058724403381</span><span class="p" data-group-id="7681431089-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-24">[</span><span class="o">-</span><span class="mf">0.2842515707015991</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2379448264837265</span><span class="p">,</span><span class="w"> </span><span class="mf">0.581102728843689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5942302346229553</span><span class="p" data-group-id="7681431089-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-25">[</span><span class="mf">0.039275627583265305</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6341984272003174</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10589496046304703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3522306978702545</span><span class="p" data-group-id="7681431089-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-26">[</span><span class="mf">0.4015151560306549</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15162920951843262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3449919819831848</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21970798075199127</span><span class="p" data-group-id="7681431089-26">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-18">]</span><span class="w">
-    </span><span class="p" data-group-id="7681431089-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7681431089-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-28">#</span><span class="nc" data-group-id="7681431089-28">Nx.Tensor</span><span class="p" data-group-id="7681431089-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7681431089-29">[</span><span class="mi">1</span><span class="p" data-group-id="7681431089-29">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-30">[</span><span class="mf">0.26691529154777527</span><span class="p" data-group-id="7681431089-30">]</span><span class="w">
-    </span><span class="p" data-group-id="7681431089-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7681431089-31">#</span><span class="nc" data-group-id="7681431089-31">Nx.Tensor</span><span class="p" data-group-id="7681431089-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7681431089-32">[</span><span class="mi">4</span><span class="p" data-group-id="7681431089-32">]</span><span class="p" data-group-id="7681431089-33">[</span><span class="mi">1</span><span class="p" data-group-id="7681431089-33">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-34">[</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-35">[</span><span class="mf">0.7088357210159302</span><span class="p" data-group-id="7681431089-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-36">[</span><span class="o">-</span><span class="mf">0.9271859526634216</span><span class="p" data-group-id="7681431089-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-37">[</span><span class="o">-</span><span class="mf">0.1610293984413147</span><span class="p" data-group-id="7681431089-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7681431089-38">[</span><span class="mf">0.6011591553688049</span><span class="p" data-group-id="7681431089-38">]</span><span class="w">
-      </span><span class="p" data-group-id="7681431089-34">]</span><span class="w">
-    </span><span class="p" data-group-id="7681431089-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7681431089-27">}</span><span class="w">
-</span><span class="p" data-group-id="7681431089-1">}</span></code></pre><p>Axon's default aggregation behavior is to aggregate metrics with a running average; however, you can customize this behavior by specifying an explicit accumulation function. Built-in accumulation functions are <code class="inline">:running_average</code> and <code class="inline">:running_sum</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8798589454-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8798589454-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8798589454-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;total error&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="8798589454-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8798589454-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8798589454-4">%{</span><span class="p" data-group-id="8798589454-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="8798589454-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0645265</span><span class="w"> </span><span class="n">total</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">158.5873566</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3340059694-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-3">#</span><span class="nc" data-group-id="3340059694-3">Nx.Tensor</span><span class="p" data-group-id="3340059694-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3340059694-4">[</span><span class="mi">8</span><span class="p" data-group-id="3340059694-4">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-5">[</span><span class="mf">0.013307658955454826</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08766761422157288</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0048030223697423935</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07024712860584259</span><span class="p">,</span><span class="w"> </span><span class="mf">0.261692613363266</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0028863451443612576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12552864849567413</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10552618652582169</span><span class="p" data-group-id="3340059694-5">]</span><span class="w">
-    </span><span class="p" data-group-id="3340059694-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-6">#</span><span class="nc" data-group-id="3340059694-6">Nx.Tensor</span><span class="p" data-group-id="3340059694-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3340059694-7">[</span><span class="mi">1</span><span class="p" data-group-id="3340059694-7">]</span><span class="p" data-group-id="3340059694-8">[</span><span class="mi">8</span><span class="p" data-group-id="3340059694-8">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-9">[</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-10">[</span><span class="o">-</span><span class="mf">0.1647171825170517</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4144238233566284</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09969457238912582</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6063833832740784</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7182243466377258</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3485015034675598</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29005324840545654</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5282242298126221</span><span class="p" data-group-id="3340059694-10">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-9">]</span><span class="w">
-    </span><span class="p" data-group-id="3340059694-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3340059694-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-12">#</span><span class="nc" data-group-id="3340059694-12">Nx.Tensor</span><span class="p" data-group-id="3340059694-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3340059694-13">[</span><span class="mi">4</span><span class="p" data-group-id="3340059694-13">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-14">[</span><span class="mf">0.021465059369802475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16003911197185516</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6696521043777466</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15482725203037262</span><span class="p" data-group-id="3340059694-14">]</span><span class="w">
-    </span><span class="p" data-group-id="3340059694-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-15">#</span><span class="nc" data-group-id="3340059694-15">Nx.Tensor</span><span class="p" data-group-id="3340059694-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3340059694-16">[</span><span class="mi">8</span><span class="p" data-group-id="3340059694-16">]</span><span class="p" data-group-id="3340059694-17">[</span><span class="mi">4</span><span class="p" data-group-id="3340059694-17">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-18">[</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-19">[</span><span class="mf">0.3359515964984894</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21561087667942047</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48400720953941345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3186679184436798</span><span class="p" data-group-id="3340059694-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-20">[</span><span class="o">-</span><span class="mf">0.08509980887174606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.031951334327459335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6084564924240112</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39506790041923523</span><span class="p" data-group-id="3340059694-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-21">[</span><span class="mf">0.003889488521963358</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12886928021907806</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5679722428321838</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22699925303459167</span><span class="p" data-group-id="3340059694-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-22">[</span><span class="o">-</span><span class="mf">0.315458744764328</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5626247525215149</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4241454303264618</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11212264746427536</span><span class="p" data-group-id="3340059694-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-23">[</span><span class="mf">0.6759291291236877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6508319973945618</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3511318564414978</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17946019768714905</span><span class="p" data-group-id="3340059694-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-24">[</span><span class="o">-</span><span class="mf">0.7148906588554382</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45404312014579773</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4150676727294922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33603984117507935</span><span class="p" data-group-id="3340059694-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-25">[</span><span class="mf">0.398037314414978</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5080180764198303</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6770725250244141</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5274750590324402</span><span class="p" data-group-id="3340059694-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-26">[</span><span class="mf">0.5072763562202454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7351003289222717</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.583225429058075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2974703013896942</span><span class="p" data-group-id="3340059694-26">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-18">]</span><span class="w">
-    </span><span class="p" data-group-id="3340059694-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3340059694-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-28">#</span><span class="nc" data-group-id="3340059694-28">Nx.Tensor</span><span class="p" data-group-id="3340059694-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3340059694-29">[</span><span class="mi">1</span><span class="p" data-group-id="3340059694-29">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-30">[</span><span class="o">-</span><span class="mf">0.8310347199440002</span><span class="p" data-group-id="3340059694-30">]</span><span class="w">
-    </span><span class="p" data-group-id="3340059694-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3340059694-31">#</span><span class="nc" data-group-id="3340059694-31">Nx.Tensor</span><span class="p" data-group-id="3340059694-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3340059694-32">[</span><span class="mi">4</span><span class="p" data-group-id="3340059694-32">]</span><span class="p" data-group-id="3340059694-33">[</span><span class="mi">1</span><span class="p" data-group-id="3340059694-33">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-34">[</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-35">[</span><span class="mf">0.28011587262153625</span><span class="p" data-group-id="3340059694-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-36">[</span><span class="mf">0.542819082736969</span><span class="p" data-group-id="3340059694-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-37">[</span><span class="mf">1.2814348936080933</span><span class="p" data-group-id="3340059694-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3340059694-38">[</span><span class="o">-</span><span class="mf">0.5193246603012085</span><span class="p" data-group-id="3340059694-38">]</span><span class="w">
-      </span><span class="p" data-group-id="3340059694-34">]</span><span class="w">
-    </span><span class="p" data-group-id="3340059694-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3340059694-27">}</span><span class="w">
-</span><span class="p" data-group-id="3340059694-1">}</span></code></pre>
+</span><span class="p" data-group-id="0043195904-1">&gt;</span></code></pre><p>When specifying a metric, you can specify an atom which maps to any of the metrics defined in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. You can also define custom metrics. For more information on custom metrics, see <a href="writing_custom_metrics.html">Writing custom metrics</a>.</p><p>When you run a loop with metrics, Axon will aggregate that metric over the course of the loop execution. For training loops, Axon will also report the aggregate metric in the training logs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5253004980-1">(</span><span class="k" data-group-id="5253004980-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5253004980-3">(</span><span class="p" data-group-id="5253004980-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5253004980-4">}</span><span class="p" data-group-id="5253004980-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5253004980-5">(</span><span class="n">xs</span><span class="p" data-group-id="5253004980-5">)</span><span class="w">
+    </span><span class="p" data-group-id="5253004980-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="5253004980-6">}</span><span class="w">
+  </span><span class="k" data-group-id="5253004980-2">end</span><span class="p" data-group-id="5253004980-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5253004980-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5253004980-8">%{</span><span class="p" data-group-id="5253004980-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="5253004980-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0646209</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1720028</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8390363217-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-3">#</span><span class="nc" data-group-id="8390363217-3">Nx.Tensor</span><span class="p" data-group-id="8390363217-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8390363217-4">[</span><span class="mi">8</span><span class="p" data-group-id="8390363217-4">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-5">[</span><span class="o">-</span><span class="mf">0.2462722808122635</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18984302878379822</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0016971784643828869</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19568635523319244</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33571094274520874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07703055441379547</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29576605558395386</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14511419832706451</span><span class="p" data-group-id="8390363217-5">]</span><span class="w">
+    </span><span class="p" data-group-id="8390363217-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-6">#</span><span class="nc" data-group-id="8390363217-6">Nx.Tensor</span><span class="p" data-group-id="8390363217-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8390363217-7">[</span><span class="mi">1</span><span class="p" data-group-id="8390363217-7">]</span><span class="p" data-group-id="8390363217-8">[</span><span class="mi">8</span><span class="p" data-group-id="8390363217-8">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-9">[</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-10">[</span><span class="o">-</span><span class="mf">0.7807592749595642</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17303702235221863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43004679679870605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46043306589126587</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6577866077423096</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7490359544754028</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5164405703544617</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.77418452501297</span><span class="p" data-group-id="8390363217-10">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-9">]</span><span class="w">
+    </span><span class="p" data-group-id="8390363217-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8390363217-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-12">#</span><span class="nc" data-group-id="8390363217-12">Nx.Tensor</span><span class="p" data-group-id="8390363217-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8390363217-13">[</span><span class="mi">4</span><span class="p" data-group-id="8390363217-13">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-14">[</span><span class="mf">0.027583779767155647</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4279942214488983</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10632428526878357</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05149337649345398</span><span class="p" data-group-id="8390363217-14">]</span><span class="w">
+    </span><span class="p" data-group-id="8390363217-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-15">#</span><span class="nc" data-group-id="8390363217-15">Nx.Tensor</span><span class="p" data-group-id="8390363217-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8390363217-16">[</span><span class="mi">8</span><span class="p" data-group-id="8390363217-16">]</span><span class="p" data-group-id="8390363217-17">[</span><span class="mi">4</span><span class="p" data-group-id="8390363217-17">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-18">[</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-19">[</span><span class="o">-</span><span class="mf">0.5688502192497253</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49978527426719666</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0660838857293129</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30804139375686646</span><span class="p" data-group-id="8390363217-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-20">[</span><span class="mf">0.21578946709632874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4183472990989685</span><span class="p">,</span><span class="w"> </span><span class="mf">0.530754566192627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1742597073316574</span><span class="p" data-group-id="8390363217-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-21">[</span><span class="o">-</span><span class="mf">0.17872463166713715</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08955764025449753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7048909664154053</span><span class="p">,</span><span class="w"> </span><span class="mf">0.053243234753608704</span><span class="p" data-group-id="8390363217-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-22">[</span><span class="o">-</span><span class="mf">0.41064000129699707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3491946756839752</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3753710091114044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6630277037620544</span><span class="p" data-group-id="8390363217-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-23">[</span><span class="o">-</span><span class="mf">0.1781950145959854</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5766432881355286</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5829672813415527</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34879636764526367</span><span class="p" data-group-id="8390363217-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-24">[</span><span class="o">-</span><span class="mf">0.026939965784549713</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44429031014442444</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12619371712207794</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0030224998481571674</span><span class="p" data-group-id="8390363217-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-25">[</span><span class="mf">0.411702424287796</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3330642879009247</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5062007308006287</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0731467455625534</span><span class="p" data-group-id="8390363217-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-26">[</span><span class="o">-</span><span class="mf">0.41474586725234985</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23881299793720245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3847745358943939</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5769480466842651</span><span class="p" data-group-id="8390363217-26">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-18">]</span><span class="w">
+    </span><span class="p" data-group-id="8390363217-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8390363217-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-28">#</span><span class="nc" data-group-id="8390363217-28">Nx.Tensor</span><span class="p" data-group-id="8390363217-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8390363217-29">[</span><span class="mi">1</span><span class="p" data-group-id="8390363217-29">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-30">[</span><span class="mf">0.8004998564720154</span><span class="p" data-group-id="8390363217-30">]</span><span class="w">
+    </span><span class="p" data-group-id="8390363217-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8390363217-31">#</span><span class="nc" data-group-id="8390363217-31">Nx.Tensor</span><span class="p" data-group-id="8390363217-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8390363217-32">[</span><span class="mi">4</span><span class="p" data-group-id="8390363217-32">]</span><span class="p" data-group-id="8390363217-33">[</span><span class="mi">1</span><span class="p" data-group-id="8390363217-33">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-34">[</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-35">[</span><span class="o">-</span><span class="mf">0.40993982553482056</span><span class="p" data-group-id="8390363217-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-36">[</span><span class="o">-</span><span class="mf">1.0208697319030762</span><span class="p" data-group-id="8390363217-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-37">[</span><span class="mf">0.18116380274295807</span><span class="p" data-group-id="8390363217-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8390363217-38">[</span><span class="o">-</span><span class="mf">0.8320646286010742</span><span class="p" data-group-id="8390363217-38">]</span><span class="w">
+      </span><span class="p" data-group-id="8390363217-34">]</span><span class="w">
+    </span><span class="p" data-group-id="8390363217-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8390363217-27">}</span><span class="w">
+</span><span class="p" data-group-id="8390363217-1">}</span></code></pre><p>By default, the metric will have a name which matches the string form of the given metric. You can give metrics semantic meaning by providing an explicit name:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7358598776-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7358598776-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7358598776-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;model error&quot;</span><span class="p" data-group-id="7358598776-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7358598776-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7358598776-4">%{</span><span class="p" data-group-id="7358598776-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="7358598776-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0559179</span><span class="w"> </span><span class="n">model</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1430965</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6009407207-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-3">#</span><span class="nc" data-group-id="6009407207-3">Nx.Tensor</span><span class="p" data-group-id="6009407207-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6009407207-4">[</span><span class="mi">8</span><span class="p" data-group-id="6009407207-4">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-5">[</span><span class="o">-</span><span class="mf">0.2884136438369751</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.016403740271925926</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30548375844955444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2799474000930786</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017874717712402344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3168976306915283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10385002940893173</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18653006851673126</span><span class="p" data-group-id="6009407207-5">]</span><span class="w">
+    </span><span class="p" data-group-id="6009407207-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-6">#</span><span class="nc" data-group-id="6009407207-6">Nx.Tensor</span><span class="p" data-group-id="6009407207-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6009407207-7">[</span><span class="mi">1</span><span class="p" data-group-id="6009407207-7">]</span><span class="p" data-group-id="6009407207-8">[</span><span class="mi">8</span><span class="p" data-group-id="6009407207-8">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-9">[</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-10">[</span><span class="o">-</span><span class="mf">0.44000443816185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6495574712753296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5427255034446716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.795007050037384</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0035864184610545635</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5102121233940125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10152970999479294</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3913733959197998</span><span class="p" data-group-id="6009407207-10">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-9">]</span><span class="w">
+    </span><span class="p" data-group-id="6009407207-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="6009407207-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-12">#</span><span class="nc" data-group-id="6009407207-12">Nx.Tensor</span><span class="p" data-group-id="6009407207-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6009407207-13">[</span><span class="mi">4</span><span class="p" data-group-id="6009407207-13">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-14">[</span><span class="o">-</span><span class="mf">0.24588409066200256</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05674195662140846</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08545850962400436</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27886852622032166</span><span class="p" data-group-id="6009407207-14">]</span><span class="w">
+    </span><span class="p" data-group-id="6009407207-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-15">#</span><span class="nc" data-group-id="6009407207-15">Nx.Tensor</span><span class="p" data-group-id="6009407207-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6009407207-16">[</span><span class="mi">8</span><span class="p" data-group-id="6009407207-16">]</span><span class="p" data-group-id="6009407207-17">[</span><span class="mi">4</span><span class="p" data-group-id="6009407207-17">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-18">[</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-19">[</span><span class="mf">0.6334101557731628</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44550418853759766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34385600686073303</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24886265397071838</span><span class="p" data-group-id="6009407207-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-20">[</span><span class="o">-</span><span class="mf">0.5474148988723755</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09881290793418884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14616712927818298</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8087677359580994</span><span class="p" data-group-id="6009407207-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-21">[</span><span class="o">-</span><span class="mf">0.15381869673728943</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5322079658508301</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6275551915168762</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4207017421722412</span><span class="p" data-group-id="6009407207-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-22">[</span><span class="mf">0.4673740863800049</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5706797242164612</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44344833493232727</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5382705926895142</span><span class="p" data-group-id="6009407207-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-23">[</span><span class="mf">0.6662552356719971</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3875215947628021</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5359503626823425</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6198058724403381</span><span class="p" data-group-id="6009407207-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-24">[</span><span class="o">-</span><span class="mf">0.2842515707015991</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2379448264837265</span><span class="p">,</span><span class="w"> </span><span class="mf">0.581102728843689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5942302346229553</span><span class="p" data-group-id="6009407207-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-25">[</span><span class="mf">0.039275627583265305</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6341984272003174</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10589496046304703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3522306978702545</span><span class="p" data-group-id="6009407207-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-26">[</span><span class="mf">0.4015151560306549</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15162920951843262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3449919819831848</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21970798075199127</span><span class="p" data-group-id="6009407207-26">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-18">]</span><span class="w">
+    </span><span class="p" data-group-id="6009407207-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="6009407207-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-28">#</span><span class="nc" data-group-id="6009407207-28">Nx.Tensor</span><span class="p" data-group-id="6009407207-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6009407207-29">[</span><span class="mi">1</span><span class="p" data-group-id="6009407207-29">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-30">[</span><span class="mf">0.26691529154777527</span><span class="p" data-group-id="6009407207-30">]</span><span class="w">
+    </span><span class="p" data-group-id="6009407207-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6009407207-31">#</span><span class="nc" data-group-id="6009407207-31">Nx.Tensor</span><span class="p" data-group-id="6009407207-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6009407207-32">[</span><span class="mi">4</span><span class="p" data-group-id="6009407207-32">]</span><span class="p" data-group-id="6009407207-33">[</span><span class="mi">1</span><span class="p" data-group-id="6009407207-33">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-34">[</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-35">[</span><span class="mf">0.7088357210159302</span><span class="p" data-group-id="6009407207-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-36">[</span><span class="o">-</span><span class="mf">0.9271859526634216</span><span class="p" data-group-id="6009407207-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-37">[</span><span class="o">-</span><span class="mf">0.1610293984413147</span><span class="p" data-group-id="6009407207-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6009407207-38">[</span><span class="mf">0.6011591553688049</span><span class="p" data-group-id="6009407207-38">]</span><span class="w">
+      </span><span class="p" data-group-id="6009407207-34">]</span><span class="w">
+    </span><span class="p" data-group-id="6009407207-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="6009407207-27">}</span><span class="w">
+</span><span class="p" data-group-id="6009407207-1">}</span></code></pre><p>Axon's default aggregation behavior is to aggregate metrics with a running average; however, you can customize this behavior by specifying an explicit accumulation function. Built-in accumulation functions are <code class="inline">:running_average</code> and <code class="inline">:running_sum</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0872648645-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0872648645-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0872648645-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;total error&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="0872648645-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0872648645-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0872648645-4">%{</span><span class="p" data-group-id="0872648645-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="0872648645-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0645265</span><span class="w"> </span><span class="n">total</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">158.5873566</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4478269104-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-3">#</span><span class="nc" data-group-id="4478269104-3">Nx.Tensor</span><span class="p" data-group-id="4478269104-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4478269104-4">[</span><span class="mi">8</span><span class="p" data-group-id="4478269104-4">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-5">[</span><span class="mf">0.013307658955454826</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08766761422157288</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0048030223697423935</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07024712860584259</span><span class="p">,</span><span class="w"> </span><span class="mf">0.261692613363266</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0028863451443612576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12552864849567413</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10552618652582169</span><span class="p" data-group-id="4478269104-5">]</span><span class="w">
+    </span><span class="p" data-group-id="4478269104-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-6">#</span><span class="nc" data-group-id="4478269104-6">Nx.Tensor</span><span class="p" data-group-id="4478269104-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4478269104-7">[</span><span class="mi">1</span><span class="p" data-group-id="4478269104-7">]</span><span class="p" data-group-id="4478269104-8">[</span><span class="mi">8</span><span class="p" data-group-id="4478269104-8">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-9">[</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-10">[</span><span class="o">-</span><span class="mf">0.1647171825170517</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4144238233566284</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09969457238912582</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6063833832740784</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7182243466377258</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3485015034675598</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29005324840545654</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5282242298126221</span><span class="p" data-group-id="4478269104-10">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-9">]</span><span class="w">
+    </span><span class="p" data-group-id="4478269104-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4478269104-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-12">#</span><span class="nc" data-group-id="4478269104-12">Nx.Tensor</span><span class="p" data-group-id="4478269104-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4478269104-13">[</span><span class="mi">4</span><span class="p" data-group-id="4478269104-13">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-14">[</span><span class="mf">0.021465059369802475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16003911197185516</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6696521043777466</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15482725203037262</span><span class="p" data-group-id="4478269104-14">]</span><span class="w">
+    </span><span class="p" data-group-id="4478269104-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-15">#</span><span class="nc" data-group-id="4478269104-15">Nx.Tensor</span><span class="p" data-group-id="4478269104-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4478269104-16">[</span><span class="mi">8</span><span class="p" data-group-id="4478269104-16">]</span><span class="p" data-group-id="4478269104-17">[</span><span class="mi">4</span><span class="p" data-group-id="4478269104-17">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-18">[</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-19">[</span><span class="mf">0.3359515964984894</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21561087667942047</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48400720953941345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3186679184436798</span><span class="p" data-group-id="4478269104-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-20">[</span><span class="o">-</span><span class="mf">0.08509980887174606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.031951334327459335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6084564924240112</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39506790041923523</span><span class="p" data-group-id="4478269104-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-21">[</span><span class="mf">0.003889488521963358</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12886928021907806</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5679722428321838</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22699925303459167</span><span class="p" data-group-id="4478269104-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-22">[</span><span class="o">-</span><span class="mf">0.315458744764328</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5626247525215149</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4241454303264618</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11212264746427536</span><span class="p" data-group-id="4478269104-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-23">[</span><span class="mf">0.6759291291236877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6508319973945618</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3511318564414978</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17946019768714905</span><span class="p" data-group-id="4478269104-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-24">[</span><span class="o">-</span><span class="mf">0.7148906588554382</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45404312014579773</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4150676727294922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33603984117507935</span><span class="p" data-group-id="4478269104-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-25">[</span><span class="mf">0.398037314414978</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5080180764198303</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6770725250244141</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5274750590324402</span><span class="p" data-group-id="4478269104-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-26">[</span><span class="mf">0.5072763562202454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7351003289222717</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.583225429058075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2974703013896942</span><span class="p" data-group-id="4478269104-26">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-18">]</span><span class="w">
+    </span><span class="p" data-group-id="4478269104-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4478269104-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-28">#</span><span class="nc" data-group-id="4478269104-28">Nx.Tensor</span><span class="p" data-group-id="4478269104-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4478269104-29">[</span><span class="mi">1</span><span class="p" data-group-id="4478269104-29">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-30">[</span><span class="o">-</span><span class="mf">0.8310347199440002</span><span class="p" data-group-id="4478269104-30">]</span><span class="w">
+    </span><span class="p" data-group-id="4478269104-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4478269104-31">#</span><span class="nc" data-group-id="4478269104-31">Nx.Tensor</span><span class="p" data-group-id="4478269104-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4478269104-32">[</span><span class="mi">4</span><span class="p" data-group-id="4478269104-32">]</span><span class="p" data-group-id="4478269104-33">[</span><span class="mi">1</span><span class="p" data-group-id="4478269104-33">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-34">[</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-35">[</span><span class="mf">0.28011587262153625</span><span class="p" data-group-id="4478269104-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-36">[</span><span class="mf">0.542819082736969</span><span class="p" data-group-id="4478269104-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-37">[</span><span class="mf">1.2814348936080933</span><span class="p" data-group-id="4478269104-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4478269104-38">[</span><span class="o">-</span><span class="mf">0.5193246603012085</span><span class="p" data-group-id="4478269104-38">]</span><span class="w">
+      </span><span class="p" data-group-id="4478269104-34">]</span><span class="w">
+    </span><span class="p" data-group-id="4478269104-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4478269104-27">}</span><span class="w">
+</span><span class="p" data-group-id="4478269104-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/lstm_generation.html b/lstm_generation.html
index 3cec316b..abd3b621 100644
--- a/lstm_generation.html
+++ b/lstm_generation.html
@@ -115,15 +115,15 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6578811375-1">(</span><span class="p" data-group-id="6578811375-2">[</span><span class="w">
-  </span><span class="p" data-group-id="6578811375-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="6578811375-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6578811375-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6578811375-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6578811375-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="6578811375-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6578811375-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="6578811375-6">}</span><span class="w">
-</span><span class="p" data-group-id="6578811375-2">]</span><span class="p" data-group-id="6578811375-1">)</span><span class="w">
-
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="6578811375-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6578811375-7">)</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="6578811375-8">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="6578811375-8">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8252799984-1">(</span><span class="p" data-group-id="8252799984-2">[</span><span class="w">
+  </span><span class="p" data-group-id="8252799984-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="8252799984-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8252799984-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8252799984-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8252799984-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="8252799984-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8252799984-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="8252799984-6">}</span><span class="w">
+</span><span class="p" data-group-id="8252799984-2">]</span><span class="p" data-group-id="8252799984-1">)</span><span class="w">
+
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="8252799984-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8252799984-7">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="8252799984-8">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="8252799984-8">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">introduction</p>
   </a>
@@ -138,43 +138,43 @@ <h1>
 <p>Using <a href="https://www.gutenberg.org/">Project Gutenburg</a> we can download a text books that are no longer protected under copywrite, so we can experiment with them.</p><p>The one that we will use for this experiment is <a href="https://www.gutenberg.org/ebooks/11">Alice's Adventures in Wonderland by Lewis Carroll</a>. You can choose any other text or book that you like for this experiment.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Change the URL if you&#39;d like to experiment with other books</span><span class="w">
 </span><span class="n">download_url</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;https://www.gutenberg.org/files/11/11-0.txt&quot;</span><span class="w">
 
-</span><span class="n">book_text</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="0889152181-1">(</span><span class="n">download_url</span><span class="p" data-group-id="0889152181-1">)</span><span class="o">.</span><span class="n">body</span></code></pre><p>First of all, we need to normalize the content of the book. We are only interested in the sequence of English characters, periods and new lines. Also currently we don't care about the capitalization and things like apostrophe so we can remove all other unknown characters and downcase everything. We can use a regular expression for that.</p><p>We can also convert the string into a list of characters so we can handle them easier. You will understand exactly why a bit further.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="n">book_text</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="0754304992-1">(</span><span class="n">download_url</span><span class="p" data-group-id="0754304992-1">)</span><span class="o">.</span><span class="n">body</span></code></pre><p>First of all, we need to normalize the content of the book. We are only interested in the sequence of English characters, periods and new lines. Also currently we don't care about the capitalization and things like apostrophe so we can remove all other unknown characters and downcase everything. We can use a regular expression for that.</p><p>We can also convert the string into a list of characters so we can handle them easier. You will understand exactly why a bit further.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">book_text</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="9955209340-1">(</span><span class="p" data-group-id="9955209340-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">replace</span><span class="p" data-group-id="9955209340-2">(</span><span class="sr">~r/[^a-z </span><span class="se">\.</span><span class="se">\n</span><span class="sr">]/</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&quot;</span><span class="p" data-group-id="9955209340-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="9955209340-3">(</span><span class="p" data-group-id="9955209340-3">)</span></code></pre><p>We converted the text to a list of characters, where each character is a number (specifically, a Unicode code point). Lowercase English characters are represented with numbers between <code class="inline">97 = a</code> and <code class="inline">122 = z</code>, a space is <code class="inline">32 = [ ]</code>, a new line is <code class="inline">10 = \n</code> and the period is <code class="inline">46 = .</code>.</p><p>So we should have 26 + 3 (= 29) characters in total. Let's see if that's true.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="3386110704-1">(</span><span class="p" data-group-id="3386110704-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="3386110704-2">(</span><span class="p" data-group-id="3386110704-2">)</span></code></pre><p>Since we want to use this 29 characters as possible values for each input in our neural network, we can re-map them to values between 0 and 28. So each specific neuron will indicate a specific character.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Extract all then unique characters we have and sort them for clarity</span><span class="w">
-</span><span class="n">characters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="9852457117-1">(</span><span class="p" data-group-id="9852457117-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">sort</span><span class="p" data-group-id="9852457117-2">(</span><span class="p" data-group-id="9852457117-2">)</span><span class="w">
-</span><span class="n">characters_count</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="9852457117-3">(</span><span class="n">characters</span><span class="p" data-group-id="9852457117-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="2125055833-1">(</span><span class="p" data-group-id="2125055833-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">replace</span><span class="p" data-group-id="2125055833-2">(</span><span class="sr">~r/[^a-z </span><span class="se">\.</span><span class="se">\n</span><span class="sr">]/</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&quot;</span><span class="p" data-group-id="2125055833-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="2125055833-3">(</span><span class="p" data-group-id="2125055833-3">)</span></code></pre><p>We converted the text to a list of characters, where each character is a number (specifically, a Unicode code point). Lowercase English characters are represented with numbers between <code class="inline">97 = a</code> and <code class="inline">122 = z</code>, a space is <code class="inline">32 = [ ]</code>, a new line is <code class="inline">10 = \n</code> and the period is <code class="inline">46 = .</code>.</p><p>So we should have 26 + 3 (= 29) characters in total. Let's see if that's true.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="4274779551-1">(</span><span class="p" data-group-id="4274779551-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="4274779551-2">(</span><span class="p" data-group-id="4274779551-2">)</span></code></pre><p>Since we want to use this 29 characters as possible values for each input in our neural network, we can re-map them to values between 0 and 28. So each specific neuron will indicate a specific character.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Extract all then unique characters we have and sort them for clarity</span><span class="w">
+</span><span class="n">characters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="6653807316-1">(</span><span class="p" data-group-id="6653807316-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">sort</span><span class="p" data-group-id="6653807316-2">(</span><span class="p" data-group-id="6653807316-2">)</span><span class="w">
+</span><span class="n">characters_count</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="6653807316-3">(</span><span class="n">characters</span><span class="p" data-group-id="6653807316-3">)</span><span class="w">
 
 </span><span class="c1"># Create a mapping for every character</span><span class="w">
-</span><span class="n">char_to_idx</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="9852457117-4">(</span><span class="p" data-group-id="9852457117-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9852457117-5">(</span><span class="p" data-group-id="9852457117-5">)</span><span class="w">
+</span><span class="n">char_to_idx</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="6653807316-4">(</span><span class="p" data-group-id="6653807316-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6653807316-5">(</span><span class="p" data-group-id="6653807316-5">)</span><span class="w">
 </span><span class="c1"># And a reverse mapping to convert back to characters</span><span class="w">
-</span><span class="n">idx_to_char</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="9852457117-6">(</span><span class="o">&amp;</span><span class="p" data-group-id="9852457117-7">{</span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="9852457117-7">}</span><span class="p" data-group-id="9852457117-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9852457117-8">(</span><span class="p" data-group-id="9852457117-8">)</span><span class="w">
+</span><span class="n">idx_to_char</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="6653807316-6">(</span><span class="o">&amp;</span><span class="p" data-group-id="6653807316-7">{</span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="6653807316-7">}</span><span class="p" data-group-id="6653807316-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6653807316-8">(</span><span class="p" data-group-id="6653807316-8">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="9852457117-9">(</span><span class="s">&quot;Total book characters: </span><span class="si" data-group-id="9852457117-10">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="9852457117-11">(</span><span class="n">normalized_book_text</span><span class="p" data-group-id="9852457117-11">)</span><span class="si" data-group-id="9852457117-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="9852457117-9">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="9852457117-12">(</span><span class="s">&quot;Total unique characters: </span><span class="si" data-group-id="9852457117-13">#{</span><span class="n">characters_count</span><span class="si" data-group-id="9852457117-13">}</span><span class="s">&quot;</span><span class="p" data-group-id="9852457117-12">)</span></code></pre><p>Now we need to create our training and testing data sets. But how?</p><p>Our goal is to teach the machine what comes after a sequence of characters (usually). For example given the following sequence <strong>&quot;Hello, My name i&quot;</strong> the computer should be able to guess that the next character is probably <strong>&quot;s&quot;</strong>.</p><pre><code class="mermaid">graph LR;
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6653807316-9">(</span><span class="s">&quot;Total book characters: </span><span class="si" data-group-id="6653807316-10">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="6653807316-11">(</span><span class="n">normalized_book_text</span><span class="p" data-group-id="6653807316-11">)</span><span class="si" data-group-id="6653807316-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="6653807316-9">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6653807316-12">(</span><span class="s">&quot;Total unique characters: </span><span class="si" data-group-id="6653807316-13">#{</span><span class="n">characters_count</span><span class="si" data-group-id="6653807316-13">}</span><span class="s">&quot;</span><span class="p" data-group-id="6653807316-12">)</span></code></pre><p>Now we need to create our training and testing data sets. But how?</p><p>Our goal is to teach the machine what comes after a sequence of characters (usually). For example given the following sequence <strong>&quot;Hello, My name i&quot;</strong> the computer should be able to guess that the next character is probably <strong>&quot;s&quot;</strong>.</p><pre><code class="mermaid">graph LR;
   A[Input: Hello my name i]--&gt;NN[Neural Network]--&gt;B[Output: s];</code></pre><p>Let's choose an arbitrary sequence length and create a data set from the book text. All we need to do is read X amount of characters from the book as the input and then read 1 more as the designated output.</p><p>After doing all that, we also want to convert every character to it's index using the <code class="inline">char_to_idx</code> mapping that we have created before.</p><p>Neural networks work best if you scale your inputs and outputs. In this case we are going to scale everything between 0 and 1 by dividing them by the number of unique characters that we have.</p><p>And for the final step we will reshape it so we can use the data in our LSTM model.</p><pre><code class="makeup elixir" translate="no"><span class="n">sequence_length</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
 
 </span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">normalized_book_text</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="6090764788-1">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="6090764788-2">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="6090764788-2">)</span><span class="p" data-group-id="6090764788-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="6090764788-3">(</span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="6090764788-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="5433021899-1">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="5433021899-2">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="5433021899-2">)</span><span class="p" data-group-id="5433021899-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="5433021899-3">(</span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="5433021899-3">)</span><span class="w">
   </span><span class="c1"># We don&#39;t want the last chunk since we don&#39;t have a prediction for it.</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="6090764788-4">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="6090764788-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6090764788-5">(</span><span class="p" data-group-id="6090764788-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6090764788-6">(</span><span class="n">characters_count</span><span class="p" data-group-id="6090764788-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="6090764788-7">(</span><span class="p" data-group-id="6090764788-8">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6090764788-8">}</span><span class="p" data-group-id="6090764788-7">)</span></code></pre><p>For our train results, We will do the same. Drop the first <code class="inline">sequence_length</code> characters and then convert them to the mapping. Additionally, we will do <strong>one-hot encoding</strong>.</p><p>The reason we want to use one-hot encoding is that in our model we don't want to only return a character as the output. We want it to return the probability of each character for the output. This way we can decide if certain probability is good or not or even we can decide between multiple possible outputs or even discard everything if the network is not confident enough.</p><p>In Nx, you can achieve this encoding by using this snippet</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6755770532-1">(</span><span class="p" data-group-id="6755770532-2">[</span><span class="w">
-  </span><span class="p" data-group-id="6755770532-3">[</span><span class="mi">0</span><span class="p" data-group-id="6755770532-3">]</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6755770532-4">[</span><span class="mi">1</span><span class="p" data-group-id="6755770532-4">]</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6755770532-5">[</span><span class="mi">2</span><span class="p" data-group-id="6755770532-5">]</span><span class="w">
-</span><span class="p" data-group-id="6755770532-2">]</span><span class="p" data-group-id="6755770532-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="6755770532-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6755770532-7">(</span><span class="p" data-group-id="6755770532-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6755770532-8">}</span><span class="p" data-group-id="6755770532-7">)</span><span class="p" data-group-id="6755770532-6">)</span></code></pre><p>To sum it up, Here is how we generate the train results.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_results</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="5433021899-4">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="5433021899-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5433021899-5">(</span><span class="p" data-group-id="5433021899-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5433021899-6">(</span><span class="n">characters_count</span><span class="p" data-group-id="5433021899-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5433021899-7">(</span><span class="p" data-group-id="5433021899-8">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5433021899-8">}</span><span class="p" data-group-id="5433021899-7">)</span></code></pre><p>For our train results, We will do the same. Drop the first <code class="inline">sequence_length</code> characters and then convert them to the mapping. Additionally, we will do <strong>one-hot encoding</strong>.</p><p>The reason we want to use one-hot encoding is that in our model we don't want to only return a character as the output. We want it to return the probability of each character for the output. This way we can decide if certain probability is good or not or even we can decide between multiple possible outputs or even discard everything if the network is not confident enough.</p><p>In Nx, you can achieve this encoding by using this snippet</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8424610249-1">(</span><span class="p" data-group-id="8424610249-2">[</span><span class="w">
+  </span><span class="p" data-group-id="8424610249-3">[</span><span class="mi">0</span><span class="p" data-group-id="8424610249-3">]</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8424610249-4">[</span><span class="mi">1</span><span class="p" data-group-id="8424610249-4">]</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8424610249-5">[</span><span class="mi">2</span><span class="p" data-group-id="8424610249-5">]</span><span class="w">
+</span><span class="p" data-group-id="8424610249-2">]</span><span class="p" data-group-id="8424610249-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="8424610249-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="8424610249-7">(</span><span class="p" data-group-id="8424610249-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8424610249-8">}</span><span class="p" data-group-id="8424610249-7">)</span><span class="p" data-group-id="8424610249-6">)</span></code></pre><p>To sum it up, Here is how we generate the train results.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_results</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">normalized_book_text</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="7514596655-1">(</span><span class="n">sequence_length</span><span class="p" data-group-id="7514596655-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7514596655-2">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="7514596655-3">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="7514596655-3">)</span><span class="p" data-group-id="7514596655-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7514596655-4">(</span><span class="p" data-group-id="7514596655-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="7514596655-5">(</span><span class="p" data-group-id="7514596655-6">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7514596655-6">}</span><span class="p" data-group-id="7514596655-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="7514596655-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7514596655-8">(</span><span class="p" data-group-id="7514596655-9">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">characters_count</span><span class="p" data-group-id="7514596655-9">}</span><span class="p" data-group-id="7514596655-8">)</span><span class="p" data-group-id="7514596655-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="1694980174-1">(</span><span class="n">sequence_length</span><span class="p" data-group-id="1694980174-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="1694980174-2">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="1694980174-3">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="1694980174-3">)</span><span class="p" data-group-id="1694980174-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1694980174-4">(</span><span class="p" data-group-id="1694980174-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1694980174-5">(</span><span class="p" data-group-id="1694980174-6">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1694980174-6">}</span><span class="p" data-group-id="1694980174-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="1694980174-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1694980174-8">(</span><span class="p" data-group-id="1694980174-9">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">characters_count</span><span class="p" data-group-id="1694980174-9">}</span><span class="p" data-group-id="1694980174-8">)</span><span class="p" data-group-id="1694980174-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
   <a href="#defining-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">defining-the-model</p>
   </a>
@@ -183,34 +183,34 @@ <h1>
 <pre><code class="makeup elixir" translate="no"><span class="c1"># As the input, we expect the sequence_length characters</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4829397775-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4829397775-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4829397775-2">}</span><span class="p" data-group-id="4829397775-1">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3881985317-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3881985317-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3881985317-2">}</span><span class="p" data-group-id="3881985317-1">)</span><span class="w">
   </span><span class="c1"># The LSTM layer of our network</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="4829397775-3">(</span><span class="mi">256</span><span class="p" data-group-id="4829397775-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="3881985317-3">(</span><span class="mi">256</span><span class="p" data-group-id="3881985317-3">)</span><span class="w">
   </span><span class="c1"># Selecting only the output from the LSTM Layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="4829397775-4">(</span><span class="k" data-group-id="4829397775-5">fn</span><span class="w"> </span><span class="p" data-group-id="4829397775-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="4829397775-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="4829397775-5">end</span><span class="p" data-group-id="4829397775-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="3881985317-4">(</span><span class="k" data-group-id="3881985317-5">fn</span><span class="w"> </span><span class="p" data-group-id="3881985317-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="3881985317-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="3881985317-5">end</span><span class="p" data-group-id="3881985317-4">)</span><span class="w">
   </span><span class="c1"># Since we only want the last sequence in LSTM we will slice it and</span><span class="w">
   </span><span class="c1"># select the last one</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="4829397775-7">(</span><span class="k" data-group-id="4829397775-8">fn</span><span class="w"> </span><span class="n">t</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">t</span><span class="p" data-group-id="4829397775-9">[</span><span class="p" data-group-id="4829397775-10">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="4829397775-10">]</span><span class="p" data-group-id="4829397775-9">]</span><span class="w"> </span><span class="k" data-group-id="4829397775-8">end</span><span class="p" data-group-id="4829397775-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="3881985317-7">(</span><span class="k" data-group-id="3881985317-8">fn</span><span class="w"> </span><span class="n">t</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">t</span><span class="p" data-group-id="3881985317-9">[</span><span class="p" data-group-id="3881985317-10">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3881985317-10">]</span><span class="p" data-group-id="3881985317-9">]</span><span class="w"> </span><span class="k" data-group-id="3881985317-8">end</span><span class="p" data-group-id="3881985317-7">)</span><span class="w">
   </span><span class="c1"># 20% dropout so we will not become too dependent on specific neurons</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4829397775-11">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="4829397775-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="3881985317-11">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="3881985317-11">)</span><span class="w">
   </span><span class="c1"># The output layer. One neuron for each character and using softmax,</span><span class="w">
   </span><span class="c1"># as activation so every node represents a probability</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4829397775-12">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="4829397775-12">)</span></code></pre><h2 id="training-the-network" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3881985317-12">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="3881985317-12">)</span></code></pre><h2 id="training-the-network" class="section-heading">
   <a href="#training-the-network" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training-the-network</p>
   </a>
   Training the network
 </h2>
 <p>To train the network, we will use Axon's Loop API. It is pretty straightforward.</p><p>For the loss function we can use <em>categorical cross-entropy</em> since we are dealing with categories (each character) in our output. For the optimizer we can use <em>Adam</em>.</p><p>We will train our network for 20 epochs. Note that we are working with a fair amount data, so it may take a long time unless you run it on a GPU.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
-</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="8651808728-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="8651808728-1">)</span><span class="w">
-</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="8651808728-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="8651808728-2">)</span><span class="w">
+</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6154420936-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="6154420936-1">)</span><span class="w">
+</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6154420936-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="6154420936-2">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8651808728-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="8651808728-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="8651808728-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="8651808728-5">)</span><span class="si" data-group-id="8651808728-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="8651808728-3">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6154420936-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="6154420936-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="6154420936-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="6154420936-5">)</span><span class="si" data-group-id="6154420936-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="6154420936-3">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8651808728-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="8651808728-7">(</span><span class="mf">0.001</span><span class="p" data-group-id="8651808728-7">)</span><span class="p" data-group-id="8651808728-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8651808728-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="8651808728-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="8651808728-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8651808728-10">%{</span><span class="p" data-group-id="8651808728-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8651808728-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6154420936-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="6154420936-7">(</span><span class="mf">0.001</span><span class="p" data-group-id="6154420936-7">)</span><span class="p" data-group-id="6154420936-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6154420936-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="6154420936-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="6154420936-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6154420936-10">%{</span><span class="p" data-group-id="6154420936-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6154420936-8">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="generating-text" class="section-heading">
   <a href="#generating-text" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -218,32 +218,32 @@ <h1>
   </a>
   Generating text
 </h2>
-<p>Now we have a trained neural network, so we can start generating text with it! We just need to pass the initial sequence as the input to the network and select the most probable output. <a href="Axon.html#predict/3"><code class="inline">Axon.predict/3</code></a> will give us the output layer and then using <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#argmax/1"><code class="inline">Nx.argmax/1</code></a> we get the most confident neuron index, then simply convert that index back to its Unicode representation.</p><pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9272234483-1">fn</span><span class="w"> </span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+<p>Now we have a trained neural network, so we can start generating text with it! We just need to pass the initial sequence as the input to the network and select the most probable output. <a href="Axon.html#predict/3"><code class="inline">Axon.predict/3</code></a> will give us the output layer and then using <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#argmax/1"><code class="inline">Nx.argmax/1</code></a> we get the most confident neuron index, then simply convert that index back to its Unicode representation.</p><pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5239225628-1">fn</span><span class="w"> </span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># The initial sequence that we want the network to complete for us.</span><span class="w">
   </span><span class="n">init_seq</span><span class="w"> </span><span class="o">=</span><span class="w">
     </span><span class="n">init_seq</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">trim</span><span class="p" data-group-id="9272234483-2">(</span><span class="p" data-group-id="9272234483-2">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="9272234483-3">(</span><span class="p" data-group-id="9272234483-3">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="9272234483-4">(</span><span class="p" data-group-id="9272234483-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="9272234483-5">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="9272234483-6">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="9272234483-6">)</span><span class="p" data-group-id="9272234483-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">trim</span><span class="p" data-group-id="5239225628-2">(</span><span class="p" data-group-id="5239225628-2">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="5239225628-3">(</span><span class="p" data-group-id="5239225628-3">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="5239225628-4">(</span><span class="p" data-group-id="5239225628-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="5239225628-5">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="5239225628-6">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="5239225628-6">)</span><span class="p" data-group-id="5239225628-5">)</span><span class="w">
 
-  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="9272234483-7">(</span><span class="mi">1</span><span class="o">..</span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="9272234483-8">fn</span><span class="w"> </span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="5239225628-7">(</span><span class="mi">1</span><span class="o">..</span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="5239225628-8">fn</span><span class="w"> </span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="n">init_seq</span><span class="w"> </span><span class="o">=</span><span class="w">
       </span><span class="n">seq</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="9272234483-9">(</span><span class="o">-</span><span class="n">sequence_length</span><span class="p" data-group-id="9272234483-9">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9272234483-10">(</span><span class="p" data-group-id="9272234483-10">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="9272234483-11">(</span><span class="n">characters_count</span><span class="p" data-group-id="9272234483-11">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="9272234483-12">(</span><span class="p" data-group-id="9272234483-13">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9272234483-13">}</span><span class="p" data-group-id="9272234483-12">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="5239225628-9">(</span><span class="o">-</span><span class="n">sequence_length</span><span class="p" data-group-id="5239225628-9">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5239225628-10">(</span><span class="p" data-group-id="5239225628-10">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5239225628-11">(</span><span class="n">characters_count</span><span class="p" data-group-id="5239225628-11">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5239225628-12">(</span><span class="p" data-group-id="5239225628-13">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5239225628-13">}</span><span class="p" data-group-id="5239225628-12">)</span><span class="w">
 
     </span><span class="n">char</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="9272234483-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="9272234483-14">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="9272234483-15">(</span><span class="p" data-group-id="9272234483-15">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="9272234483-16">(</span><span class="p" data-group-id="9272234483-16">)</span><span class="w">
+      </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5239225628-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="5239225628-14">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="5239225628-15">(</span><span class="p" data-group-id="5239225628-15">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="5239225628-16">(</span><span class="p" data-group-id="5239225628-16">)</span><span class="w">
 
-    </span><span class="n">seq</span><span class="w"> </span><span class="o">++</span><span class="w"> </span><span class="p" data-group-id="9272234483-17">[</span><span class="n">char</span><span class="p" data-group-id="9272234483-17">]</span><span class="w">
-  </span><span class="k" data-group-id="9272234483-8">end</span><span class="p" data-group-id="9272234483-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="9272234483-18">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="9272234483-19">(</span><span class="n">idx_to_char</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="9272234483-19">)</span><span class="p" data-group-id="9272234483-18">)</span><span class="w">
-</span><span class="k" data-group-id="9272234483-1">end</span><span class="w">
+    </span><span class="n">seq</span><span class="w"> </span><span class="o">++</span><span class="w"> </span><span class="p" data-group-id="5239225628-17">[</span><span class="n">char</span><span class="p" data-group-id="5239225628-17">]</span><span class="w">
+  </span><span class="k" data-group-id="5239225628-8">end</span><span class="p" data-group-id="5239225628-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="5239225628-18">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="5239225628-19">(</span><span class="n">idx_to_char</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="5239225628-19">)</span><span class="p" data-group-id="5239225628-18">)</span><span class="w">
+</span><span class="k" data-group-id="5239225628-1">end</span><span class="w">
 
 </span><span class="c1"># The initial sequence that we want the network to complete for us.</span><span class="w">
 </span><span class="n">init_seq</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
@@ -252,34 +252,34 @@ <h1>
 cupboards as she fell past it.
 &quot;&quot;&quot;</span><span class="w">
 
-</span><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="9272234483-20">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="9272234483-20">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="9272234483-21">(</span><span class="p" data-group-id="9272234483-21">)</span></code></pre><h2 id="multi-lstm-layers" class="section-heading">
+</span><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="5239225628-20">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="5239225628-20">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5239225628-21">(</span><span class="p" data-group-id="5239225628-21">)</span></code></pre><h2 id="multi-lstm-layers" class="section-heading">
   <a href="#multi-lstm-layers" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">multi-lstm-layers</p>
   </a>
   Multi LSTM layers
 </h2>
 <p>We can improve our network by stacking multiple LSTM layers together. We just need to change our model and re-train our network.</p><pre><code class="makeup elixir" translate="no"><span class="n">new_model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0849839740-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0849839740-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0849839740-2">}</span><span class="p" data-group-id="0849839740-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="0849839740-3">(</span><span class="mi">256</span><span class="p" data-group-id="0849839740-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="0849839740-4">(</span><span class="k" data-group-id="0849839740-5">fn</span><span class="w"> </span><span class="p" data-group-id="0849839740-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="0849839740-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="0849839740-5">end</span><span class="p" data-group-id="0849839740-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="0849839740-7">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="0849839740-7">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2573432037-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2573432037-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2573432037-2">}</span><span class="p" data-group-id="2573432037-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="2573432037-3">(</span><span class="mi">256</span><span class="p" data-group-id="2573432037-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="2573432037-4">(</span><span class="k" data-group-id="2573432037-5">fn</span><span class="w"> </span><span class="p" data-group-id="2573432037-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="2573432037-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="2573432037-5">end</span><span class="p" data-group-id="2573432037-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="2573432037-7">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="2573432037-7">)</span><span class="w">
   </span><span class="c1"># This time we will pass all of the `out` to the next lstm layer.</span><span class="w">
   </span><span class="c1"># We just need to slice the last one.</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="0849839740-8">(</span><span class="mi">256</span><span class="p" data-group-id="0849839740-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="0849839740-9">(</span><span class="k" data-group-id="0849839740-10">fn</span><span class="w"> </span><span class="p" data-group-id="0849839740-11">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="0849839740-11">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="0849839740-10">end</span><span class="p" data-group-id="0849839740-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="0849839740-12">(</span><span class="k" data-group-id="0849839740-13">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="0849839740-14">[</span><span class="p" data-group-id="0849839740-15">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0849839740-15">]</span><span class="p" data-group-id="0849839740-14">]</span><span class="w"> </span><span class="k" data-group-id="0849839740-13">end</span><span class="p" data-group-id="0849839740-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="0849839740-16">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="0849839740-16">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0849839740-17">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="0849839740-17">)</span></code></pre><p>Then we can train the network using the exact same code as before</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Using a smaller batch size in this case will give the network more opportunity to learn</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="2573432037-8">(</span><span class="mi">256</span><span class="p" data-group-id="2573432037-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="2573432037-9">(</span><span class="k" data-group-id="2573432037-10">fn</span><span class="w"> </span><span class="p" data-group-id="2573432037-11">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="2573432037-11">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="2573432037-10">end</span><span class="p" data-group-id="2573432037-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="2573432037-12">(</span><span class="k" data-group-id="2573432037-13">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="2573432037-14">[</span><span class="p" data-group-id="2573432037-15">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="2573432037-15">]</span><span class="p" data-group-id="2573432037-14">]</span><span class="w"> </span><span class="k" data-group-id="2573432037-13">end</span><span class="p" data-group-id="2573432037-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="2573432037-16">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="2573432037-16">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2573432037-17">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="2573432037-17">)</span></code></pre><p>Then we can train the network using the exact same code as before</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Using a smaller batch size in this case will give the network more opportunity to learn</span><span class="w">
 </span><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">64</span><span class="w">
-</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2572375589-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="2572375589-1">)</span><span class="w">
-</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2572375589-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="2572375589-2">)</span><span class="w">
+</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6723748749-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="6723748749-1">)</span><span class="w">
+</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6723748749-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="6723748749-2">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="2572375589-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="2572375589-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="2572375589-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="2572375589-5">)</span><span class="si" data-group-id="2572375589-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="2572375589-3">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6723748749-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="6723748749-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="6723748749-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="6723748749-5">)</span><span class="si" data-group-id="6723748749-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="6723748749-3">)</span><span class="w">
 
 </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">new_model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2572375589-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="2572375589-7">(</span><span class="mf">0.001</span><span class="p" data-group-id="2572375589-7">)</span><span class="p" data-group-id="2572375589-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2572375589-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="2572375589-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="2572375589-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2572375589-10">%{</span><span class="p" data-group-id="2572375589-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2572375589-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6723748749-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="6723748749-7">(</span><span class="mf">0.001</span><span class="p" data-group-id="6723748749-7">)</span><span class="p" data-group-id="6723748749-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6723748749-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="6723748749-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="6723748749-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6723748749-10">%{</span><span class="p" data-group-id="6723748749-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6723748749-8">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="generate-text-with-the-new-network" class="section-heading">
   <a href="#generate-text-with-the-new-network" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -287,7 +287,7 @@ <h1>
   </a>
   Generate text with the new network
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="5155791171-1">(</span><span class="n">new_model</span><span class="p">,</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="5155791171-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5155791171-2">(</span><span class="p" data-group-id="5155791171-2">)</span></code></pre><p>As you may see, it improved a lot with this new model and the extensive training. This time it knows about rules like adding a space after period.</p><h2 id="references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="4375726721-1">(</span><span class="n">new_model</span><span class="p">,</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="4375726721-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4375726721-2">(</span><span class="p" data-group-id="4375726721-2">)</span></code></pre><p>As you may see, it improved a lot with this new model and the extensive training. This time it knows about rules like adding a space after period.</p><h2 id="references" class="section-heading">
   <a href="#references" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">references</p>
   </a>
diff --git a/mnist.html b/mnist.html
index 8aff6dd4..17dd0abf 100644
--- a/mnist.html
+++ b/mnist.html
@@ -115,12 +115,12 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8619137568-1">(</span><span class="p" data-group-id="8619137568-2">[</span><span class="w">
-  </span><span class="p" data-group-id="8619137568-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="8619137568-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8619137568-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8619137568-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8619137568-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="8619137568-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8619137568-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="8619137568-6">}</span><span class="w">
-</span><span class="p" data-group-id="8619137568-2">]</span><span class="p" data-group-id="8619137568-1">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0754534480-1">(</span><span class="p" data-group-id="0754534480-2">[</span><span class="w">
+  </span><span class="p" data-group-id="0754534480-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="0754534480-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0754534480-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0754534480-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0754534480-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="0754534480-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0754534480-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="0754534480-6">}</span><span class="w">
+</span><span class="p" data-group-id="0754534480-2">]</span><span class="p" data-group-id="0754534480-1">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">introduction</p>
   </a>
@@ -133,30 +133,30 @@ <h1>
   Retrieving and exploring the dataset
 </h2>
 <p>The MNIST dataset is available for free online. Using <code class="inline">Req</code> we'll download both training images and training labels. Both <code class="inline">train_images</code> and <code class="inline">train_labels</code> are compressed binary data. Fortunately, <code class="inline">Req</code> takes care of the decompression for us.</p><p>You can read more about the format of the ubyte files <a href="http://yann.lecun.com/exdb/mnist/">here</a>. Each file starts with a magic number and some metadata. We can use binary pattern matching to extract the information we want. In this case we extract the raw binary images and labels.</p><pre><code class="makeup elixir" translate="no"><span class="n">base_url</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;https://storage.googleapis.com/cvdf-datasets/mnist/&quot;</span><span class="w">
-</span><span class="p" data-group-id="3113026180-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="3113026180-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="3113026180-2">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-images-idx3-ubyte.gz&quot;</span><span class="p" data-group-id="3113026180-2">)</span><span class="w">
-</span><span class="p" data-group-id="3113026180-3">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_labels</span><span class="p" data-group-id="3113026180-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="3113026180-4">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-labels-idx1-ubyte.gz&quot;</span><span class="p" data-group-id="3113026180-4">)</span><span class="w">
+</span><span class="p" data-group-id="7588539055-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="7588539055-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="7588539055-2">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-images-idx3-ubyte.gz&quot;</span><span class="p" data-group-id="7588539055-2">)</span><span class="w">
+</span><span class="p" data-group-id="7588539055-3">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_labels</span><span class="p" data-group-id="7588539055-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="7588539055-4">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-labels-idx1-ubyte.gz&quot;</span><span class="p" data-group-id="7588539055-4">)</span><span class="w">
 
-</span><span class="p" data-group-id="3113026180-5">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_images</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="3113026180-5">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="w">
-</span><span class="p" data-group-id="3113026180-6">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_labels</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="3113026180-6">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_labels</span></code></pre><p>We can easily read that binary data into a tensor using <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a>. <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> expects a raw binary and a data type. In this case, both images and labels are stored as unsigned 8-bit integers. We can start by parsing our images:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="p" data-group-id="7588539055-5">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_images</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="7588539055-5">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="w">
+</span><span class="p" data-group-id="7588539055-6">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_labels</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="7588539055-6">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_labels</span></code></pre><p>We can easily read that binary data into a tensor using <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a>. <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> expects a raw binary and a data type. In this case, both images and labels are stored as unsigned 8-bit integers. We can start by parsing our images:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="7721620534-1">(</span><span class="p" data-group-id="7721620534-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7721620534-2">}</span><span class="p" data-group-id="7721620534-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="7721620534-3">(</span><span class="p" data-group-id="7721620534-4">{</span><span class="n">n_images</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="p" data-group-id="7721620534-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7721620534-5">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="7721620534-5">]</span><span class="p" data-group-id="7721620534-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="7721620534-6">(</span><span class="mi">255</span><span class="p" data-group-id="7721620534-6">)</span></code></pre><p><a href="https://hexdocs.pm/nx/0.5.1/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> returns a flat tensor. Using <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#reshape/3"><code class="inline">Nx.reshape/3</code></a> we can manipulate this flat tensor into meaningful dimensions. Notice we also <em>normalized</em> the tensor by dividing the input data by 255. This squeezes the data between 0 and 1 which often leads to better behavior when training models. Now, let's see what these images look like:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="p" data-group-id="2435629439-1">[</span><span class="p" data-group-id="2435629439-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">4</span><span class="p" data-group-id="2435629439-2">]</span><span class="p" data-group-id="2435629439-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="2435629439-3">(</span><span class="p" data-group-id="2435629439-3">)</span></code></pre><p>In the reshape operation above, we give each dimension of the tensor a name. This makes it much easier to do things like slicing, and helps make your code easier to understand. Here we slice the <code class="inline">images</code> dimension of the images tensor to obtain the first 5 training images. Then, we convert them to a heatmap for easy visualization.</p><p>It's common to train neural networks in batches (actually correctly called minibatches, but you'll see batch and minibatch used interchangeably). We can &quot;batch&quot; our images into batches of 32 like this:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7168268377-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7168268377-1">)</span></code></pre><p>Now, we'll need to get our labels into batches as well, but first we need to <em>one-hot encode</em> the labels. One-hot encoding converts input data from labels such as <code class="inline">3</code>, <code class="inline">5</code>, <code class="inline">7</code>, etc. into vectors of 0's and a single 1 at the correct labels index. As an example, a label of: <code class="inline">3</code> gets converted to: <code class="inline">[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]</code>.</p><pre><code class="makeup elixir" translate="no"><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="7819309620-1">(</span><span class="p" data-group-id="7819309620-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7819309620-2">}</span><span class="p" data-group-id="7819309620-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="7819309620-3">(</span><span class="p" data-group-id="7819309620-4">{</span><span class="n">n_images</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="p" data-group-id="7819309620-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7819309620-5">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="7819309620-5">]</span><span class="p" data-group-id="7819309620-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="7819309620-6">(</span><span class="mi">255</span><span class="p" data-group-id="7819309620-6">)</span></code></pre><p><a href="https://hexdocs.pm/nx/0.5.1/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> returns a flat tensor. Using <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#reshape/3"><code class="inline">Nx.reshape/3</code></a> we can manipulate this flat tensor into meaningful dimensions. Notice we also <em>normalized</em> the tensor by dividing the input data by 255. This squeezes the data between 0 and 1 which often leads to better behavior when training models. Now, let's see what these images look like:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="p" data-group-id="7867964674-1">[</span><span class="p" data-group-id="7867964674-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">4</span><span class="p" data-group-id="7867964674-2">]</span><span class="p" data-group-id="7867964674-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="7867964674-3">(</span><span class="p" data-group-id="7867964674-3">)</span></code></pre><p>In the reshape operation above, we give each dimension of the tensor a name. This makes it much easier to do things like slicing, and helps make your code easier to understand. Here we slice the <code class="inline">images</code> dimension of the images tensor to obtain the first 5 training images. Then, we convert them to a heatmap for easy visualization.</p><p>It's common to train neural networks in batches (actually correctly called minibatches, but you'll see batch and minibatch used interchangeably). We can &quot;batch&quot; our images into batches of 32 like this:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6320198775-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6320198775-1">)</span></code></pre><p>Now, we'll need to get our labels into batches as well, but first we need to <em>one-hot encode</em> the labels. One-hot encoding converts input data from labels such as <code class="inline">3</code>, <code class="inline">5</code>, <code class="inline">7</code>, etc. into vectors of 0's and a single 1 at the correct labels index. As an example, a label of: <code class="inline">3</code> gets converted to: <code class="inline">[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]</code>.</p><pre><code class="makeup elixir" translate="no"><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">labels</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="1796739207-1">(</span><span class="p" data-group-id="1796739207-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1796739207-2">}</span><span class="p" data-group-id="1796739207-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="1796739207-3">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="1796739207-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="1796739207-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1796739207-5">(</span><span class="nc">Enum</span><span class="o">.</span><span class="n">to_list</span><span class="p" data-group-id="1796739207-6">(</span><span class="mi">0</span><span class="o">..</span><span class="mi">9</span><span class="p" data-group-id="1796739207-6">)</span><span class="p" data-group-id="1796739207-5">)</span><span class="p" data-group-id="1796739207-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="1796739207-7">(</span><span class="mi">32</span><span class="p" data-group-id="1796739207-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="7057656460-1">(</span><span class="p" data-group-id="7057656460-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7057656460-2">}</span><span class="p" data-group-id="7057656460-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="7057656460-3">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="7057656460-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="7057656460-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7057656460-5">(</span><span class="nc">Enum</span><span class="o">.</span><span class="n">to_list</span><span class="p" data-group-id="7057656460-6">(</span><span class="mi">0</span><span class="o">..</span><span class="mi">9</span><span class="p" data-group-id="7057656460-6">)</span><span class="p" data-group-id="7057656460-5">)</span><span class="p" data-group-id="7057656460-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7057656460-7">(</span><span class="mi">32</span><span class="p" data-group-id="7057656460-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
   <a href="#defining-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">defining-the-model</p>
   </a>
   Defining the model
 </h2>
 <p>Let's start by defining a simple model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1792515747-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1792515747-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1792515747-2">}</span><span class="p" data-group-id="1792515747-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="1792515747-3">(</span><span class="p" data-group-id="1792515747-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1792515747-4">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1792515747-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1792515747-5">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="1792515747-5">)</span></code></pre><p>All <a href="Axon.html"><code class="inline">Axon</code></a> models start with an input layer to tell subsequent layers what shapes to expect. We then use <a href="Axon.html#flatten/2"><code class="inline">Axon.flatten/2</code></a> which flattens the previous layer by squeezing all dimensions but the first dimension into a single dimension. Our model consists of 2 fully connected layers with 128 and 10 units respectively. The first layer uses <code class="inline">:relu</code> activation which returns <code class="inline">max(0, input)</code> element-wise. The final layer uses <code class="inline">:softmax</code> activation to return a probability distribution over the 10 labels [0 - 9].</p><h2 id="training" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6507357914-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6507357914-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="6507357914-2">}</span><span class="p" data-group-id="6507357914-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="6507357914-3">(</span><span class="p" data-group-id="6507357914-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6507357914-4">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6507357914-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6507357914-5">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="6507357914-5">)</span></code></pre><p>All <a href="Axon.html"><code class="inline">Axon</code></a> models start with an input layer to tell subsequent layers what shapes to expect. We then use <a href="Axon.html#flatten/2"><code class="inline">Axon.flatten/2</code></a> which flattens the previous layer by squeezing all dimensions but the first dimension into a single dimension. Our model consists of 2 fully connected layers with 128 and 10 units respectively. The first layer uses <code class="inline">:relu</code> activation which returns <code class="inline">max(0, input)</code> element-wise. The final layer uses <code class="inline">:softmax</code> activation to return a probability distribution over the 10 labels [0 - 9].</p><h2 id="training" class="section-heading">
   <a href="#training" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training</p>
   </a>
@@ -164,18 +164,18 @@ <h1>
 </h2>
 <p>In Axon we express the task of training using a declarative loop API. First, we need to specify a loss function and optimizer, there are many built-in variants to choose from. In this example, we'll use <em>categorical cross-entropy</em> and the <em>Adam</em> optimizer. We will also keep track of the <em>accuracy</em> metric. Finally, we run training loop passing our batched images and labels. We'll train for 10 epochs using the <code class="inline">EXLA</code> compiler.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0046480721-1">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="0046480721-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0046480721-2">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="0046480721-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0046480721-3">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="0046480721-4">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="0046480721-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0046480721-5">%{</span><span class="p" data-group-id="0046480721-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0046480721-3">)</span></code></pre><h2 id="prediction" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8496970596-1">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="8496970596-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8496970596-2">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="8496970596-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8496970596-3">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="8496970596-4">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="8496970596-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8496970596-5">%{</span><span class="p" data-group-id="8496970596-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8496970596-3">)</span></code></pre><h2 id="prediction" class="section-heading">
   <a href="#prediction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">prediction</p>
   </a>
   Prediction
 </h2>
 <p>Now that we have the parameters from the training step, we can use them for predictions.
-For this the <code class="inline">Axon.predict</code> can be used.</p><pre><code class="makeup elixir" translate="no"><span class="n">first_batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="1118170737-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1118170737-1">)</span><span class="w">
+For this the <code class="inline">Axon.predict</code> can be used.</p><pre><code class="makeup elixir" translate="no"><span class="n">first_batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="7838015514-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7838015514-1">)</span><span class="w">
 
-</span><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="1118170737-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">first_batch</span><span class="p" data-group-id="1118170737-2">)</span></code></pre><p>For each image, the model outputs probability distribution. This informs us how certain the model is about its prediction. Let's see the most probable digit for each image:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="3843300981-1">(</span><span class="n">output</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3843300981-1">)</span></code></pre><p>If you look at the original images and you will see the predictions match the data!</p>
+</span><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="7838015514-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">first_batch</span><span class="p" data-group-id="7838015514-2">)</span></code></pre><p>For each image, the model outputs probability distribution. This informs us how certain the model is about its prediction. Let's see the most probable digit for each image:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="2157130765-1">(</span><span class="n">output</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2157130765-1">)</span></code></pre><p>If you look at the original images and you will see the predictions match the data!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/mnist_autoencoder_using_kino.html b/mnist_autoencoder_using_kino.html
index 70dbbf6d..206b76cc 100644
--- a/mnist_autoencoder_using_kino.html
+++ b/mnist_autoencoder_using_kino.html
@@ -115,16 +115,16 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="7298274989-1">(</span><span class="p" data-group-id="7298274989-2">[</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="7298274989-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7298274989-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="7298274989-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="7298274989-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="7298274989-7">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="7298274989-8">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="7298274989-9">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7298274989-10">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="7298274989-10">}</span><span class="w">
-</span><span class="p" data-group-id="7298274989-2">]</span><span class="p" data-group-id="7298274989-1">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4822352308-1">(</span><span class="p" data-group-id="4822352308-2">[</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="4822352308-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4822352308-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="4822352308-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="4822352308-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="4822352308-7">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="4822352308-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="4822352308-9">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4822352308-10">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="4822352308-10">}</span><span class="w">
+</span><span class="p" data-group-id="4822352308-2">]</span><span class="p" data-group-id="4822352308-1">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">introduction</p>
   </a>
@@ -137,26 +137,26 @@ <h1>
   Data loading
 </h2>
 <p>An autoencoder learns to recreate data it's seen in the dataset. For this notebook, we're going to try something simple: generating images of digits using the MNIST digit recognition dataset.</p><p>Following along with the <a href="fashionmnist_autoencoder.html">Fashion MNIST Autoencoder example</a>, we'll use <a href="https://github.com/elixir-nx/scidata">Scidata</a> to download the MNIST dataset and then preprocess the data.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># We&#39;re not going to use the labels so we&#39;ll ignore them</span><span class="w">
-</span><span class="p" data-group-id="9679253814-1">{</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="9679253814-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="9679253814-2">(</span><span class="p" data-group-id="9679253814-2">)</span><span class="w">
-</span><span class="p" data-group-id="9679253814-3">{</span><span class="n">train_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="9679253814-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span></code></pre><p>The <code class="inline">shape</code> tells us we have 60,000 images with a single channel of size 28x28.</p><p>According to <a href="http://yann.lecun.com/exdb/mnist/">the MNIST website</a>:</p><blockquote><p>Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).</p></blockquote><p>Let's preprocess and normalize the data accordingly.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="p" data-group-id="4235885874-1">{</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="4235885874-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="4235885874-2">(</span><span class="p" data-group-id="4235885874-2">)</span><span class="w">
+</span><span class="p" data-group-id="4235885874-3">{</span><span class="n">train_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="4235885874-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span></code></pre><p>The <code class="inline">shape</code> tells us we have 60,000 images with a single channel of size 28x28.</p><p>According to <a href="http://yann.lecun.com/exdb/mnist/">the MNIST website</a>:</p><blockquote><p>Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).</p></blockquote><p>Let's preprocess and normalize the data accordingly.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_images_binary</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="2523178375-1">(</span><span class="n">type</span><span class="p" data-group-id="2523178375-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="8238859860-1">(</span><span class="n">type</span><span class="p" data-group-id="8238859860-1">)</span><span class="w">
   </span><span class="c1"># Since pixels are organized row-wise, reshape into rows x columns</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2523178375-2">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2523178375-3">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="2523178375-3">]</span><span class="p" data-group-id="2523178375-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="8238859860-2">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8238859860-3">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="8238859860-3">]</span><span class="p" data-group-id="8238859860-2">)</span><span class="w">
   </span><span class="c1"># Normalize the pixel values to be between 0 and 1</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="2523178375-4">(</span><span class="mi">255</span><span class="p" data-group-id="2523178375-4">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># Make sure they look like numbers</span><span class="w">
-</span><span class="n">train_images</span><span class="p" data-group-id="7096928811-1">[</span><span class="p" data-group-id="7096928811-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="7096928811-2">]</span><span class="p" data-group-id="7096928811-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="7096928811-3">(</span><span class="p" data-group-id="7096928811-3">)</span></code></pre><p>That looks right! Let's repeat the process for the test set.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5326563358-1">{</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="5326563358-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="5326563358-2">(</span><span class="p" data-group-id="5326563358-2">)</span><span class="w">
-</span><span class="p" data-group-id="5326563358-3">{</span><span class="n">test_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="5326563358-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="8238859860-4">(</span><span class="mi">255</span><span class="p" data-group-id="8238859860-4">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># Make sure they look like numbers</span><span class="w">
+</span><span class="n">train_images</span><span class="p" data-group-id="9767858291-1">[</span><span class="p" data-group-id="9767858291-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="9767858291-2">]</span><span class="p" data-group-id="9767858291-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="9767858291-3">(</span><span class="p" data-group-id="9767858291-3">)</span></code></pre><p>That looks right! Let's repeat the process for the test set.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3212249966-1">{</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="3212249966-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="3212249966-2">(</span><span class="p" data-group-id="3212249966-2">)</span><span class="w">
+</span><span class="p" data-group-id="3212249966-3">{</span><span class="n">test_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="3212249966-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="w">
 
 </span><span class="n">test_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_images_binary</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="5326563358-4">(</span><span class="n">type</span><span class="p" data-group-id="5326563358-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="3212249966-4">(</span><span class="n">type</span><span class="p" data-group-id="3212249966-4">)</span><span class="w">
   </span><span class="c1"># Since pixels are organized row-wise, reshape into rows x columns</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5326563358-5">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5326563358-6">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5326563358-6">]</span><span class="p" data-group-id="5326563358-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="3212249966-5">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3212249966-6">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="3212249966-6">]</span><span class="p" data-group-id="3212249966-5">)</span><span class="w">
   </span><span class="c1"># Normalize the pixel values to be between 0 and 1</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5326563358-7">(</span><span class="mi">255</span><span class="p" data-group-id="5326563358-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="3212249966-7">(</span><span class="mi">255</span><span class="p" data-group-id="3212249966-7">)</span><span class="w">
 
-</span><span class="n">test_images</span><span class="p" data-group-id="5326563358-8">[</span><span class="p" data-group-id="5326563358-9">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="5326563358-9">]</span><span class="p" data-group-id="5326563358-8">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="5326563358-10">(</span><span class="p" data-group-id="5326563358-10">)</span></code></pre><h2 id="building-the-model" class="section-heading">
+</span><span class="n">test_images</span><span class="p" data-group-id="3212249966-8">[</span><span class="p" data-group-id="3212249966-9">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="3212249966-9">]</span><span class="p" data-group-id="3212249966-8">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="3212249966-10">(</span><span class="p" data-group-id="3212249966-10">)</span></code></pre><h2 id="building-the-model" class="section-heading">
   <a href="#building-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">building-the-model</p>
   </a>
@@ -169,79 +169,79 @@ <h1>
   The model
 </h3>
 <pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1439224262-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1439224262-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1439224262-2">}</span><span class="p" data-group-id="1439224262-1">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5354141872-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5354141872-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5354141872-2">}</span><span class="p" data-group-id="5354141872-1">)</span><span class="w">
   </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="1439224262-3">(</span><span class="p" data-group-id="1439224262-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="5354141872-3">(</span><span class="p" data-group-id="5354141872-3">)</span><span class="w">
   </span><span class="c1"># The encoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1439224262-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1439224262-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1439224262-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5354141872-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5354141872-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5354141872-6">)</span><span class="w">
   </span><span class="c1"># Bottleneck layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1439224262-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5354141872-7">)</span><span class="w">
   </span><span class="c1"># The decoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1439224262-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1439224262-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1439224262-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1439224262-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="1439224262-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5354141872-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5354141872-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5354141872-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5354141872-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="5354141872-11">)</span><span class="w">
   </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1439224262-12">(</span><span class="p" data-group-id="1439224262-13">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1439224262-13">}</span><span class="p" data-group-id="1439224262-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5354141872-12">(</span><span class="p" data-group-id="5354141872-13">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5354141872-13">}</span><span class="p" data-group-id="5354141872-12">)</span><span class="w">
 
 </span><span class="c1"># We can use Axon.Display to show us what each of the layers would look like</span><span class="w">
 </span><span class="c1"># assuming we send in a batch of 4 images</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="1439224262-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1439224262-15">(</span><span class="p" data-group-id="1439224262-16">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1439224262-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1439224262-15">)</span><span class="p" data-group-id="1439224262-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="1439224262-17">(</span><span class="p" data-group-id="1439224262-17">)</span></code></pre><p>Checking our understanding, since the layers are all dense layers, the number of parameters should be <code class="inline">input_features * output_features</code> parameters for the weights + <code class="inline">output_features</code> parameters for the biases for each layer.</p><p>This should match the <code class="inline">Total Parameters</code> output from Axon.Display (486298 parameters)</p><pre><code class="makeup elixir" translate="no"><span class="c1"># encoder</span><span class="w">
-</span><span class="n">encoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2738713631-1">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="2738713631-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2738713631-2">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="2738713631-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2738713631-3">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="2738713631-3">)</span><span class="w">
-</span><span class="n">decoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2738713631-4">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="2738713631-4">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2738713631-5">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="p" data-group-id="2738713631-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2738713631-6">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="2738713631-6">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="5354141872-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5354141872-15">(</span><span class="p" data-group-id="5354141872-16">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5354141872-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5354141872-15">)</span><span class="p" data-group-id="5354141872-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5354141872-17">(</span><span class="p" data-group-id="5354141872-17">)</span></code></pre><p>Checking our understanding, since the layers are all dense layers, the number of parameters should be <code class="inline">input_features * output_features</code> parameters for the weights + <code class="inline">output_features</code> parameters for the biases for each layer.</p><p>This should match the <code class="inline">Total Parameters</code> output from Axon.Display (486298 parameters)</p><pre><code class="makeup elixir" translate="no"><span class="c1"># encoder</span><span class="w">
+</span><span class="n">encoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2321091770-1">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="2321091770-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2321091770-2">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="2321091770-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2321091770-3">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="2321091770-3">)</span><span class="w">
+</span><span class="n">decoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2321091770-4">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="2321091770-4">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2321091770-5">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="p" data-group-id="2321091770-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="2321091770-6">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="2321091770-6">)</span><span class="w">
 </span><span class="n">total_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder_parameters</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">decoder_parameters</span></code></pre><h3 id="training" class="section-heading">
   <a href="#training" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training</p>
   </a>
   Training
 </h3>
-<p>With the model set up, we can now try to train the model. We'll use MSE loss to compare our reconstruction with the original</p><p>We'll create the training input by turning our image list into batches of size 128 and then using the same image as both the input and the target. However, the input image will have noise added to it that the autoencoder will have to remove.</p><p>For validation data, we'll use the test set and look at how the autoencoder does at reconstructing the test set to make sure we're not overfitting</p><p>The function below adds some noise to the image by adding the image with gaussian noise scaled by a noise factor. We then have to make sure the pixel values are still within the 0..1.0 range.</p><p>We have to define this function using <code class="inline">defn</code> so that <a href="https://hexdocs.pm/nx/0.5.1/Nx.html"><code class="inline">Nx</code></a> can optimize it. If we don't do this, adding noise will take a really long time, making our training loop very slow. See <a href="https://hexdocs.pm/nx/Nx.Defn.html">Nx.defn</a> for more details. <code class="inline">defn</code> can only be used in a module so we'll define a little module to contain it.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Noiser</span><span class="w"> </span><span class="k" data-group-id="3073555406-1">do</span><span class="w">
+<p>With the model set up, we can now try to train the model. We'll use MSE loss to compare our reconstruction with the original</p><p>We'll create the training input by turning our image list into batches of size 128 and then using the same image as both the input and the target. However, the input image will have noise added to it that the autoencoder will have to remove.</p><p>For validation data, we'll use the test set and look at how the autoencoder does at reconstructing the test set to make sure we're not overfitting</p><p>The function below adds some noise to the image by adding the image with gaussian noise scaled by a noise factor. We then have to make sure the pixel values are still within the 0..1.0 range.</p><p>We have to define this function using <code class="inline">defn</code> so that <a href="https://hexdocs.pm/nx/0.5.1/Nx.html"><code class="inline">Nx</code></a> can optimize it. If we don't do this, adding noise will take a really long time, making our training loop very slow. See <a href="https://hexdocs.pm/nx/Nx.Defn.html">Nx.defn</a> for more details. <code class="inline">defn</code> can only be used in a module so we'll define a little module to contain it.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Noiser</span><span class="w"> </span><span class="k" data-group-id="7688922152-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
   </span><span class="na">@noise_factor</span><span class="w"> </span><span class="mf">0.4</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">add_noise</span><span class="p" data-group-id="3073555406-2">(</span><span class="n">images</span><span class="p" data-group-id="3073555406-2">)</span><span class="w"> </span><span class="k" data-group-id="3073555406-3">do</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">add_noise</span><span class="p" data-group-id="7688922152-2">(</span><span class="n">images</span><span class="p" data-group-id="7688922152-2">)</span><span class="w"> </span><span class="k" data-group-id="7688922152-3">do</span><span class="w">
     </span><span class="na">@noise_factor</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3073555406-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="3073555406-5">(</span><span class="n">images</span><span class="p" data-group-id="3073555406-5">)</span><span class="p" data-group-id="3073555406-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="3073555406-6">(</span><span class="n">images</span><span class="p" data-group-id="3073555406-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">clip</span><span class="p" data-group-id="3073555406-7">(</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="3073555406-7">)</span><span class="w">
-  </span><span class="k" data-group-id="3073555406-3">end</span><span class="w">
-</span><span class="k" data-group-id="3073555406-1">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="7688922152-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="7688922152-5">(</span><span class="n">images</span><span class="p" data-group-id="7688922152-5">)</span><span class="p" data-group-id="7688922152-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="7688922152-6">(</span><span class="n">images</span><span class="p" data-group-id="7688922152-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">clip</span><span class="p" data-group-id="7688922152-7">(</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7688922152-7">)</span><span class="w">
+  </span><span class="k" data-group-id="7688922152-3">end</span><span class="w">
+</span><span class="k" data-group-id="7688922152-1">end</span><span class="w">
 
-</span><span class="n">add_noise</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="3073555406-8">(</span><span class="o">&amp;</span><span class="nc">Noiser</span><span class="o">.</span><span class="n">add_noise</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3073555406-8">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
+</span><span class="n">add_noise</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="7688922152-8">(</span><span class="o">&amp;</span><span class="nc">Noiser</span><span class="o">.</span><span class="n">add_noise</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7688922152-8">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
 
 </span><span class="c1"># The original image which is the target the network will trying to match</span><span class="w">
 </span><span class="n">batched_train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="1689134919-1">(</span><span class="n">batch_size</span><span class="p" data-group-id="1689134919-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="3047319760-1">(</span><span class="n">batch_size</span><span class="p" data-group-id="3047319760-1">)</span><span class="w">
 
 </span><span class="n">batched_noisy_train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="1689134919-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="1689134919-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="3047319760-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="3047319760-2">)</span><span class="w">
   </span><span class="c1"># goes after to_batched so the noise is different every time</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="1689134919-3">(</span><span class="n">add_noise</span><span class="p" data-group-id="1689134919-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="3047319760-3">(</span><span class="n">add_noise</span><span class="p" data-group-id="3047319760-3">)</span><span class="w">
 
 </span><span class="c1"># The noisy image is the input to the network</span><span class="w">
 </span><span class="c1"># and the original image is the target it&#39;s trying to match</span><span class="w">
-</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="1689134919-4">(</span><span class="n">batched_noisy_train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_images</span><span class="p" data-group-id="1689134919-4">)</span><span class="w">
+</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="3047319760-4">(</span><span class="n">batched_noisy_train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_images</span><span class="p" data-group-id="3047319760-4">)</span><span class="w">
 
 </span><span class="n">batched_test_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="1689134919-5">(</span><span class="n">batch_size</span><span class="p" data-group-id="1689134919-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="3047319760-5">(</span><span class="n">batch_size</span><span class="p" data-group-id="3047319760-5">)</span><span class="w">
 
 </span><span class="n">batched_noisy_test_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="1689134919-6">(</span><span class="n">batch_size</span><span class="p" data-group-id="1689134919-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="1689134919-7">(</span><span class="n">add_noise</span><span class="p" data-group-id="1689134919-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="3047319760-6">(</span><span class="n">batch_size</span><span class="p" data-group-id="3047319760-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="3047319760-7">(</span><span class="n">add_noise</span><span class="p" data-group-id="3047319760-7">)</span><span class="w">
 
-</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="1689134919-8">(</span><span class="n">batched_noisy_test_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_images</span><span class="p" data-group-id="1689134919-8">)</span></code></pre><p>Let's see what an element of the input and target look like</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3958508821-1">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="3958508821-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="3958508821-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3958508821-2">)</span><span class="w">
-</span><span class="p" data-group-id="3958508821-3">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="3958508821-4">(</span><span class="n">input_batch</span><span class="p" data-group-id="3958508821-5">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3958508821-5">]</span><span class="p" data-group-id="3958508821-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="3958508821-6">(</span><span class="n">target_batch</span><span class="p" data-group-id="3958508821-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3958508821-7">]</span><span class="p" data-group-id="3958508821-6">)</span><span class="p" data-group-id="3958508821-3">}</span></code></pre><p>Looks right (and tricky). Let's see how the model does.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="3047319760-8">(</span><span class="n">batched_noisy_test_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_images</span><span class="p" data-group-id="3047319760-8">)</span></code></pre><p>Let's see what an element of the input and target look like</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8717412538-1">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="8717412538-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="8717412538-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8717412538-2">)</span><span class="w">
+</span><span class="p" data-group-id="8717412538-3">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="8717412538-4">(</span><span class="n">input_batch</span><span class="p" data-group-id="8717412538-5">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8717412538-5">]</span><span class="p" data-group-id="8717412538-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="8717412538-6">(</span><span class="n">target_batch</span><span class="p" data-group-id="8717412538-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8717412538-7">]</span><span class="p" data-group-id="8717412538-6">)</span><span class="p" data-group-id="8717412538-3">}</span></code></pre><p>Looks right (and tricky). Let's see how the model does.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3654200043-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="3654200043-2">(</span><span class="mf">0.001</span><span class="p" data-group-id="3654200043-2">)</span><span class="p" data-group-id="3654200043-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="3654200043-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="3654200043-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3654200043-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3654200043-5">%{</span><span class="p" data-group-id="3654200043-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3654200043-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2071301690-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="2071301690-2">(</span><span class="mf">0.001</span><span class="p" data-group-id="2071301690-2">)</span><span class="p" data-group-id="2071301690-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="2071301690-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="2071301690-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2071301690-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2071301690-5">%{</span><span class="p" data-group-id="2071301690-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2071301690-4">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>Now that we have a model that theoretically has learned <em>something</em>, we'll see what it's learned by running it on some images from the test set. We'll use Kino to allow us to select the image from the test set to run the model against. To avoid losing the params that took a while to train, we'll create another branch so we can experiment with the params and stop execution when needed without having to retrain.</p><h2 id="evaluation" class="section-heading">
   <a href="#evaluation" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -250,70 +250,70 @@ <h1>
   Evaluation
 </h2>
 <p><strong>A note on branching</strong></p><p>By default, everything in Livebook runs sequentially in a single process. Stopping a running cell aborts that process and consequently all its state is lost. A <strong>branching section</strong> copies everything from its parent and runs in a separate process. Thanks to this <strong>isolation</strong>, when we stop a cell in a branching section, only the state within that section is gone.</p><p>Since we just spent a bunch of time training the model and don't want to lose that memory state as we continue to experiment, we create a branching section. This does add some memory overhead, but it's worth it so we can experiment without fear!</p><p>To use <a href="https://hexdocs.pm/kino/0.9.0/Kino.html"><code class="inline">Kino</code></a> to give us an interactive tool to evaluate the model, we'll create a <a href="https://hexdocs.pm/kino/0.9.0/Kino.Frame.html"><code class="inline">Kino.Frame</code></a> that we can dynamically update. We'll also create a form using <a href="https://hexdocs.pm/kino/0.9.0/Kino.Control.html"><code class="inline">Kino.Control</code></a> to allow the user to select which image from the test set they'd like to evaluate the model on. Finally <code class="inline">Kino.Control.stream</code> enables us to respond to changes in the user's selection when the user clicks the &quot;Render&quot; button.</p><p>We can use <code class="inline">Nx.concatenate</code> to stack the images side by side for a prettier output.</p><pre><code class="makeup elixir" translate="no"><span class="n">form</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">form</span><span class="p" data-group-id="4963831213-1">(</span><span class="w">
-    </span><span class="p" data-group-id="4963831213-2">[</span><span class="w">
-      </span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">number</span><span class="p" data-group-id="4963831213-3">(</span><span class="s">&quot;Test Image Index&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">default</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4963831213-3">)</span><span class="w">
-    </span><span class="p" data-group-id="4963831213-2">]</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">form</span><span class="p" data-group-id="6432390828-1">(</span><span class="w">
+    </span><span class="p" data-group-id="6432390828-2">[</span><span class="w">
+      </span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">number</span><span class="p" data-group-id="6432390828-3">(</span><span class="s">&quot;Test Image Index&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">default</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6432390828-3">)</span><span class="w">
+    </span><span class="p" data-group-id="6432390828-2">]</span><span class="p">,</span><span class="w">
     </span><span class="ss">submit</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Render&quot;</span><span class="w">
-  </span><span class="p" data-group-id="4963831213-1">)</span><span class="w">
+  </span><span class="p" data-group-id="6432390828-1">)</span><span class="w">
 
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4963831213-4">(</span><span class="n">form</span><span class="p" data-group-id="4963831213-4">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6432390828-4">(</span><span class="n">form</span><span class="p" data-group-id="6432390828-4">)</span><span class="w">
 
 </span><span class="n">form</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="4963831213-5">(</span><span class="p" data-group-id="4963831213-5">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="4963831213-6">(</span><span class="k" data-group-id="4963831213-7">fn</span><span class="w"> </span><span class="p" data-group-id="4963831213-8">%{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4963831213-9">%{</span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4963831213-9">}</span><span class="p" data-group-id="4963831213-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="4963831213-10">[</span><span class="p" data-group-id="4963831213-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4963831213-11">]</span><span class="p" data-group-id="4963831213-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="4963831213-12">(</span><span class="p" data-group-id="4963831213-12">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="6432390828-5">(</span><span class="p" data-group-id="6432390828-5">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="6432390828-6">(</span><span class="k" data-group-id="6432390828-7">fn</span><span class="w"> </span><span class="p" data-group-id="6432390828-8">%{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6432390828-9">%{</span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="6432390828-9">}</span><span class="p" data-group-id="6432390828-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="6432390828-10">[</span><span class="p" data-group-id="6432390828-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="6432390828-11">]</span><span class="p" data-group-id="6432390828-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="6432390828-12">(</span><span class="p" data-group-id="6432390828-12">)</span><span class="w">
 
   </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w">
     </span><span class="n">model</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4963831213-13">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="4963831213-13">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6432390828-13">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="6432390828-13">)</span><span class="w">
     </span><span class="c1"># Get rid of the batch dimension</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="4963831213-14">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4963831213-15">[</span><span class="mi">0</span><span class="p" data-group-id="4963831213-15">]</span><span class="p" data-group-id="4963831213-14">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="6432390828-14">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6432390828-15">[</span><span class="mi">0</span><span class="p" data-group-id="6432390828-15">]</span><span class="p" data-group-id="6432390828-14">)</span><span class="w">
 
-  </span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="4963831213-16">(</span><span class="p" data-group-id="4963831213-17">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="4963831213-17">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="4963831213-16">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="4963831213-18">(</span><span class="n">combined_image</span><span class="p" data-group-id="4963831213-18">)</span><span class="w">
-</span><span class="k" data-group-id="4963831213-7">end</span><span class="p" data-group-id="4963831213-6">)</span></code></pre><p>That looks pretty good!</p><p>Note we used <a href="https://hexdocs.pm/kino/0.9.0/Kino.html#animate/2"><code class="inline">Kino.animate/2</code></a> which runs asynchronously so we don't block execution of the rest of the notebook.</p><h2 id="a-better-training-loop" class="section-heading">
+  </span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="6432390828-16">(</span><span class="p" data-group-id="6432390828-17">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="6432390828-17">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="6432390828-16">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6432390828-18">(</span><span class="n">combined_image</span><span class="p" data-group-id="6432390828-18">)</span><span class="w">
+</span><span class="k" data-group-id="6432390828-7">end</span><span class="p" data-group-id="6432390828-6">)</span></code></pre><p>That looks pretty good!</p><p>Note we used <a href="https://hexdocs.pm/kino/0.9.0/Kino.html#animate/2"><code class="inline">Kino.animate/2</code></a> which runs asynchronously so we don't block execution of the rest of the notebook.</p><h2 id="a-better-training-loop" class="section-heading">
   <a href="#a-better-training-loop" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">a-better-training-loop</p>
   </a>
   A better training loop
 </h2>
 <p><em>Note that we branch from the &quot;Building a model&quot; section since we only need the model definition for this section and not the previously trained model.</em></p><p>It'd be nice to see how the model improves as it trains. In this section (also a branch since I plan to experiment and don't want to lose the execution state) we'll improve the training loop to use <a href="https://hexdocs.pm/kino/0.9.0/Kino.html"><code class="inline">Kino</code></a> to show us how it's doing.</p><p><a href="https://hexdocs.pm/axon/Axon.Loop.html#handle/4">Axon.Loop.handle</a> gives us a hook into various points of the training loop. We'll can use it with the <code class="inline">:iteration_completed</code> event to get a copy of the state of the params after some number of completed iterations of the training loop. By using those params to render an image in the test set, we can get a live view of the autoencoder learning to reconstruct its inputs.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
-</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4661276740-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="4661276740-2">[</span><span class="p" data-group-id="4661276740-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4661276740-3">]</span><span class="p" data-group-id="4661276740-2">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="4661276740-4">(</span><span class="p" data-group-id="4661276740-4">)</span><span class="w">
-  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4661276740-5">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="4661276740-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="4661276740-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4661276740-7">[</span><span class="mi">0</span><span class="p" data-group-id="4661276740-7">]</span><span class="p" data-group-id="4661276740-6">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="4661276740-8">(</span><span class="p" data-group-id="4661276740-9">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="4661276740-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="4661276740-8">)</span><span class="w">
-</span><span class="k" data-group-id="4661276740-1">end</span><span class="w">
+</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5904708293-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5904708293-2">[</span><span class="p" data-group-id="5904708293-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="5904708293-3">]</span><span class="p" data-group-id="5904708293-2">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="5904708293-4">(</span><span class="p" data-group-id="5904708293-4">)</span><span class="w">
+  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5904708293-5">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="5904708293-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="5904708293-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5904708293-7">[</span><span class="mi">0</span><span class="p" data-group-id="5904708293-7">]</span><span class="p" data-group-id="5904708293-6">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="5904708293-8">(</span><span class="p" data-group-id="5904708293-9">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="5904708293-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5904708293-8">)</span><span class="w">
+</span><span class="k" data-group-id="5904708293-1">end</span><span class="w">
 
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="4661276740-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="4661276740-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4661276740-11">)</span><span class="p" data-group-id="4661276740-10">)</span></code></pre><p>It'd also be nice to have a prettier version of the output. Let's convert the heatmap to a png to make that happen.</p><pre><code class="makeup elixir" translate="no"><span class="n">image_to_kino</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6808445649-1">fn</span><span class="w"> </span><span class="n">image</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="5904708293-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="5904708293-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5904708293-11">)</span><span class="p" data-group-id="5904708293-10">)</span></code></pre><p>It'd also be nice to have a prettier version of the output. Let's convert the heatmap to a png to make that happen.</p><pre><code class="makeup elixir" translate="no"><span class="n">image_to_kino</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="0620056230-1">fn</span><span class="w"> </span><span class="n">image</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6808445649-2">(</span><span class="mi">255</span><span class="p" data-group-id="6808445649-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="6808445649-3">(</span><span class="ss">:u8</span><span class="p" data-group-id="6808445649-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="6808445649-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6808445649-5">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="6808445649-5">]</span><span class="p" data-group-id="6808445649-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="6808445649-6">(</span><span class="p" data-group-id="6808445649-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="6808445649-7">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="6808445649-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="6808445649-8">(</span><span class="ss">:png</span><span class="p" data-group-id="6808445649-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6808445649-9">(</span><span class="ss">:png</span><span class="p" data-group-id="6808445649-9">)</span><span class="w">
-</span><span class="k" data-group-id="6808445649-1">end</span><span class="w">
-
-</span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="6808445649-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="6808445649-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6808445649-11">)</span><span class="p" data-group-id="6808445649-10">)</span></code></pre><p>Much nicer!</p><p>Once again we'll use <a href="https://hexdocs.pm/kino/0.9.0/Kino.Frame.html"><code class="inline">Kino.Frame</code></a> for dynamically updating output:</p><pre><code class="makeup elixir" translate="no"><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="4876745109-1">(</span><span class="p" data-group-id="4876745109-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4876745109-2">(</span><span class="p" data-group-id="4876745109-2">)</span><span class="w">
-
-</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4876745109-3">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="4876745109-4">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="4876745109-5">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="4876745109-5">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="4876745109-6">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="4876745109-6">}</span><span class="s">&quot;</span><span class="p" data-group-id="4876745109-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="0620056230-2">(</span><span class="mi">255</span><span class="p" data-group-id="0620056230-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="0620056230-3">(</span><span class="ss">:u8</span><span class="p" data-group-id="0620056230-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="0620056230-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0620056230-5">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="0620056230-5">]</span><span class="p" data-group-id="0620056230-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="0620056230-6">(</span><span class="p" data-group-id="0620056230-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="0620056230-7">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="0620056230-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="0620056230-8">(</span><span class="ss">:png</span><span class="p" data-group-id="0620056230-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0620056230-9">(</span><span class="ss">:png</span><span class="p" data-group-id="0620056230-9">)</span><span class="w">
+</span><span class="k" data-group-id="0620056230-1">end</span><span class="w">
+
+</span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="0620056230-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="0620056230-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0620056230-11">)</span><span class="p" data-group-id="0620056230-10">)</span></code></pre><p>Much nicer!</p><p>Once again we'll use <a href="https://hexdocs.pm/kino/0.9.0/Kino.Frame.html"><code class="inline">Kino.Frame</code></a> for dynamically updating output:</p><pre><code class="makeup elixir" translate="no"><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="7909950481-1">(</span><span class="p" data-group-id="7909950481-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="7909950481-2">(</span><span class="p" data-group-id="7909950481-2">)</span><span class="w">
+
+</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7909950481-3">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="7909950481-4">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="7909950481-5">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="7909950481-5">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="7909950481-6">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="7909950481-6">}</span><span class="s">&quot;</span><span class="p" data-group-id="7909950481-4">)</span><span class="w">
   </span><span class="c1"># state.step_state[:model_state] contains the model params when this event is fired</span><span class="w">
-  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="4876745109-7">[</span><span class="ss">:model_state</span><span class="p" data-group-id="4876745109-7">]</span><span class="w">
-  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="4876745109-8">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="4876745109-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="4876745109-10">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="4876745109-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4876745109-9">)</span><span class="p" data-group-id="4876745109-8">)</span><span class="w">
-  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="4876745109-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4876745109-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="4876745109-12">(</span><span class="p" data-group-id="4876745109-12">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="4876745109-13">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="4876745109-13">)</span><span class="w">
-  </span><span class="p" data-group-id="4876745109-14">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="4876745109-14">}</span><span class="w">
-</span><span class="k" data-group-id="4876745109-3">end</span><span class="w">
+  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="7909950481-7">[</span><span class="ss">:model_state</span><span class="p" data-group-id="7909950481-7">]</span><span class="w">
+  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="7909950481-8">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="7909950481-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="7909950481-10">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="7909950481-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7909950481-9">)</span><span class="p" data-group-id="7909950481-8">)</span><span class="w">
+  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="7909950481-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="7909950481-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="7909950481-12">(</span><span class="p" data-group-id="7909950481-12">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="7909950481-13">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="7909950481-13">)</span><span class="w">
+  </span><span class="p" data-group-id="7909950481-14">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7909950481-14">}</span><span class="w">
+</span><span class="k" data-group-id="7909950481-3">end</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4876745109-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="4876745109-16">(</span><span class="mf">0.001</span><span class="p" data-group-id="4876745109-16">)</span><span class="p" data-group-id="4876745109-15">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="4876745109-17">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="4876745109-17">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="4876745109-18">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="4876745109-18">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4876745109-19">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4876745109-20">%{</span><span class="p" data-group-id="4876745109-20">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4876745109-19">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7909950481-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="7909950481-16">(</span><span class="mf">0.001</span><span class="p" data-group-id="7909950481-16">)</span><span class="p" data-group-id="7909950481-15">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="7909950481-17">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="7909950481-17">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="7909950481-18">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="7909950481-18">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7909950481-19">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7909950481-20">%{</span><span class="p" data-group-id="7909950481-20">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7909950481-19">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>Awesome! We have a working denoising autoencoder that we can visualize getting better in 20 epochs!</p>
 <div class="bottom-actions">
diff --git a/model_hooks.html b/model_hooks.html
index 491459b1..934b9d0b 100644
--- a/model_hooks.html
+++ b/model_hooks.html
@@ -115,304 +115,304 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0734138639-1">(</span><span class="p" data-group-id="0734138639-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0734138639-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="0734138639-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0734138639-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0734138639-4">}</span><span class="w">
-</span><span class="p" data-group-id="0734138639-2">]</span><span class="p" data-group-id="0734138639-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-models-with-hooks" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8455523105-1">(</span><span class="p" data-group-id="8455523105-2">[</span><span class="w">
+  </span><span class="p" data-group-id="8455523105-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="8455523105-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8455523105-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8455523105-4">}</span><span class="w">
+</span><span class="p" data-group-id="8455523105-2">]</span><span class="p" data-group-id="8455523105-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-models-with-hooks" class="section-heading">
   <a href="#creating-models-with-hooks" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-models-with-hooks</p>
   </a>
   Creating models with hooks
 </h2>
 <p>Sometimes it's useful to inspect or visualize the values of intermediate layers in your model during the forward or backward pass. For example, it's common to visualize the gradients of activation functions to ensure your model is learning in a stable manner. Axon supports this functionality via model hooks.</p><p>Model hooks are a means of unidirectional communication with an executing model. Hooks are unidirectional in the sense that you can only <strong>receive</strong> information from your model, and not send information back.</p><p>Hooks are attached per-layer and can execute at 4 different points in model execution: on the pre-forward, forward, or backward pass of the model or during model initialization. You can also configure the same hook to execute on all 3 events. You can attach hooks to models using <a href="Axon.html#attach_hook/3"><code class="inline">Axon.attach_hook/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4349733659-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4349733659-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4349733659-2">(</span><span class="mi">8</span><span class="p" data-group-id="4349733659-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="4349733659-3">(</span><span class="k" data-group-id="4349733659-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="4349733659-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_forward</span><span class="p" data-group-id="4349733659-5">)</span><span class="w"> </span><span class="k" data-group-id="4349733659-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="4349733659-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="4349733659-6">(</span><span class="k" data-group-id="4349733659-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="4349733659-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_init</span><span class="p" data-group-id="4349733659-8">)</span><span class="w"> </span><span class="k" data-group-id="4349733659-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:initialize</span><span class="p" data-group-id="4349733659-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4349733659-9">(</span><span class="p" data-group-id="4349733659-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="4349733659-10">(</span><span class="k" data-group-id="4349733659-11">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="4349733659-12">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="4349733659-12">)</span><span class="w"> </span><span class="k" data-group-id="4349733659-11">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="4349733659-10">)</span><span class="w">
-
-</span><span class="p" data-group-id="4349733659-13">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4349733659-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4349733659-14">(</span><span class="n">model</span><span class="p" data-group-id="4349733659-14">)</span><span class="w">
-
-</span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4349733659-15">(</span><span class="p" data-group-id="4349733659-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="4349733659-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4349733659-15">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4349733659-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4349733659-18">%{</span><span class="p" data-group-id="4349733659-18">}</span><span class="p" data-group-id="4349733659-17">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">dense_init</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2363809034-1">%{</span><span class="w">
-  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2363809034-2">#</span><span class="nc" data-group-id="2363809034-2">Nx.Tensor</span><span class="p" data-group-id="2363809034-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="2363809034-3">[</span><span class="mi">8</span><span class="p" data-group-id="2363809034-3">]</span><span class="w">
-    </span><span class="p" data-group-id="2363809034-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2363809034-4">]</span><span class="w">
-  </span><span class="p" data-group-id="2363809034-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2363809034-5">#</span><span class="nc" data-group-id="2363809034-5">Nx.Tensor</span><span class="p" data-group-id="2363809034-5">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="2363809034-6">[</span><span class="mi">4</span><span class="p" data-group-id="2363809034-6">]</span><span class="p" data-group-id="2363809034-7">[</span><span class="mi">8</span><span class="p" data-group-id="2363809034-7">]</span><span class="w">
-    </span><span class="p" data-group-id="2363809034-8">[</span><span class="w">
-      </span><span class="p" data-group-id="2363809034-9">[</span><span class="o">-</span><span class="mf">0.40611347556114197</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1551232784986496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08485020697116852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6748610734939575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04797258973121643</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059523195028305054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4092640280723572</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1300794780254364</span><span class="p" data-group-id="2363809034-9">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="2363809034-10">[</span><span class="o">-</span><span class="mf">0.3551754057407379</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3159058094024658</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25394684076309204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22510826587677002</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2613920271396637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15213526785373688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15744848549365997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46065202355384827</span><span class="p" data-group-id="2363809034-10">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="2363809034-11">[</span><span class="o">-</span><span class="mf">0.5224899649620056</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3639957010746002</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19676287472248077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5423932075500488</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4722306430339813</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26447463035583496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18534891307353973</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6442952752113342</span><span class="p" data-group-id="2363809034-11">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="2363809034-12">[</span><span class="o">-</span><span class="mf">0.5629043579101562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6370815634727478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43325361609458923</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5084872245788574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1424017995595932</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4865548312664032</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5839526057243347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09811079502105713</span><span class="p" data-group-id="2363809034-12">]</span><span class="w">
-    </span><span class="p" data-group-id="2363809034-8">]</span><span class="w">
-  </span><span class="p" data-group-id="2363809034-5">&gt;</span><span class="w">
-</span><span class="p" data-group-id="2363809034-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7163275168-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7163275168-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7163275168-3">#</span><span class="nc" data-group-id="7163275168-3">Nx.Tensor</span><span class="p" data-group-id="7163275168-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7163275168-4">[</span><span class="mi">8</span><span class="p" data-group-id="7163275168-4">]</span><span class="w">
-      </span><span class="p" data-group-id="7163275168-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7163275168-5">]</span><span class="w">
-    </span><span class="p" data-group-id="7163275168-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7163275168-6">#</span><span class="nc" data-group-id="7163275168-6">Nx.Tensor</span><span class="p" data-group-id="7163275168-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7163275168-7">[</span><span class="mi">4</span><span class="p" data-group-id="7163275168-7">]</span><span class="p" data-group-id="7163275168-8">[</span><span class="mi">8</span><span class="p" data-group-id="7163275168-8">]</span><span class="w">
-      </span><span class="p" data-group-id="7163275168-9">[</span><span class="w">
-        </span><span class="p" data-group-id="7163275168-10">[</span><span class="o">-</span><span class="mf">0.40611347556114197</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1551232784986496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08485020697116852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6748610734939575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04797258973121643</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059523195028305054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4092640280723572</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1300794780254364</span><span class="p" data-group-id="7163275168-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7163275168-11">[</span><span class="o">-</span><span class="mf">0.3551754057407379</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3159058094024658</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25394684076309204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22510826587677002</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2613920271396637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15213526785373688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15744848549365997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46065202355384827</span><span class="p" data-group-id="7163275168-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7163275168-12">[</span><span class="o">-</span><span class="mf">0.5224899649620056</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3639957010746002</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19676287472248077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5423932075500488</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4722306430339813</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26447463035583496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18534891307353973</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6442952752113342</span><span class="p" data-group-id="7163275168-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7163275168-13">[</span><span class="o">-</span><span class="mf">0.5629043579101562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6370815634727478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43325361609458923</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5084872245788574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1424017995595932</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4865548312664032</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5839526057243347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09811079502105713</span><span class="p" data-group-id="7163275168-13">]</span><span class="w">
-      </span><span class="p" data-group-id="7163275168-9">]</span><span class="w">
-    </span><span class="p" data-group-id="7163275168-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7163275168-2">}</span><span class="w">
-</span><span class="p" data-group-id="7163275168-1">}</span></code></pre><p>Notice how during initialization the <code class="inline">:dense_init</code> hook fired and inspected the layer's parameters. Now when executing, you'll see outputs for <code class="inline">:dense</code> and <code class="inline">:relu</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9421309137-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="9421309137-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">dense_forward</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1494628729-1">#</span><span class="nc" data-group-id="1494628729-1">Nx.Tensor</span><span class="p" data-group-id="1494628729-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1494628729-2">[</span><span class="mi">2</span><span class="p" data-group-id="1494628729-2">]</span><span class="p" data-group-id="1494628729-3">[</span><span class="mi">8</span><span class="p" data-group-id="1494628729-3">]</span><span class="w">
-  </span><span class="p" data-group-id="1494628729-4">[</span><span class="w">
-    </span><span class="p" data-group-id="1494628729-5">[</span><span class="o">-</span><span class="mf">3.0888683795928955</span><span class="p">,</span><span class="w"> </span><span class="mf">2.955142021179199</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4393397569656372</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8353562355041504</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.1102746725082397</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8364784717559814</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.538608431816101</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.454910159111023</span><span class="p" data-group-id="1494628729-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1494628729-6">[</span><span class="o">-</span><span class="mf">10.475601196289062</span><span class="p">,</span><span class="w"> </span><span class="mf">7.602581024169922</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.604217529296875</span><span class="p">,</span><span class="w"> </span><span class="mf">5.239866733551025</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.331346035003662</span><span class="p">,</span><span class="w"> </span><span class="mf">3.993962526321411</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.125761032104492</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.961938381195068</span><span class="p" data-group-id="1494628729-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1494628729-4">]</span><span class="w">
-</span><span class="p" data-group-id="1494628729-1">&gt;</span><span class="w">
-</span><span class="ss">relu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1494628729-7">#</span><span class="nc" data-group-id="1494628729-7">Nx.Tensor</span><span class="p" data-group-id="1494628729-7">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1494628729-8">[</span><span class="mi">2</span><span class="p" data-group-id="1494628729-8">]</span><span class="p" data-group-id="1494628729-9">[</span><span class="mi">8</span><span class="p" data-group-id="1494628729-9">]</span><span class="w">
-  </span><span class="p" data-group-id="1494628729-10">[</span><span class="w">
-    </span><span class="p" data-group-id="1494628729-11">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.955142021179199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8353562355041504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8364784717559814</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1494628729-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1494628729-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.602581024169922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.239866733551025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.993962526321411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1494628729-12">]</span><span class="w">
-  </span><span class="p" data-group-id="1494628729-10">]</span><span class="w">
-</span><span class="p" data-group-id="1494628729-7">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9247049361-1">#</span><span class="nc" data-group-id="9247049361-1">Nx.Tensor</span><span class="p" data-group-id="9247049361-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9247049361-2">[</span><span class="mi">2</span><span class="p" data-group-id="9247049361-2">]</span><span class="p" data-group-id="9247049361-3">[</span><span class="mi">8</span><span class="p" data-group-id="9247049361-3">]</span><span class="w">
-  </span><span class="p" data-group-id="9247049361-4">[</span><span class="w">
-    </span><span class="p" data-group-id="9247049361-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.955142021179199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8353562355041504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8364784717559814</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9247049361-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9247049361-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.602581024169922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.239866733551025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.993962526321411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9247049361-6">]</span><span class="w">
-  </span><span class="p" data-group-id="9247049361-4">]</span><span class="w">
-</span><span class="p" data-group-id="9247049361-1">&gt;</span></code></pre><p>It's important to note that hooks execute in the order they were attached to a layer. If you attach 2 hooks to the same layer which execute different functions on the same event, they will run in order:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8549806598-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8549806598-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8549806598-2">(</span><span class="mi">8</span><span class="p" data-group-id="8549806598-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="8549806598-3">(</span><span class="k" data-group-id="8549806598-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8549806598-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook1</span><span class="p" data-group-id="8549806598-5">)</span><span class="w"> </span><span class="k" data-group-id="8549806598-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="8549806598-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="8549806598-6">(</span><span class="k" data-group-id="8549806598-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8549806598-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook2</span><span class="p" data-group-id="8549806598-8">)</span><span class="w"> </span><span class="k" data-group-id="8549806598-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="8549806598-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8549806598-9">(</span><span class="p" data-group-id="8549806598-9">)</span><span class="w">
-
-</span><span class="p" data-group-id="8549806598-10">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8549806598-10">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8549806598-11">(</span><span class="n">model</span><span class="p" data-group-id="8549806598-11">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8549806598-12">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8549806598-13">%{</span><span class="p" data-group-id="8549806598-13">}</span><span class="p" data-group-id="8549806598-12">)</span><span class="w">
-
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8549806598-14">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8549806598-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">hook1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8931449823-1">#</span><span class="nc" data-group-id="8931449823-1">Nx.Tensor</span><span class="p" data-group-id="8931449823-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8931449823-2">[</span><span class="mi">2</span><span class="p" data-group-id="8931449823-2">]</span><span class="p" data-group-id="8931449823-3">[</span><span class="mi">8</span><span class="p" data-group-id="8931449823-3">]</span><span class="w">
-  </span><span class="p" data-group-id="8931449823-4">[</span><span class="w">
-    </span><span class="p" data-group-id="8931449823-5">[</span><span class="mf">1.3320910930633545</span><span class="p">,</span><span class="w"> </span><span class="mf">1.712153673171997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0420351028442383</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2541849613189697</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1382551193237305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.2241677045822144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5477651357650757</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2126261293888092</span><span class="p" data-group-id="8931449823-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="8931449823-6">[</span><span class="mf">2.1975531578063965</span><span class="p">,</span><span class="w"> </span><span class="mf">3.722827911376953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6301460266113281</span><span class="p">,</span><span class="w"> </span><span class="mf">5.891226768493652</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.79372787475586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9982359409332275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.589874267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5387766361236572</span><span class="p" data-group-id="8931449823-6">]</span><span class="w">
-  </span><span class="p" data-group-id="8931449823-4">]</span><span class="w">
-</span><span class="p" data-group-id="8931449823-1">&gt;</span><span class="w">
-</span><span class="ss">hook2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8931449823-7">#</span><span class="nc" data-group-id="8931449823-7">Nx.Tensor</span><span class="p" data-group-id="8931449823-7">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8931449823-8">[</span><span class="mi">2</span><span class="p" data-group-id="8931449823-8">]</span><span class="p" data-group-id="8931449823-9">[</span><span class="mi">8</span><span class="p" data-group-id="8931449823-9">]</span><span class="w">
-  </span><span class="p" data-group-id="8931449823-10">[</span><span class="w">
-    </span><span class="p" data-group-id="8931449823-11">[</span><span class="mf">1.3320910930633545</span><span class="p">,</span><span class="w"> </span><span class="mf">1.712153673171997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0420351028442383</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2541849613189697</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1382551193237305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.2241677045822144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5477651357650757</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2126261293888092</span><span class="p" data-group-id="8931449823-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="8931449823-12">[</span><span class="mf">2.1975531578063965</span><span class="p">,</span><span class="w"> </span><span class="mf">3.722827911376953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6301460266113281</span><span class="p">,</span><span class="w"> </span><span class="mf">5.891226768493652</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.79372787475586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9982359409332275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.589874267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5387766361236572</span><span class="p" data-group-id="8931449823-12">]</span><span class="w">
-  </span><span class="p" data-group-id="8931449823-10">]</span><span class="w">
-</span><span class="p" data-group-id="8931449823-7">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9617028096-1">#</span><span class="nc" data-group-id="9617028096-1">Nx.Tensor</span><span class="p" data-group-id="9617028096-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9617028096-2">[</span><span class="mi">2</span><span class="p" data-group-id="9617028096-2">]</span><span class="p" data-group-id="9617028096-3">[</span><span class="mi">8</span><span class="p" data-group-id="9617028096-3">]</span><span class="w">
-  </span><span class="p" data-group-id="9617028096-4">[</span><span class="w">
-    </span><span class="p" data-group-id="9617028096-5">[</span><span class="mf">1.3320910930633545</span><span class="p">,</span><span class="w"> </span><span class="mf">1.712153673171997</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2541849613189697</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9617028096-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9617028096-6">[</span><span class="mf">2.1975531578063965</span><span class="p">,</span><span class="w"> </span><span class="mf">3.722827911376953</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.891226768493652</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5387766361236572</span><span class="p" data-group-id="9617028096-6">]</span><span class="w">
-  </span><span class="p" data-group-id="9617028096-4">]</span><span class="w">
-</span><span class="p" data-group-id="9617028096-1">&gt;</span></code></pre><p>Notice that <code class="inline">:hook1</code> fires before <code class="inline">:hook2</code>.</p><p>You can also specify a hook to fire on all events:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4565403401-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4565403401-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4565403401-2">(</span><span class="mi">8</span><span class="p" data-group-id="4565403401-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="4565403401-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="4565403401-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4565403401-4">(</span><span class="p" data-group-id="4565403401-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4565403401-5">(</span><span class="mi">1</span><span class="p" data-group-id="4565403401-5">)</span><span class="w">
-
-</span><span class="p" data-group-id="4565403401-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4565403401-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4565403401-7">(</span><span class="n">model</span><span class="p" data-group-id="4565403401-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3061261494-1">{</span><span class="p" data-group-id="3061261494-2">#</span><span class="nc" data-group-id="3061261494-2">Function</span><span class="p" data-group-id="3061261494-2">&lt;</span><span class="mf">136.40088443</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3061261494-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="3061261494-3">#</span><span class="nc" data-group-id="3061261494-3">Function</span><span class="p" data-group-id="3061261494-3">&lt;</span><span class="mf">136.40088443</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3061261494-3">&gt;</span><span class="p" data-group-id="3061261494-1">}</span></code></pre><p>On initialization:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2886806094-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2886806094-2">%{</span><span class="p" data-group-id="2886806094-2">}</span><span class="p" data-group-id="2886806094-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9783257125-1">%{</span><span class="w">
-  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9783257125-2">#</span><span class="nc" data-group-id="9783257125-2">Nx.Tensor</span><span class="p" data-group-id="9783257125-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="9783257125-3">[</span><span class="mi">8</span><span class="p" data-group-id="9783257125-3">]</span><span class="w">
-    </span><span class="p" data-group-id="9783257125-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9783257125-4">]</span><span class="w">
-  </span><span class="p" data-group-id="9783257125-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9783257125-5">#</span><span class="nc" data-group-id="9783257125-5">Nx.Tensor</span><span class="p" data-group-id="9783257125-5">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="9783257125-6">[</span><span class="mi">4</span><span class="p" data-group-id="9783257125-6">]</span><span class="p" data-group-id="9783257125-7">[</span><span class="mi">8</span><span class="p" data-group-id="9783257125-7">]</span><span class="w">
-    </span><span class="p" data-group-id="9783257125-8">[</span><span class="w">
-      </span><span class="p" data-group-id="9783257125-9">[</span><span class="mf">0.6784419417381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.175045907497406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010701040737330914</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5537784695625305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.010694148950278759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7021086812019348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3290281891822815</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6818609237670898</span><span class="p" data-group-id="9783257125-9">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9783257125-10">[</span><span class="o">-</span><span class="mf">0.6378231644630432</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5675055384635925</span><span class="p">,</span><span class="w"> </span><span class="mf">0.031453751027584076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4705190360546112</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.002226108219474554</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48611924052238464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5700677037239075</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6729928851127625</span><span class="p" data-group-id="9783257125-10">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9783257125-11">[</span><span class="mf">0.4596043527126312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6557875871658325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07168347388505936</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37926459312438965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20766735076904297</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11274437606334686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5166378617286682</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5115087032318115</span><span class="p" data-group-id="9783257125-11">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9783257125-12">[</span><span class="o">-</span><span class="mf">0.30842259526252747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3418923616409302</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3374936282634735</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6272460222244263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6156857013702393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6739501357078552</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09081890434026718</span><span class="p">,</span><span class="w"> </span><span class="mf">0.706954836845398</span><span class="p" data-group-id="9783257125-12">]</span><span class="w">
-    </span><span class="p" data-group-id="9783257125-8">]</span><span class="w">
-  </span><span class="p" data-group-id="9783257125-5">&gt;</span><span class="w">
-</span><span class="p" data-group-id="9783257125-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7887835224-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7887835224-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7887835224-3">#</span><span class="nc" data-group-id="7887835224-3">Nx.Tensor</span><span class="p" data-group-id="7887835224-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7887835224-4">[</span><span class="mi">8</span><span class="p" data-group-id="7887835224-4">]</span><span class="w">
-      </span><span class="p" data-group-id="7887835224-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7887835224-5">]</span><span class="w">
-    </span><span class="p" data-group-id="7887835224-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7887835224-6">#</span><span class="nc" data-group-id="7887835224-6">Nx.Tensor</span><span class="p" data-group-id="7887835224-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7887835224-7">[</span><span class="mi">4</span><span class="p" data-group-id="7887835224-7">]</span><span class="p" data-group-id="7887835224-8">[</span><span class="mi">8</span><span class="p" data-group-id="7887835224-8">]</span><span class="w">
-      </span><span class="p" data-group-id="7887835224-9">[</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-10">[</span><span class="mf">0.6784419417381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.175045907497406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010701040737330914</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5537784695625305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.010694148950278759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7021086812019348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3290281891822815</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6818609237670898</span><span class="p" data-group-id="7887835224-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-11">[</span><span class="o">-</span><span class="mf">0.6378231644630432</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5675055384635925</span><span class="p">,</span><span class="w"> </span><span class="mf">0.031453751027584076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4705190360546112</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.002226108219474554</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48611924052238464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5700677037239075</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6729928851127625</span><span class="p" data-group-id="7887835224-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-12">[</span><span class="mf">0.4596043527126312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6557875871658325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07168347388505936</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37926459312438965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20766735076904297</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11274437606334686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5166378617286682</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5115087032318115</span><span class="p" data-group-id="7887835224-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-13">[</span><span class="o">-</span><span class="mf">0.30842259526252747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3418923616409302</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3374936282634735</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6272460222244263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6156857013702393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6739501357078552</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09081890434026718</span><span class="p">,</span><span class="w"> </span><span class="mf">0.706954836845398</span><span class="p" data-group-id="7887835224-13">]</span><span class="w">
-      </span><span class="p" data-group-id="7887835224-9">]</span><span class="w">
-    </span><span class="p" data-group-id="7887835224-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7887835224-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7887835224-14">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7887835224-15">#</span><span class="nc" data-group-id="7887835224-15">Nx.Tensor</span><span class="p" data-group-id="7887835224-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7887835224-16">[</span><span class="mi">1</span><span class="p" data-group-id="7887835224-16">]</span><span class="w">
-      </span><span class="p" data-group-id="7887835224-17">[</span><span class="mf">0.0</span><span class="p" data-group-id="7887835224-17">]</span><span class="w">
-    </span><span class="p" data-group-id="7887835224-15">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7887835224-18">#</span><span class="nc" data-group-id="7887835224-18">Nx.Tensor</span><span class="p" data-group-id="7887835224-18">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7887835224-19">[</span><span class="mi">8</span><span class="p" data-group-id="7887835224-19">]</span><span class="p" data-group-id="7887835224-20">[</span><span class="mi">1</span><span class="p" data-group-id="7887835224-20">]</span><span class="w">
-      </span><span class="p" data-group-id="7887835224-21">[</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-22">[</span><span class="o">-</span><span class="mf">0.7136709690093994</span><span class="p" data-group-id="7887835224-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-23">[</span><span class="o">-</span><span class="mf">0.16328231990337372</span><span class="p" data-group-id="7887835224-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-24">[</span><span class="mf">0.08359552919864655</span><span class="p" data-group-id="7887835224-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-25">[</span><span class="mf">0.07646285742521286</span><span class="p" data-group-id="7887835224-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-26">[</span><span class="mf">0.7133787274360657</span><span class="p" data-group-id="7887835224-26">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-27">[</span><span class="o">-</span><span class="mf">0.00617210753262043</span><span class="p" data-group-id="7887835224-27">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-28">[</span><span class="mf">0.2241944670677185</span><span class="p" data-group-id="7887835224-28">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7887835224-29">[</span><span class="o">-</span><span class="mf">0.055933959782123566</span><span class="p" data-group-id="7887835224-29">]</span><span class="w">
-      </span><span class="p" data-group-id="7887835224-21">]</span><span class="w">
-    </span><span class="p" data-group-id="7887835224-18">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7887835224-14">}</span><span class="w">
-</span><span class="p" data-group-id="7887835224-1">}</span></code></pre><p>On pre-forward and forward:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3287915366-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="3287915366-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6641220952-1">#</span><span class="nc" data-group-id="6641220952-1">Nx.Tensor</span><span class="p" data-group-id="6641220952-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6641220952-2">[</span><span class="mi">2</span><span class="p" data-group-id="6641220952-2">]</span><span class="p" data-group-id="6641220952-3">[</span><span class="mi">4</span><span class="p" data-group-id="6641220952-3">]</span><span class="w">
-  </span><span class="p" data-group-id="6641220952-4">[</span><span class="w">
-    </span><span class="p" data-group-id="6641220952-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6641220952-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6641220952-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="6641220952-6">]</span><span class="w">
-  </span><span class="p" data-group-id="6641220952-4">]</span><span class="w">
-</span><span class="p" data-group-id="6641220952-1">&gt;</span><span class="w">
-</span><span class="p" data-group-id="6641220952-7">#</span><span class="nc" data-group-id="6641220952-7">Nx.Tensor</span><span class="p" data-group-id="6641220952-7">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6641220952-8">[</span><span class="mi">2</span><span class="p" data-group-id="6641220952-8">]</span><span class="p" data-group-id="6641220952-9">[</span><span class="mi">8</span><span class="p" data-group-id="6641220952-9">]</span><span class="w">
-  </span><span class="p" data-group-id="6641220952-10">[</span><span class="w">
-    </span><span class="p" data-group-id="6641220952-11">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="6641220952-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6641220952-12">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="6641220952-12">]</span><span class="w">
-  </span><span class="p" data-group-id="6641220952-10">]</span><span class="w">
-</span><span class="p" data-group-id="6641220952-7">&gt;</span><span class="w">
-</span><span class="p" data-group-id="6641220952-13">#</span><span class="nc" data-group-id="6641220952-13">Nx.Tensor</span><span class="p" data-group-id="6641220952-13">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6641220952-14">[</span><span class="mi">2</span><span class="p" data-group-id="6641220952-14">]</span><span class="p" data-group-id="6641220952-15">[</span><span class="mi">8</span><span class="p" data-group-id="6641220952-15">]</span><span class="w">
-  </span><span class="p" data-group-id="6641220952-16">[</span><span class="w">
-    </span><span class="p" data-group-id="6641220952-17">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="6641220952-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6641220952-18">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="6641220952-18">]</span><span class="w">
-  </span><span class="p" data-group-id="6641220952-16">]</span><span class="w">
-</span><span class="p" data-group-id="6641220952-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6686094660-1">#</span><span class="nc" data-group-id="6686094660-1">Nx.Tensor</span><span class="p" data-group-id="6686094660-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6686094660-2">[</span><span class="mi">2</span><span class="p" data-group-id="6686094660-2">]</span><span class="p" data-group-id="6686094660-3">[</span><span class="mi">1</span><span class="p" data-group-id="6686094660-3">]</span><span class="w">
-  </span><span class="p" data-group-id="6686094660-4">[</span><span class="w">
-    </span><span class="p" data-group-id="6686094660-5">[</span><span class="mf">1.100995421409607</span><span class="p" data-group-id="6686094660-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6686094660-6">[</span><span class="mf">2.2032604217529297</span><span class="p" data-group-id="6686094660-6">]</span><span class="w">
-  </span><span class="p" data-group-id="6686094660-4">]</span><span class="w">
-</span><span class="p" data-group-id="6686094660-1">&gt;</span></code></pre><p>And on backwards:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">grad</span><span class="p" data-group-id="8839993917-1">(</span><span class="k" data-group-id="8839993917-2">fn</span><span class="w"> </span><span class="n">params</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8839993917-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8839993917-3">)</span><span class="w"> </span><span class="k" data-group-id="8839993917-2">end</span><span class="p" data-group-id="8839993917-1">)</span><span class="o">.</span><span class="p" data-group-id="8839993917-4">(</span><span class="n">params</span><span class="p" data-group-id="8839993917-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9947792265-1">#</span><span class="nc" data-group-id="9947792265-1">Nx.Tensor</span><span class="p" data-group-id="9947792265-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9947792265-2">[</span><span class="mi">2</span><span class="p" data-group-id="9947792265-2">]</span><span class="p" data-group-id="9947792265-3">[</span><span class="mi">4</span><span class="p" data-group-id="9947792265-3">]</span><span class="w">
-  </span><span class="p" data-group-id="9947792265-4">[</span><span class="w">
-    </span><span class="p" data-group-id="9947792265-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="9947792265-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9947792265-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="9947792265-6">]</span><span class="w">
-  </span><span class="p" data-group-id="9947792265-4">]</span><span class="w">
-</span><span class="p" data-group-id="9947792265-1">&gt;</span><span class="w">
-</span><span class="p" data-group-id="9947792265-7">#</span><span class="nc" data-group-id="9947792265-7">Nx.Tensor</span><span class="p" data-group-id="9947792265-7">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9947792265-8">[</span><span class="mi">2</span><span class="p" data-group-id="9947792265-8">]</span><span class="p" data-group-id="9947792265-9">[</span><span class="mi">8</span><span class="p" data-group-id="9947792265-9">]</span><span class="w">
-  </span><span class="p" data-group-id="9947792265-10">[</span><span class="w">
-    </span><span class="p" data-group-id="9947792265-11">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="9947792265-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9947792265-12">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="9947792265-12">]</span><span class="w">
-  </span><span class="p" data-group-id="9947792265-10">]</span><span class="w">
-</span><span class="p" data-group-id="9947792265-7">&gt;</span><span class="w">
-</span><span class="p" data-group-id="9947792265-13">#</span><span class="nc" data-group-id="9947792265-13">Nx.Tensor</span><span class="p" data-group-id="9947792265-13">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9947792265-14">[</span><span class="mi">2</span><span class="p" data-group-id="9947792265-14">]</span><span class="p" data-group-id="9947792265-15">[</span><span class="mi">8</span><span class="p" data-group-id="9947792265-15">]</span><span class="w">
-  </span><span class="p" data-group-id="9947792265-16">[</span><span class="w">
-    </span><span class="p" data-group-id="9947792265-17">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="9947792265-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9947792265-18">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="9947792265-18">]</span><span class="w">
-  </span><span class="p" data-group-id="9947792265-16">]</span><span class="w">
-</span><span class="p" data-group-id="9947792265-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3422555723-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3422555723-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3422555723-3">#</span><span class="nc" data-group-id="3422555723-3">Nx.Tensor</span><span class="p" data-group-id="3422555723-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3422555723-4">[</span><span class="mi">8</span><span class="p" data-group-id="3422555723-4">]</span><span class="w">
-      </span><span class="p" data-group-id="3422555723-5">[</span><span class="o">-</span><span class="mf">0.7136709690093994</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1671910583972931</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15292571485042572</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4267574548721313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.01234421506524086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11186791956424713</span><span class="p" data-group-id="3422555723-5">]</span><span class="w">
-    </span><span class="p" data-group-id="3422555723-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3422555723-6">#</span><span class="nc" data-group-id="3422555723-6">Nx.Tensor</span><span class="p" data-group-id="3422555723-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3422555723-7">[</span><span class="mi">4</span><span class="p" data-group-id="3422555723-7">]</span><span class="p" data-group-id="3422555723-8">[</span><span class="mi">8</span><span class="p" data-group-id="3422555723-8">]</span><span class="w">
-      </span><span class="p" data-group-id="3422555723-9">[</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-10">[</span><span class="o">-</span><span class="mf">2.8546838760375977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3343821167945862</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30585142970085144</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8535149097442627</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02468843013048172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22373583912849426</span><span class="p" data-group-id="3422555723-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-11">[</span><span class="o">-</span><span class="mf">3.568354845046997</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5015732049942017</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45877712965011597</span><span class="p">,</span><span class="w"> </span><span class="mf">4.280272483825684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03703264519572258</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3356037735939026</span><span class="p" data-group-id="3422555723-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-12">[</span><span class="o">-</span><span class="mf">4.2820258140563965</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6687642335891724</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6117028594017029</span><span class="p">,</span><span class="w"> </span><span class="mf">5.707029819488525</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04937686026096344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4474716782569885</span><span class="p" data-group-id="3422555723-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-13">[</span><span class="o">-</span><span class="mf">4.995697021484375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8359552621841431</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7646285891532898</span><span class="p">,</span><span class="w"> </span><span class="mf">7.133787155151367</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0617210753262043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5593395829200745</span><span class="p" data-group-id="3422555723-13">]</span><span class="w">
-      </span><span class="p" data-group-id="3422555723-9">]</span><span class="w">
-    </span><span class="p" data-group-id="3422555723-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3422555723-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3422555723-14">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3422555723-15">#</span><span class="nc" data-group-id="3422555723-15">Nx.Tensor</span><span class="p" data-group-id="3422555723-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3422555723-16">[</span><span class="mi">1</span><span class="p" data-group-id="3422555723-16">]</span><span class="w">
-      </span><span class="p" data-group-id="3422555723-17">[</span><span class="mf">2.0</span><span class="p" data-group-id="3422555723-17">]</span><span class="w">
-    </span><span class="p" data-group-id="3422555723-15">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3422555723-18">#</span><span class="nc" data-group-id="3422555723-18">Nx.Tensor</span><span class="p" data-group-id="3422555723-18">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3422555723-19">[</span><span class="mi">8</span><span class="p" data-group-id="3422555723-19">]</span><span class="p" data-group-id="3422555723-20">[</span><span class="mi">1</span><span class="p" data-group-id="3422555723-20">]</span><span class="w">
-      </span><span class="p" data-group-id="3422555723-21">[</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-22">[</span><span class="mf">0.12331989407539368</span><span class="p" data-group-id="3422555723-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="3422555723-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-24">[</span><span class="mf">3.0329952239990234</span><span class="p" data-group-id="3422555723-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-25">[</span><span class="mf">3.846343994140625</span><span class="p" data-group-id="3422555723-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-26">[</span><span class="mf">4.439384937286377</span><span class="p" data-group-id="3422555723-26">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-27">[</span><span class="mf">13.366606712341309</span><span class="p" data-group-id="3422555723-27">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-28">[</span><span class="mf">0.0</span><span class="p" data-group-id="3422555723-28">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3422555723-29">[</span><span class="mf">4.287992477416992</span><span class="p" data-group-id="3422555723-29">]</span><span class="w">
-      </span><span class="p" data-group-id="3422555723-21">]</span><span class="w">
-    </span><span class="p" data-group-id="3422555723-18">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3422555723-14">}</span><span class="w">
-</span><span class="p" data-group-id="3422555723-1">}</span></code></pre><p>Finally, you can specify hooks to only run when the model is built in a certain mode such as training and inference mode. You can read more about training and inference mode in <a href="training_and_inference_mode.html">Training and inference mode</a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6778500365-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6778500365-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6778500365-2">(</span><span class="mi">8</span><span class="p" data-group-id="6778500365-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="6778500365-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="6778500365-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6778500365-4">(</span><span class="p" data-group-id="6778500365-4">)</span><span class="w">
-
-</span><span class="p" data-group-id="6778500365-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6778500365-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6778500365-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="6778500365-6">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6778500365-7">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6778500365-8">%{</span><span class="p" data-group-id="6778500365-8">}</span><span class="p" data-group-id="6778500365-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6524568013-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6524568013-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6524568013-3">#</span><span class="nc" data-group-id="6524568013-3">Nx.Tensor</span><span class="p" data-group-id="6524568013-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6524568013-4">[</span><span class="mi">8</span><span class="p" data-group-id="6524568013-4">]</span><span class="w">
-      </span><span class="p" data-group-id="6524568013-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6524568013-5">]</span><span class="w">
-    </span><span class="p" data-group-id="6524568013-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6524568013-6">#</span><span class="nc" data-group-id="6524568013-6">Nx.Tensor</span><span class="p" data-group-id="6524568013-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6524568013-7">[</span><span class="mi">4</span><span class="p" data-group-id="6524568013-7">]</span><span class="p" data-group-id="6524568013-8">[</span><span class="mi">8</span><span class="p" data-group-id="6524568013-8">]</span><span class="w">
-      </span><span class="p" data-group-id="6524568013-9">[</span><span class="w">
-        </span><span class="p" data-group-id="6524568013-10">[</span><span class="mf">0.13930729031562805</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6213980913162231</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5555388331413269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18602639436721802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37516212463378906</span><span class="p">,</span><span class="w"> </span><span class="mf">0.025288991630077362</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5311357378959656</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2825106978416443</span><span class="p" data-group-id="6524568013-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6524568013-11">[</span><span class="o">-</span><span class="mf">0.14007511734962463</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1472432166337967</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.011716545559465885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06804006546735764</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4615606963634491</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.024897094815969467</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2336975485086441</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10019711405038834</span><span class="p" data-group-id="6524568013-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6524568013-12">[</span><span class="o">-</span><span class="mf">0.29539188742637634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5487134456634521</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41018739342689514</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49597275257110596</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2970600426197052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4304136335849762</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13961079716682434</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4316418170928955</span><span class="p" data-group-id="6524568013-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6524568013-13">[</span><span class="mf">0.5435506105422974</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.056049738079309464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5059406161308289</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29488587379455566</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5656863451004028</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43807661533355713</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5058187246322632</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6963644623756409</span><span class="p" data-group-id="6524568013-13">]</span><span class="w">
-      </span><span class="p" data-group-id="6524568013-9">]</span><span class="w">
-    </span><span class="p" data-group-id="6524568013-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6524568013-2">}</span><span class="w">
-</span><span class="p" data-group-id="6524568013-1">}</span></code></pre><p>The model was built in training mode so the hook will run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0238020829-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="0238020829-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7257067516-1">#</span><span class="nc" data-group-id="7257067516-1">Nx.Tensor</span><span class="p" data-group-id="7257067516-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7257067516-2">[</span><span class="mi">2</span><span class="p" data-group-id="7257067516-2">]</span><span class="p" data-group-id="7257067516-3">[</span><span class="mi">8</span><span class="p" data-group-id="7257067516-3">]</span><span class="w">
-  </span><span class="p" data-group-id="7257067516-4">[</span><span class="w">
-    </span><span class="p" data-group-id="7257067516-5">[</span><span class="mf">0.8997929096221924</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.412819266319275</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3264801502227783</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.039247818291187286</span><span class="p">,</span><span class="w"> </span><span class="mf">2.752739906311035</span><span class="p">,</span><span class="w"> </span><span class="mf">2.150160074234009</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4719321727752686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.852180004119873</span><span class="p" data-group-id="7257067516-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7257067516-6">[</span><span class="mf">1.8893564939498901</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9352525472640991</span><span class="p">,</span><span class="w"> </span><span class="mf">8.166281700134277</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3155406713485718</span><span class="p">,</span><span class="w"> </span><span class="mf">9.550616264343262</span><span class="p">,</span><span class="w"> </span><span class="mf">5.625688552856445</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7470110654830933</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.833373546600342</span><span class="p" data-group-id="7257067516-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7257067516-4">]</span><span class="w">
-</span><span class="p" data-group-id="7257067516-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5435813967-1">%{</span><span class="w">
-  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5435813967-2">#</span><span class="nc" data-group-id="5435813967-2">Nx.Tensor</span><span class="p" data-group-id="5435813967-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="5435813967-3">[</span><span class="mi">2</span><span class="p" data-group-id="5435813967-3">]</span><span class="p" data-group-id="5435813967-4">[</span><span class="mi">8</span><span class="p" data-group-id="5435813967-4">]</span><span class="w">
-    </span><span class="p" data-group-id="5435813967-5">[</span><span class="w">
-      </span><span class="p" data-group-id="5435813967-6">[</span><span class="mf">0.8997929096221924</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3264801502227783</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.752739906311035</span><span class="p">,</span><span class="w"> </span><span class="mf">2.150160074234009</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5435813967-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5435813967-7">[</span><span class="mf">1.8893564939498901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.166281700134277</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">9.550616264343262</span><span class="p">,</span><span class="w"> </span><span class="mf">5.625688552856445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5435813967-7">]</span><span class="w">
-    </span><span class="p" data-group-id="5435813967-5">]</span><span class="w">
-  </span><span class="p" data-group-id="5435813967-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5435813967-8">%{</span><span class="p" data-group-id="5435813967-8">}</span><span class="w">
-</span><span class="p" data-group-id="5435813967-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5726812749-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5726812749-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5726812749-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="5726812749-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5726812749-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5726812749-4">%{</span><span class="p" data-group-id="5726812749-4">}</span><span class="p" data-group-id="5726812749-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1638418801-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1638418801-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1638418801-3">#</span><span class="nc" data-group-id="1638418801-3">Nx.Tensor</span><span class="p" data-group-id="1638418801-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1638418801-4">[</span><span class="mi">8</span><span class="p" data-group-id="1638418801-4">]</span><span class="w">
-      </span><span class="p" data-group-id="1638418801-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1638418801-5">]</span><span class="w">
-    </span><span class="p" data-group-id="1638418801-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1638418801-6">#</span><span class="nc" data-group-id="1638418801-6">Nx.Tensor</span><span class="p" data-group-id="1638418801-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1638418801-7">[</span><span class="mi">4</span><span class="p" data-group-id="1638418801-7">]</span><span class="p" data-group-id="1638418801-8">[</span><span class="mi">8</span><span class="p" data-group-id="1638418801-8">]</span><span class="w">
-      </span><span class="p" data-group-id="1638418801-9">[</span><span class="w">
-        </span><span class="p" data-group-id="1638418801-10">[</span><span class="mf">0.4261569678783417</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6842133402824402</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13853907585144043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6665098667144775</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6171062588691711</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25513389706611633</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4866299033164978</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5819953680038452</span><span class="p" data-group-id="1638418801-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1638418801-11">[</span><span class="o">-</span><span class="mf">0.36037471890449524</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21852241456508636</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6355746388435364</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5705516934394836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35449153184890747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1527744084596634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5036700367927551</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4164859354496002</span><span class="p" data-group-id="1638418801-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1638418801-12">[</span><span class="mf">0.6485253572463989</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30033791065216064</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35249730944633484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31768497824668884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.020564774051308632</span><span class="p">,</span><span class="w"> </span><span class="mf">0.147691547870636</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6939279437065125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6060985922813416</span><span class="p" data-group-id="1638418801-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1638418801-13">[</span><span class="mf">0.006978582590818405</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333927869796753</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30155065655708313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09574121236801147</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3447912037372589</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11081335693597794</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5808792114257812</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04360806941986084</span><span class="p" data-group-id="1638418801-13">]</span><span class="w">
-      </span><span class="p" data-group-id="1638418801-9">]</span><span class="w">
-    </span><span class="p" data-group-id="1638418801-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1638418801-2">}</span><span class="w">
-</span><span class="p" data-group-id="1638418801-1">}</span></code></pre><p>The model was built in inference mode so the hook will not run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="1228886907-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="1228886907-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5888232855-1">#</span><span class="nc" data-group-id="5888232855-1">Nx.Tensor</span><span class="p" data-group-id="5888232855-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5888232855-2">[</span><span class="mi">2</span><span class="p" data-group-id="5888232855-2">]</span><span class="p" data-group-id="5888232855-3">[</span><span class="mi">8</span><span class="p" data-group-id="5888232855-3">]</span><span class="w">
-  </span><span class="p" data-group-id="5888232855-4">[</span><span class="w">
-    </span><span class="p" data-group-id="5888232855-5">[</span><span class="mf">0.9576117396354675</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9823317527770996</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9740719795227051</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7210116386413574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6268234252929688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9265354871749878</span><span class="p" data-group-id="5888232855-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5888232855-6">[</span><span class="mf">3.842756509780884</span><span class="p">,</span><span class="w"> </span><span class="mf">1.706311583518982</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49380895495414734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2328944206237793</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36711934208869934</span><span class="p">,</span><span class="w"> </span><span class="mf">3.764852285385132</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5888232855-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5888232855-4">]</span><span class="w">
-</span><span class="p" data-group-id="5888232855-1">&gt;</span></code></pre>
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0737652306-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0737652306-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0737652306-2">(</span><span class="mi">8</span><span class="p" data-group-id="0737652306-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0737652306-3">(</span><span class="k" data-group-id="0737652306-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0737652306-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_forward</span><span class="p" data-group-id="0737652306-5">)</span><span class="w"> </span><span class="k" data-group-id="0737652306-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="0737652306-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0737652306-6">(</span><span class="k" data-group-id="0737652306-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0737652306-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_init</span><span class="p" data-group-id="0737652306-8">)</span><span class="w"> </span><span class="k" data-group-id="0737652306-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:initialize</span><span class="p" data-group-id="0737652306-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0737652306-9">(</span><span class="p" data-group-id="0737652306-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0737652306-10">(</span><span class="k" data-group-id="0737652306-11">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0737652306-12">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0737652306-12">)</span><span class="w"> </span><span class="k" data-group-id="0737652306-11">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="0737652306-10">)</span><span class="w">
+
+</span><span class="p" data-group-id="0737652306-13">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0737652306-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0737652306-14">(</span><span class="n">model</span><span class="p" data-group-id="0737652306-14">)</span><span class="w">
+
+</span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0737652306-15">(</span><span class="p" data-group-id="0737652306-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="0737652306-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0737652306-15">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0737652306-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0737652306-18">%{</span><span class="p" data-group-id="0737652306-18">}</span><span class="p" data-group-id="0737652306-17">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">dense_init</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5193505687-1">%{</span><span class="w">
+  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5193505687-2">#</span><span class="nc" data-group-id="5193505687-2">Nx.Tensor</span><span class="p" data-group-id="5193505687-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="5193505687-3">[</span><span class="mi">8</span><span class="p" data-group-id="5193505687-3">]</span><span class="w">
+    </span><span class="p" data-group-id="5193505687-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5193505687-4">]</span><span class="w">
+  </span><span class="p" data-group-id="5193505687-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5193505687-5">#</span><span class="nc" data-group-id="5193505687-5">Nx.Tensor</span><span class="p" data-group-id="5193505687-5">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="5193505687-6">[</span><span class="mi">4</span><span class="p" data-group-id="5193505687-6">]</span><span class="p" data-group-id="5193505687-7">[</span><span class="mi">8</span><span class="p" data-group-id="5193505687-7">]</span><span class="w">
+    </span><span class="p" data-group-id="5193505687-8">[</span><span class="w">
+      </span><span class="p" data-group-id="5193505687-9">[</span><span class="o">-</span><span class="mf">0.40611347556114197</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1551232784986496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08485020697116852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6748610734939575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04797258973121643</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059523195028305054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4092640280723572</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1300794780254364</span><span class="p" data-group-id="5193505687-9">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5193505687-10">[</span><span class="o">-</span><span class="mf">0.3551754057407379</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3159058094024658</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25394684076309204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22510826587677002</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2613920271396637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15213526785373688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15744848549365997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46065202355384827</span><span class="p" data-group-id="5193505687-10">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5193505687-11">[</span><span class="o">-</span><span class="mf">0.5224899649620056</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3639957010746002</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19676287472248077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5423932075500488</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4722306430339813</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26447463035583496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18534891307353973</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6442952752113342</span><span class="p" data-group-id="5193505687-11">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5193505687-12">[</span><span class="o">-</span><span class="mf">0.5629043579101562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6370815634727478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43325361609458923</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5084872245788574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1424017995595932</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4865548312664032</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5839526057243347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09811079502105713</span><span class="p" data-group-id="5193505687-12">]</span><span class="w">
+    </span><span class="p" data-group-id="5193505687-8">]</span><span class="w">
+  </span><span class="p" data-group-id="5193505687-5">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5193505687-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3953691319-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3953691319-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3953691319-3">#</span><span class="nc" data-group-id="3953691319-3">Nx.Tensor</span><span class="p" data-group-id="3953691319-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3953691319-4">[</span><span class="mi">8</span><span class="p" data-group-id="3953691319-4">]</span><span class="w">
+      </span><span class="p" data-group-id="3953691319-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3953691319-5">]</span><span class="w">
+    </span><span class="p" data-group-id="3953691319-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3953691319-6">#</span><span class="nc" data-group-id="3953691319-6">Nx.Tensor</span><span class="p" data-group-id="3953691319-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3953691319-7">[</span><span class="mi">4</span><span class="p" data-group-id="3953691319-7">]</span><span class="p" data-group-id="3953691319-8">[</span><span class="mi">8</span><span class="p" data-group-id="3953691319-8">]</span><span class="w">
+      </span><span class="p" data-group-id="3953691319-9">[</span><span class="w">
+        </span><span class="p" data-group-id="3953691319-10">[</span><span class="o">-</span><span class="mf">0.40611347556114197</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1551232784986496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08485020697116852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6748610734939575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04797258973121643</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059523195028305054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4092640280723572</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1300794780254364</span><span class="p" data-group-id="3953691319-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3953691319-11">[</span><span class="o">-</span><span class="mf">0.3551754057407379</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3159058094024658</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25394684076309204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22510826587677002</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2613920271396637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15213526785373688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15744848549365997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46065202355384827</span><span class="p" data-group-id="3953691319-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3953691319-12">[</span><span class="o">-</span><span class="mf">0.5224899649620056</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3639957010746002</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19676287472248077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5423932075500488</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4722306430339813</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26447463035583496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18534891307353973</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6442952752113342</span><span class="p" data-group-id="3953691319-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3953691319-13">[</span><span class="o">-</span><span class="mf">0.5629043579101562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6370815634727478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43325361609458923</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5084872245788574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1424017995595932</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4865548312664032</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5839526057243347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09811079502105713</span><span class="p" data-group-id="3953691319-13">]</span><span class="w">
+      </span><span class="p" data-group-id="3953691319-9">]</span><span class="w">
+    </span><span class="p" data-group-id="3953691319-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3953691319-2">}</span><span class="w">
+</span><span class="p" data-group-id="3953691319-1">}</span></code></pre><p>Notice how during initialization the <code class="inline">:dense_init</code> hook fired and inspected the layer's parameters. Now when executing, you'll see outputs for <code class="inline">:dense</code> and <code class="inline">:relu</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0660775292-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="0660775292-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">dense_forward</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9731465931-1">#</span><span class="nc" data-group-id="9731465931-1">Nx.Tensor</span><span class="p" data-group-id="9731465931-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9731465931-2">[</span><span class="mi">2</span><span class="p" data-group-id="9731465931-2">]</span><span class="p" data-group-id="9731465931-3">[</span><span class="mi">8</span><span class="p" data-group-id="9731465931-3">]</span><span class="w">
+  </span><span class="p" data-group-id="9731465931-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9731465931-5">[</span><span class="o">-</span><span class="mf">3.0888683795928955</span><span class="p">,</span><span class="w"> </span><span class="mf">2.955142021179199</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4393397569656372</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8353562355041504</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.1102746725082397</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8364784717559814</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.538608431816101</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.454910159111023</span><span class="p" data-group-id="9731465931-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9731465931-6">[</span><span class="o">-</span><span class="mf">10.475601196289062</span><span class="p">,</span><span class="w"> </span><span class="mf">7.602581024169922</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.604217529296875</span><span class="p">,</span><span class="w"> </span><span class="mf">5.239866733551025</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.331346035003662</span><span class="p">,</span><span class="w"> </span><span class="mf">3.993962526321411</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.125761032104492</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.961938381195068</span><span class="p" data-group-id="9731465931-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9731465931-4">]</span><span class="w">
+</span><span class="p" data-group-id="9731465931-1">&gt;</span><span class="w">
+</span><span class="ss">relu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9731465931-7">#</span><span class="nc" data-group-id="9731465931-7">Nx.Tensor</span><span class="p" data-group-id="9731465931-7">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9731465931-8">[</span><span class="mi">2</span><span class="p" data-group-id="9731465931-8">]</span><span class="p" data-group-id="9731465931-9">[</span><span class="mi">8</span><span class="p" data-group-id="9731465931-9">]</span><span class="w">
+  </span><span class="p" data-group-id="9731465931-10">[</span><span class="w">
+    </span><span class="p" data-group-id="9731465931-11">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.955142021179199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8353562355041504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8364784717559814</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9731465931-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9731465931-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.602581024169922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.239866733551025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.993962526321411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9731465931-12">]</span><span class="w">
+  </span><span class="p" data-group-id="9731465931-10">]</span><span class="w">
+</span><span class="p" data-group-id="9731465931-7">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9779792665-1">#</span><span class="nc" data-group-id="9779792665-1">Nx.Tensor</span><span class="p" data-group-id="9779792665-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9779792665-2">[</span><span class="mi">2</span><span class="p" data-group-id="9779792665-2">]</span><span class="p" data-group-id="9779792665-3">[</span><span class="mi">8</span><span class="p" data-group-id="9779792665-3">]</span><span class="w">
+  </span><span class="p" data-group-id="9779792665-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9779792665-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.955142021179199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8353562355041504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8364784717559814</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9779792665-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9779792665-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.602581024169922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.239866733551025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.993962526321411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9779792665-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9779792665-4">]</span><span class="w">
+</span><span class="p" data-group-id="9779792665-1">&gt;</span></code></pre><p>It's important to note that hooks execute in the order they were attached to a layer. If you attach 2 hooks to the same layer which execute different functions on the same event, they will run in order:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6336334119-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6336334119-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6336334119-2">(</span><span class="mi">8</span><span class="p" data-group-id="6336334119-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="6336334119-3">(</span><span class="k" data-group-id="6336334119-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6336334119-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook1</span><span class="p" data-group-id="6336334119-5">)</span><span class="w"> </span><span class="k" data-group-id="6336334119-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="6336334119-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="6336334119-6">(</span><span class="k" data-group-id="6336334119-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6336334119-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook2</span><span class="p" data-group-id="6336334119-8">)</span><span class="w"> </span><span class="k" data-group-id="6336334119-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="6336334119-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6336334119-9">(</span><span class="p" data-group-id="6336334119-9">)</span><span class="w">
+
+</span><span class="p" data-group-id="6336334119-10">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6336334119-10">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6336334119-11">(</span><span class="n">model</span><span class="p" data-group-id="6336334119-11">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6336334119-12">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6336334119-13">%{</span><span class="p" data-group-id="6336334119-13">}</span><span class="p" data-group-id="6336334119-12">)</span><span class="w">
+
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6336334119-14">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="6336334119-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">hook1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5097612049-1">#</span><span class="nc" data-group-id="5097612049-1">Nx.Tensor</span><span class="p" data-group-id="5097612049-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5097612049-2">[</span><span class="mi">2</span><span class="p" data-group-id="5097612049-2">]</span><span class="p" data-group-id="5097612049-3">[</span><span class="mi">8</span><span class="p" data-group-id="5097612049-3">]</span><span class="w">
+  </span><span class="p" data-group-id="5097612049-4">[</span><span class="w">
+    </span><span class="p" data-group-id="5097612049-5">[</span><span class="mf">1.3320910930633545</span><span class="p">,</span><span class="w"> </span><span class="mf">1.712153673171997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0420351028442383</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2541849613189697</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1382551193237305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.2241677045822144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5477651357650757</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2126261293888092</span><span class="p" data-group-id="5097612049-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5097612049-6">[</span><span class="mf">2.1975531578063965</span><span class="p">,</span><span class="w"> </span><span class="mf">3.722827911376953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6301460266113281</span><span class="p">,</span><span class="w"> </span><span class="mf">5.891226768493652</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.79372787475586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9982359409332275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.589874267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5387766361236572</span><span class="p" data-group-id="5097612049-6">]</span><span class="w">
+  </span><span class="p" data-group-id="5097612049-4">]</span><span class="w">
+</span><span class="p" data-group-id="5097612049-1">&gt;</span><span class="w">
+</span><span class="ss">hook2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5097612049-7">#</span><span class="nc" data-group-id="5097612049-7">Nx.Tensor</span><span class="p" data-group-id="5097612049-7">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5097612049-8">[</span><span class="mi">2</span><span class="p" data-group-id="5097612049-8">]</span><span class="p" data-group-id="5097612049-9">[</span><span class="mi">8</span><span class="p" data-group-id="5097612049-9">]</span><span class="w">
+  </span><span class="p" data-group-id="5097612049-10">[</span><span class="w">
+    </span><span class="p" data-group-id="5097612049-11">[</span><span class="mf">1.3320910930633545</span><span class="p">,</span><span class="w"> </span><span class="mf">1.712153673171997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0420351028442383</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2541849613189697</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1382551193237305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.2241677045822144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5477651357650757</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2126261293888092</span><span class="p" data-group-id="5097612049-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5097612049-12">[</span><span class="mf">2.1975531578063965</span><span class="p">,</span><span class="w"> </span><span class="mf">3.722827911376953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6301460266113281</span><span class="p">,</span><span class="w"> </span><span class="mf">5.891226768493652</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.79372787475586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9982359409332275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.589874267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5387766361236572</span><span class="p" data-group-id="5097612049-12">]</span><span class="w">
+  </span><span class="p" data-group-id="5097612049-10">]</span><span class="w">
+</span><span class="p" data-group-id="5097612049-7">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3941669321-1">#</span><span class="nc" data-group-id="3941669321-1">Nx.Tensor</span><span class="p" data-group-id="3941669321-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3941669321-2">[</span><span class="mi">2</span><span class="p" data-group-id="3941669321-2">]</span><span class="p" data-group-id="3941669321-3">[</span><span class="mi">8</span><span class="p" data-group-id="3941669321-3">]</span><span class="w">
+  </span><span class="p" data-group-id="3941669321-4">[</span><span class="w">
+    </span><span class="p" data-group-id="3941669321-5">[</span><span class="mf">1.3320910930633545</span><span class="p">,</span><span class="w"> </span><span class="mf">1.712153673171997</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2541849613189697</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3941669321-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3941669321-6">[</span><span class="mf">2.1975531578063965</span><span class="p">,</span><span class="w"> </span><span class="mf">3.722827911376953</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.891226768493652</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5387766361236572</span><span class="p" data-group-id="3941669321-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3941669321-4">]</span><span class="w">
+</span><span class="p" data-group-id="3941669321-1">&gt;</span></code></pre><p>Notice that <code class="inline">:hook1</code> fires before <code class="inline">:hook2</code>.</p><p>You can also specify a hook to fire on all events:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6595715986-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6595715986-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6595715986-2">(</span><span class="mi">8</span><span class="p" data-group-id="6595715986-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="6595715986-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="6595715986-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6595715986-4">(</span><span class="p" data-group-id="6595715986-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6595715986-5">(</span><span class="mi">1</span><span class="p" data-group-id="6595715986-5">)</span><span class="w">
+
+</span><span class="p" data-group-id="6595715986-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6595715986-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6595715986-7">(</span><span class="n">model</span><span class="p" data-group-id="6595715986-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8910223458-1">{</span><span class="p" data-group-id="8910223458-2">#</span><span class="nc" data-group-id="8910223458-2">Function</span><span class="p" data-group-id="8910223458-2">&lt;</span><span class="mf">136.40088443</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="8910223458-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="8910223458-3">#</span><span class="nc" data-group-id="8910223458-3">Function</span><span class="p" data-group-id="8910223458-3">&lt;</span><span class="mf">136.40088443</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="8910223458-3">&gt;</span><span class="p" data-group-id="8910223458-1">}</span></code></pre><p>On initialization:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9484340338-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9484340338-2">%{</span><span class="p" data-group-id="9484340338-2">}</span><span class="p" data-group-id="9484340338-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3458725314-1">%{</span><span class="w">
+  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3458725314-2">#</span><span class="nc" data-group-id="3458725314-2">Nx.Tensor</span><span class="p" data-group-id="3458725314-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="3458725314-3">[</span><span class="mi">8</span><span class="p" data-group-id="3458725314-3">]</span><span class="w">
+    </span><span class="p" data-group-id="3458725314-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3458725314-4">]</span><span class="w">
+  </span><span class="p" data-group-id="3458725314-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3458725314-5">#</span><span class="nc" data-group-id="3458725314-5">Nx.Tensor</span><span class="p" data-group-id="3458725314-5">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="3458725314-6">[</span><span class="mi">4</span><span class="p" data-group-id="3458725314-6">]</span><span class="p" data-group-id="3458725314-7">[</span><span class="mi">8</span><span class="p" data-group-id="3458725314-7">]</span><span class="w">
+    </span><span class="p" data-group-id="3458725314-8">[</span><span class="w">
+      </span><span class="p" data-group-id="3458725314-9">[</span><span class="mf">0.6784419417381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.175045907497406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010701040737330914</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5537784695625305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.010694148950278759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7021086812019348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3290281891822815</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6818609237670898</span><span class="p" data-group-id="3458725314-9">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3458725314-10">[</span><span class="o">-</span><span class="mf">0.6378231644630432</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5675055384635925</span><span class="p">,</span><span class="w"> </span><span class="mf">0.031453751027584076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4705190360546112</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.002226108219474554</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48611924052238464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5700677037239075</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6729928851127625</span><span class="p" data-group-id="3458725314-10">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3458725314-11">[</span><span class="mf">0.4596043527126312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6557875871658325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07168347388505936</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37926459312438965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20766735076904297</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11274437606334686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5166378617286682</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5115087032318115</span><span class="p" data-group-id="3458725314-11">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3458725314-12">[</span><span class="o">-</span><span class="mf">0.30842259526252747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3418923616409302</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3374936282634735</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6272460222244263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6156857013702393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6739501357078552</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09081890434026718</span><span class="p">,</span><span class="w"> </span><span class="mf">0.706954836845398</span><span class="p" data-group-id="3458725314-12">]</span><span class="w">
+    </span><span class="p" data-group-id="3458725314-8">]</span><span class="w">
+  </span><span class="p" data-group-id="3458725314-5">&gt;</span><span class="w">
+</span><span class="p" data-group-id="3458725314-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2405973233-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2405973233-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2405973233-3">#</span><span class="nc" data-group-id="2405973233-3">Nx.Tensor</span><span class="p" data-group-id="2405973233-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2405973233-4">[</span><span class="mi">8</span><span class="p" data-group-id="2405973233-4">]</span><span class="w">
+      </span><span class="p" data-group-id="2405973233-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2405973233-5">]</span><span class="w">
+    </span><span class="p" data-group-id="2405973233-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2405973233-6">#</span><span class="nc" data-group-id="2405973233-6">Nx.Tensor</span><span class="p" data-group-id="2405973233-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2405973233-7">[</span><span class="mi">4</span><span class="p" data-group-id="2405973233-7">]</span><span class="p" data-group-id="2405973233-8">[</span><span class="mi">8</span><span class="p" data-group-id="2405973233-8">]</span><span class="w">
+      </span><span class="p" data-group-id="2405973233-9">[</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-10">[</span><span class="mf">0.6784419417381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.175045907497406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010701040737330914</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5537784695625305</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.010694148950278759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7021086812019348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3290281891822815</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6818609237670898</span><span class="p" data-group-id="2405973233-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-11">[</span><span class="o">-</span><span class="mf">0.6378231644630432</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5675055384635925</span><span class="p">,</span><span class="w"> </span><span class="mf">0.031453751027584076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4705190360546112</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.002226108219474554</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48611924052238464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5700677037239075</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6729928851127625</span><span class="p" data-group-id="2405973233-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-12">[</span><span class="mf">0.4596043527126312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6557875871658325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07168347388505936</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37926459312438965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20766735076904297</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11274437606334686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5166378617286682</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5115087032318115</span><span class="p" data-group-id="2405973233-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-13">[</span><span class="o">-</span><span class="mf">0.30842259526252747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3418923616409302</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3374936282634735</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6272460222244263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6156857013702393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6739501357078552</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09081890434026718</span><span class="p">,</span><span class="w"> </span><span class="mf">0.706954836845398</span><span class="p" data-group-id="2405973233-13">]</span><span class="w">
+      </span><span class="p" data-group-id="2405973233-9">]</span><span class="w">
+    </span><span class="p" data-group-id="2405973233-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2405973233-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2405973233-14">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2405973233-15">#</span><span class="nc" data-group-id="2405973233-15">Nx.Tensor</span><span class="p" data-group-id="2405973233-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2405973233-16">[</span><span class="mi">1</span><span class="p" data-group-id="2405973233-16">]</span><span class="w">
+      </span><span class="p" data-group-id="2405973233-17">[</span><span class="mf">0.0</span><span class="p" data-group-id="2405973233-17">]</span><span class="w">
+    </span><span class="p" data-group-id="2405973233-15">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2405973233-18">#</span><span class="nc" data-group-id="2405973233-18">Nx.Tensor</span><span class="p" data-group-id="2405973233-18">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2405973233-19">[</span><span class="mi">8</span><span class="p" data-group-id="2405973233-19">]</span><span class="p" data-group-id="2405973233-20">[</span><span class="mi">1</span><span class="p" data-group-id="2405973233-20">]</span><span class="w">
+      </span><span class="p" data-group-id="2405973233-21">[</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-22">[</span><span class="o">-</span><span class="mf">0.7136709690093994</span><span class="p" data-group-id="2405973233-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-23">[</span><span class="o">-</span><span class="mf">0.16328231990337372</span><span class="p" data-group-id="2405973233-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-24">[</span><span class="mf">0.08359552919864655</span><span class="p" data-group-id="2405973233-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-25">[</span><span class="mf">0.07646285742521286</span><span class="p" data-group-id="2405973233-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-26">[</span><span class="mf">0.7133787274360657</span><span class="p" data-group-id="2405973233-26">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-27">[</span><span class="o">-</span><span class="mf">0.00617210753262043</span><span class="p" data-group-id="2405973233-27">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-28">[</span><span class="mf">0.2241944670677185</span><span class="p" data-group-id="2405973233-28">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2405973233-29">[</span><span class="o">-</span><span class="mf">0.055933959782123566</span><span class="p" data-group-id="2405973233-29">]</span><span class="w">
+      </span><span class="p" data-group-id="2405973233-21">]</span><span class="w">
+    </span><span class="p" data-group-id="2405973233-18">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2405973233-14">}</span><span class="w">
+</span><span class="p" data-group-id="2405973233-1">}</span></code></pre><p>On pre-forward and forward:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7640787102-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="7640787102-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4672863422-1">#</span><span class="nc" data-group-id="4672863422-1">Nx.Tensor</span><span class="p" data-group-id="4672863422-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4672863422-2">[</span><span class="mi">2</span><span class="p" data-group-id="4672863422-2">]</span><span class="p" data-group-id="4672863422-3">[</span><span class="mi">4</span><span class="p" data-group-id="4672863422-3">]</span><span class="w">
+  </span><span class="p" data-group-id="4672863422-4">[</span><span class="w">
+    </span><span class="p" data-group-id="4672863422-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4672863422-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4672863422-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="4672863422-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4672863422-4">]</span><span class="w">
+</span><span class="p" data-group-id="4672863422-1">&gt;</span><span class="w">
+</span><span class="p" data-group-id="4672863422-7">#</span><span class="nc" data-group-id="4672863422-7">Nx.Tensor</span><span class="p" data-group-id="4672863422-7">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4672863422-8">[</span><span class="mi">2</span><span class="p" data-group-id="4672863422-8">]</span><span class="p" data-group-id="4672863422-9">[</span><span class="mi">8</span><span class="p" data-group-id="4672863422-9">]</span><span class="w">
+  </span><span class="p" data-group-id="4672863422-10">[</span><span class="w">
+    </span><span class="p" data-group-id="4672863422-11">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="4672863422-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4672863422-12">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="4672863422-12">]</span><span class="w">
+  </span><span class="p" data-group-id="4672863422-10">]</span><span class="w">
+</span><span class="p" data-group-id="4672863422-7">&gt;</span><span class="w">
+</span><span class="p" data-group-id="4672863422-13">#</span><span class="nc" data-group-id="4672863422-13">Nx.Tensor</span><span class="p" data-group-id="4672863422-13">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4672863422-14">[</span><span class="mi">2</span><span class="p" data-group-id="4672863422-14">]</span><span class="p" data-group-id="4672863422-15">[</span><span class="mi">8</span><span class="p" data-group-id="4672863422-15">]</span><span class="w">
+  </span><span class="p" data-group-id="4672863422-16">[</span><span class="w">
+    </span><span class="p" data-group-id="4672863422-17">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="4672863422-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4672863422-18">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="4672863422-18">]</span><span class="w">
+  </span><span class="p" data-group-id="4672863422-16">]</span><span class="w">
+</span><span class="p" data-group-id="4672863422-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8425174528-1">#</span><span class="nc" data-group-id="8425174528-1">Nx.Tensor</span><span class="p" data-group-id="8425174528-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8425174528-2">[</span><span class="mi">2</span><span class="p" data-group-id="8425174528-2">]</span><span class="p" data-group-id="8425174528-3">[</span><span class="mi">1</span><span class="p" data-group-id="8425174528-3">]</span><span class="w">
+  </span><span class="p" data-group-id="8425174528-4">[</span><span class="w">
+    </span><span class="p" data-group-id="8425174528-5">[</span><span class="mf">1.100995421409607</span><span class="p" data-group-id="8425174528-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8425174528-6">[</span><span class="mf">2.2032604217529297</span><span class="p" data-group-id="8425174528-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8425174528-4">]</span><span class="w">
+</span><span class="p" data-group-id="8425174528-1">&gt;</span></code></pre><p>And on backwards:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">grad</span><span class="p" data-group-id="3493135782-1">(</span><span class="k" data-group-id="3493135782-2">fn</span><span class="w"> </span><span class="n">params</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3493135782-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="3493135782-3">)</span><span class="w"> </span><span class="k" data-group-id="3493135782-2">end</span><span class="p" data-group-id="3493135782-1">)</span><span class="o">.</span><span class="p" data-group-id="3493135782-4">(</span><span class="n">params</span><span class="p" data-group-id="3493135782-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2480489402-1">#</span><span class="nc" data-group-id="2480489402-1">Nx.Tensor</span><span class="p" data-group-id="2480489402-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2480489402-2">[</span><span class="mi">2</span><span class="p" data-group-id="2480489402-2">]</span><span class="p" data-group-id="2480489402-3">[</span><span class="mi">4</span><span class="p" data-group-id="2480489402-3">]</span><span class="w">
+  </span><span class="p" data-group-id="2480489402-4">[</span><span class="w">
+    </span><span class="p" data-group-id="2480489402-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2480489402-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2480489402-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="2480489402-6">]</span><span class="w">
+  </span><span class="p" data-group-id="2480489402-4">]</span><span class="w">
+</span><span class="p" data-group-id="2480489402-1">&gt;</span><span class="w">
+</span><span class="p" data-group-id="2480489402-7">#</span><span class="nc" data-group-id="2480489402-7">Nx.Tensor</span><span class="p" data-group-id="2480489402-7">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2480489402-8">[</span><span class="mi">2</span><span class="p" data-group-id="2480489402-8">]</span><span class="p" data-group-id="2480489402-9">[</span><span class="mi">8</span><span class="p" data-group-id="2480489402-9">]</span><span class="w">
+  </span><span class="p" data-group-id="2480489402-10">[</span><span class="w">
+    </span><span class="p" data-group-id="2480489402-11">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="2480489402-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2480489402-12">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="2480489402-12">]</span><span class="w">
+  </span><span class="p" data-group-id="2480489402-10">]</span><span class="w">
+</span><span class="p" data-group-id="2480489402-7">&gt;</span><span class="w">
+</span><span class="p" data-group-id="2480489402-13">#</span><span class="nc" data-group-id="2480489402-13">Nx.Tensor</span><span class="p" data-group-id="2480489402-13">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2480489402-14">[</span><span class="mi">2</span><span class="p" data-group-id="2480489402-14">]</span><span class="p" data-group-id="2480489402-15">[</span><span class="mi">8</span><span class="p" data-group-id="2480489402-15">]</span><span class="w">
+  </span><span class="p" data-group-id="2480489402-16">[</span><span class="w">
+    </span><span class="p" data-group-id="2480489402-17">[</span><span class="o">-</span><span class="mf">0.6438822746276855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9047577381134033</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9005677103996277</span><span class="p">,</span><span class="w"> </span><span class="mf">1.593727946281433</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4294962882995605</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7334585189819336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7356647253036499</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7708399295806885</span><span class="p" data-group-id="2480489402-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2480489402-18">[</span><span class="mf">0.12331989407539368</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.465315818786621</span><span class="p">,</span><span class="w"> </span><span class="mf">2.132427453994751</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2526159286499023</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0098886489868164</span><span class="p">,</span><span class="w"> </span><span class="mf">10.633148193359375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.20133376121521</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5171523094177246</span><span class="p" data-group-id="2480489402-18">]</span><span class="w">
+  </span><span class="p" data-group-id="2480489402-16">]</span><span class="w">
+</span><span class="p" data-group-id="2480489402-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5340552621-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5340552621-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5340552621-3">#</span><span class="nc" data-group-id="5340552621-3">Nx.Tensor</span><span class="p" data-group-id="5340552621-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5340552621-4">[</span><span class="mi">8</span><span class="p" data-group-id="5340552621-4">]</span><span class="w">
+      </span><span class="p" data-group-id="5340552621-5">[</span><span class="o">-</span><span class="mf">0.7136709690093994</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1671910583972931</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15292571485042572</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4267574548721313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.01234421506524086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11186791956424713</span><span class="p" data-group-id="5340552621-5">]</span><span class="w">
+    </span><span class="p" data-group-id="5340552621-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5340552621-6">#</span><span class="nc" data-group-id="5340552621-6">Nx.Tensor</span><span class="p" data-group-id="5340552621-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5340552621-7">[</span><span class="mi">4</span><span class="p" data-group-id="5340552621-7">]</span><span class="p" data-group-id="5340552621-8">[</span><span class="mi">8</span><span class="p" data-group-id="5340552621-8">]</span><span class="w">
+      </span><span class="p" data-group-id="5340552621-9">[</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-10">[</span><span class="o">-</span><span class="mf">2.8546838760375977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3343821167945862</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30585142970085144</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8535149097442627</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02468843013048172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22373583912849426</span><span class="p" data-group-id="5340552621-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-11">[</span><span class="o">-</span><span class="mf">3.568354845046997</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5015732049942017</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45877712965011597</span><span class="p">,</span><span class="w"> </span><span class="mf">4.280272483825684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03703264519572258</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3356037735939026</span><span class="p" data-group-id="5340552621-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-12">[</span><span class="o">-</span><span class="mf">4.2820258140563965</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6687642335891724</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6117028594017029</span><span class="p">,</span><span class="w"> </span><span class="mf">5.707029819488525</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04937686026096344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4474716782569885</span><span class="p" data-group-id="5340552621-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-13">[</span><span class="o">-</span><span class="mf">4.995697021484375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8359552621841431</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7646285891532898</span><span class="p">,</span><span class="w"> </span><span class="mf">7.133787155151367</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0617210753262043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5593395829200745</span><span class="p" data-group-id="5340552621-13">]</span><span class="w">
+      </span><span class="p" data-group-id="5340552621-9">]</span><span class="w">
+    </span><span class="p" data-group-id="5340552621-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5340552621-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5340552621-14">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5340552621-15">#</span><span class="nc" data-group-id="5340552621-15">Nx.Tensor</span><span class="p" data-group-id="5340552621-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5340552621-16">[</span><span class="mi">1</span><span class="p" data-group-id="5340552621-16">]</span><span class="w">
+      </span><span class="p" data-group-id="5340552621-17">[</span><span class="mf">2.0</span><span class="p" data-group-id="5340552621-17">]</span><span class="w">
+    </span><span class="p" data-group-id="5340552621-15">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5340552621-18">#</span><span class="nc" data-group-id="5340552621-18">Nx.Tensor</span><span class="p" data-group-id="5340552621-18">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5340552621-19">[</span><span class="mi">8</span><span class="p" data-group-id="5340552621-19">]</span><span class="p" data-group-id="5340552621-20">[</span><span class="mi">1</span><span class="p" data-group-id="5340552621-20">]</span><span class="w">
+      </span><span class="p" data-group-id="5340552621-21">[</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-22">[</span><span class="mf">0.12331989407539368</span><span class="p" data-group-id="5340552621-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="5340552621-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-24">[</span><span class="mf">3.0329952239990234</span><span class="p" data-group-id="5340552621-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-25">[</span><span class="mf">3.846343994140625</span><span class="p" data-group-id="5340552621-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-26">[</span><span class="mf">4.439384937286377</span><span class="p" data-group-id="5340552621-26">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-27">[</span><span class="mf">13.366606712341309</span><span class="p" data-group-id="5340552621-27">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-28">[</span><span class="mf">0.0</span><span class="p" data-group-id="5340552621-28">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5340552621-29">[</span><span class="mf">4.287992477416992</span><span class="p" data-group-id="5340552621-29">]</span><span class="w">
+      </span><span class="p" data-group-id="5340552621-21">]</span><span class="w">
+    </span><span class="p" data-group-id="5340552621-18">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5340552621-14">}</span><span class="w">
+</span><span class="p" data-group-id="5340552621-1">}</span></code></pre><p>Finally, you can specify hooks to only run when the model is built in a certain mode such as training and inference mode. You can read more about training and inference mode in <a href="training_and_inference_mode.html">Training and inference mode</a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3534949513-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3534949513-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3534949513-2">(</span><span class="mi">8</span><span class="p" data-group-id="3534949513-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="3534949513-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="3534949513-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3534949513-4">(</span><span class="p" data-group-id="3534949513-4">)</span><span class="w">
+
+</span><span class="p" data-group-id="3534949513-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3534949513-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3534949513-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="3534949513-6">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3534949513-7">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3534949513-8">%{</span><span class="p" data-group-id="3534949513-8">}</span><span class="p" data-group-id="3534949513-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2333834285-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2333834285-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2333834285-3">#</span><span class="nc" data-group-id="2333834285-3">Nx.Tensor</span><span class="p" data-group-id="2333834285-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2333834285-4">[</span><span class="mi">8</span><span class="p" data-group-id="2333834285-4">]</span><span class="w">
+      </span><span class="p" data-group-id="2333834285-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2333834285-5">]</span><span class="w">
+    </span><span class="p" data-group-id="2333834285-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2333834285-6">#</span><span class="nc" data-group-id="2333834285-6">Nx.Tensor</span><span class="p" data-group-id="2333834285-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2333834285-7">[</span><span class="mi">4</span><span class="p" data-group-id="2333834285-7">]</span><span class="p" data-group-id="2333834285-8">[</span><span class="mi">8</span><span class="p" data-group-id="2333834285-8">]</span><span class="w">
+      </span><span class="p" data-group-id="2333834285-9">[</span><span class="w">
+        </span><span class="p" data-group-id="2333834285-10">[</span><span class="mf">0.13930729031562805</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6213980913162231</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5555388331413269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18602639436721802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37516212463378906</span><span class="p">,</span><span class="w"> </span><span class="mf">0.025288991630077362</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5311357378959656</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2825106978416443</span><span class="p" data-group-id="2333834285-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2333834285-11">[</span><span class="o">-</span><span class="mf">0.14007511734962463</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1472432166337967</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.011716545559465885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06804006546735764</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4615606963634491</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.024897094815969467</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2336975485086441</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10019711405038834</span><span class="p" data-group-id="2333834285-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2333834285-12">[</span><span class="o">-</span><span class="mf">0.29539188742637634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5487134456634521</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41018739342689514</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49597275257110596</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2970600426197052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4304136335849762</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13961079716682434</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4316418170928955</span><span class="p" data-group-id="2333834285-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2333834285-13">[</span><span class="mf">0.5435506105422974</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.056049738079309464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5059406161308289</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29488587379455566</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5656863451004028</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43807661533355713</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5058187246322632</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6963644623756409</span><span class="p" data-group-id="2333834285-13">]</span><span class="w">
+      </span><span class="p" data-group-id="2333834285-9">]</span><span class="w">
+    </span><span class="p" data-group-id="2333834285-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2333834285-2">}</span><span class="w">
+</span><span class="p" data-group-id="2333834285-1">}</span></code></pre><p>The model was built in training mode so the hook will run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5233186951-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="5233186951-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3920962506-1">#</span><span class="nc" data-group-id="3920962506-1">Nx.Tensor</span><span class="p" data-group-id="3920962506-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3920962506-2">[</span><span class="mi">2</span><span class="p" data-group-id="3920962506-2">]</span><span class="p" data-group-id="3920962506-3">[</span><span class="mi">8</span><span class="p" data-group-id="3920962506-3">]</span><span class="w">
+  </span><span class="p" data-group-id="3920962506-4">[</span><span class="w">
+    </span><span class="p" data-group-id="3920962506-5">[</span><span class="mf">0.8997929096221924</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.412819266319275</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3264801502227783</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.039247818291187286</span><span class="p">,</span><span class="w"> </span><span class="mf">2.752739906311035</span><span class="p">,</span><span class="w"> </span><span class="mf">2.150160074234009</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4719321727752686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.852180004119873</span><span class="p" data-group-id="3920962506-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3920962506-6">[</span><span class="mf">1.8893564939498901</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9352525472640991</span><span class="p">,</span><span class="w"> </span><span class="mf">8.166281700134277</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3155406713485718</span><span class="p">,</span><span class="w"> </span><span class="mf">9.550616264343262</span><span class="p">,</span><span class="w"> </span><span class="mf">5.625688552856445</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7470110654830933</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.833373546600342</span><span class="p" data-group-id="3920962506-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3920962506-4">]</span><span class="w">
+</span><span class="p" data-group-id="3920962506-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4948853484-1">%{</span><span class="w">
+  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4948853484-2">#</span><span class="nc" data-group-id="4948853484-2">Nx.Tensor</span><span class="p" data-group-id="4948853484-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="4948853484-3">[</span><span class="mi">2</span><span class="p" data-group-id="4948853484-3">]</span><span class="p" data-group-id="4948853484-4">[</span><span class="mi">8</span><span class="p" data-group-id="4948853484-4">]</span><span class="w">
+    </span><span class="p" data-group-id="4948853484-5">[</span><span class="w">
+      </span><span class="p" data-group-id="4948853484-6">[</span><span class="mf">0.8997929096221924</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3264801502227783</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.752739906311035</span><span class="p">,</span><span class="w"> </span><span class="mf">2.150160074234009</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4948853484-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="4948853484-7">[</span><span class="mf">1.8893564939498901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.166281700134277</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">9.550616264343262</span><span class="p">,</span><span class="w"> </span><span class="mf">5.625688552856445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4948853484-7">]</span><span class="w">
+    </span><span class="p" data-group-id="4948853484-5">]</span><span class="w">
+  </span><span class="p" data-group-id="4948853484-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4948853484-8">%{</span><span class="p" data-group-id="4948853484-8">}</span><span class="w">
+</span><span class="p" data-group-id="4948853484-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4240809229-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4240809229-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4240809229-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="4240809229-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4240809229-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4240809229-4">%{</span><span class="p" data-group-id="4240809229-4">}</span><span class="p" data-group-id="4240809229-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3939839982-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3939839982-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3939839982-3">#</span><span class="nc" data-group-id="3939839982-3">Nx.Tensor</span><span class="p" data-group-id="3939839982-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3939839982-4">[</span><span class="mi">8</span><span class="p" data-group-id="3939839982-4">]</span><span class="w">
+      </span><span class="p" data-group-id="3939839982-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3939839982-5">]</span><span class="w">
+    </span><span class="p" data-group-id="3939839982-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3939839982-6">#</span><span class="nc" data-group-id="3939839982-6">Nx.Tensor</span><span class="p" data-group-id="3939839982-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3939839982-7">[</span><span class="mi">4</span><span class="p" data-group-id="3939839982-7">]</span><span class="p" data-group-id="3939839982-8">[</span><span class="mi">8</span><span class="p" data-group-id="3939839982-8">]</span><span class="w">
+      </span><span class="p" data-group-id="3939839982-9">[</span><span class="w">
+        </span><span class="p" data-group-id="3939839982-10">[</span><span class="mf">0.4261569678783417</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6842133402824402</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13853907585144043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6665098667144775</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6171062588691711</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25513389706611633</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4866299033164978</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5819953680038452</span><span class="p" data-group-id="3939839982-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3939839982-11">[</span><span class="o">-</span><span class="mf">0.36037471890449524</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21852241456508636</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6355746388435364</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5705516934394836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35449153184890747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1527744084596634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5036700367927551</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4164859354496002</span><span class="p" data-group-id="3939839982-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3939839982-12">[</span><span class="mf">0.6485253572463989</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30033791065216064</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35249730944633484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31768497824668884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.020564774051308632</span><span class="p">,</span><span class="w"> </span><span class="mf">0.147691547870636</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6939279437065125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6060985922813416</span><span class="p" data-group-id="3939839982-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3939839982-13">[</span><span class="mf">0.006978582590818405</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333927869796753</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30155065655708313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09574121236801147</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3447912037372589</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11081335693597794</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5808792114257812</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04360806941986084</span><span class="p" data-group-id="3939839982-13">]</span><span class="w">
+      </span><span class="p" data-group-id="3939839982-9">]</span><span class="w">
+    </span><span class="p" data-group-id="3939839982-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3939839982-2">}</span><span class="w">
+</span><span class="p" data-group-id="3939839982-1">}</span></code></pre><p>The model was built in inference mode so the hook will not run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0269516783-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="0269516783-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8784328632-1">#</span><span class="nc" data-group-id="8784328632-1">Nx.Tensor</span><span class="p" data-group-id="8784328632-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8784328632-2">[</span><span class="mi">2</span><span class="p" data-group-id="8784328632-2">]</span><span class="p" data-group-id="8784328632-3">[</span><span class="mi">8</span><span class="p" data-group-id="8784328632-3">]</span><span class="w">
+  </span><span class="p" data-group-id="8784328632-4">[</span><span class="w">
+    </span><span class="p" data-group-id="8784328632-5">[</span><span class="mf">0.9576117396354675</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9823317527770996</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9740719795227051</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7210116386413574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6268234252929688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9265354871749878</span><span class="p" data-group-id="8784328632-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8784328632-6">[</span><span class="mf">3.842756509780884</span><span class="p">,</span><span class="w"> </span><span class="mf">1.706311583518982</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49380895495414734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2328944206237793</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36711934208869934</span><span class="p">,</span><span class="w"> </span><span class="mf">3.764852285385132</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8784328632-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8784328632-4">]</span><span class="w">
+</span><span class="p" data-group-id="8784328632-1">&gt;</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/multi_input_multi_output_models.html b/multi_input_multi_output_models.html
index d2f50a5a..e7301d3a 100644
--- a/multi_input_multi_output_models.html
+++ b/multi_input_multi_output_models.html
@@ -115,64 +115,64 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0011277923-1">(</span><span class="p" data-group-id="0011277923-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0011277923-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="0011277923-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0011277923-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0011277923-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0011277923-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="0011277923-5">}</span><span class="w">
-</span><span class="p" data-group-id="0011277923-2">]</span><span class="p" data-group-id="0011277923-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-multi-input-models" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6044734865-1">(</span><span class="p" data-group-id="6044734865-2">[</span><span class="w">
+  </span><span class="p" data-group-id="6044734865-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="6044734865-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="6044734865-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6044734865-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="6044734865-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="6044734865-5">}</span><span class="w">
+</span><span class="p" data-group-id="6044734865-2">]</span><span class="p" data-group-id="6044734865-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-multi-input-models" class="section-heading">
   <a href="#creating-multi-input-models" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-multi-input-models</p>
   </a>
   Creating multi-input models
 </h2>
-<p>Sometimes your application necessitates the use of multiple inputs. To use multiple inputs in an Axon model, you just need to declare multiple inputs in your graph:</p><pre><code class="makeup elixir" translate="no"><span class="n">input_1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3253945401-1">(</span><span class="s">&quot;input_1&quot;</span><span class="p" data-group-id="3253945401-1">)</span><span class="w">
-</span><span class="n">input_2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3253945401-2">(</span><span class="s">&quot;input_2&quot;</span><span class="p" data-group-id="3253945401-2">)</span><span class="w">
+<p>Sometimes your application necessitates the use of multiple inputs. To use multiple inputs in an Axon model, you just need to declare multiple inputs in your graph:</p><pre><code class="makeup elixir" translate="no"><span class="n">input_1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6255670966-1">(</span><span class="s">&quot;input_1&quot;</span><span class="p" data-group-id="6255670966-1">)</span><span class="w">
+</span><span class="n">input_2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6255670966-2">(</span><span class="s">&quot;input_2&quot;</span><span class="p" data-group-id="6255670966-2">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="3253945401-3">(</span><span class="n">input_1</span><span class="p">,</span><span class="w"> </span><span class="n">input_2</span><span class="p" data-group-id="3253945401-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0109293866-1">#</span><span class="nc" data-group-id="0109293866-1">Axon</span><span class="p" data-group-id="0109293866-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0109293866-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="0109293866-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6255670966-3">(</span><span class="n">input_1</span><span class="p">,</span><span class="w"> </span><span class="n">input_2</span><span class="p" data-group-id="6255670966-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7646091013-1">#</span><span class="nc" data-group-id="7646091013-1">Axon</span><span class="p" data-group-id="7646091013-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7646091013-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="7646091013-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;add_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
-</span><span class="p" data-group-id="0109293866-1">&gt;</span></code></pre><p>Notice when you inspect the model, it tells you what your models inputs are up front. You can also get metadata about your model inputs programmatically with <a href="Axon.html#get_inputs/1"><code class="inline">Axon.get_inputs/1</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">get_inputs</span><span class="p" data-group-id="8139761707-1">(</span><span class="n">out</span><span class="p" data-group-id="8139761707-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9621460455-1">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="9621460455-1">}</span></code></pre><p>Each input is uniquely named, so you can pass inputs by-name into inspection and execution functions with a map:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1052043782-1">%{</span><span class="w">
-  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1052043782-2">(</span><span class="p" data-group-id="1052043782-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1052043782-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1052043782-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1052043782-4">(</span><span class="p" data-group-id="1052043782-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1052043782-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1052043782-4">)</span><span class="w">
-</span><span class="p" data-group-id="1052043782-1">}</span><span class="w">
+</span><span class="p" data-group-id="7646091013-1">&gt;</span></code></pre><p>Notice when you inspect the model, it tells you what your models inputs are up front. You can also get metadata about your model inputs programmatically with <a href="Axon.html#get_inputs/1"><code class="inline">Axon.get_inputs/1</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">get_inputs</span><span class="p" data-group-id="5710979428-1">(</span><span class="n">out</span><span class="p" data-group-id="5710979428-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2813699629-1">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="2813699629-1">}</span></code></pre><p>Each input is uniquely named, so you can pass inputs by-name into inspection and execution functions with a map:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5542290661-1">%{</span><span class="w">
+  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5542290661-2">(</span><span class="p" data-group-id="5542290661-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5542290661-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5542290661-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5542290661-4">(</span><span class="p" data-group-id="5542290661-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5542290661-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5542290661-4">)</span><span class="w">
+</span><span class="p" data-group-id="5542290661-1">}</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="1052043782-6">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="1052043782-6">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="5542290661-6">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="5542290661-6">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;input_1 (:input) {2, 8}&quot;/];
 4[/&quot;input_2 (:input) {2, 8}&quot;/];
 5[&quot;container_0 (:container) {{2, 8}, {2, 8}}&quot;];
 6[&quot;add_0 (:add) {2, 8}&quot;];
 5 --&gt; 6;
 4 --&gt; 5;
-3 --&gt; 5;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4177410604-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4177410604-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4177410604-2">(</span><span class="n">out</span><span class="p" data-group-id="4177410604-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4177410604-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4177410604-4">%{</span><span class="p" data-group-id="4177410604-4">}</span><span class="p" data-group-id="4177410604-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6743421046-1">%{</span><span class="p" data-group-id="6743421046-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="7144820582-1">%{</span><span class="w">
-  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7144820582-2">(</span><span class="p" data-group-id="7144820582-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7144820582-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7144820582-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7144820582-4">(</span><span class="p" data-group-id="7144820582-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7144820582-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7144820582-4">)</span><span class="w">
-</span><span class="p" data-group-id="7144820582-1">}</span><span class="w">
-
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7144820582-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7144820582-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8647226498-1">#</span><span class="nc" data-group-id="8647226498-1">Nx.Tensor</span><span class="p" data-group-id="8647226498-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8647226498-2">[</span><span class="mi">2</span><span class="p" data-group-id="8647226498-2">]</span><span class="p" data-group-id="8647226498-3">[</span><span class="mi">8</span><span class="p" data-group-id="8647226498-3">]</span><span class="w">
-  </span><span class="p" data-group-id="8647226498-4">[</span><span class="w">
-    </span><span class="p" data-group-id="8647226498-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.0</span><span class="p" data-group-id="8647226498-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="8647226498-6">[</span><span class="mf">16.0</span><span class="p">,</span><span class="w"> </span><span class="mf">18.0</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p">,</span><span class="w"> </span><span class="mf">22.0</span><span class="p">,</span><span class="w"> </span><span class="mf">24.0</span><span class="p">,</span><span class="w"> </span><span class="mf">26.0</span><span class="p">,</span><span class="w"> </span><span class="mf">28.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="8647226498-6">]</span><span class="w">
-  </span><span class="p" data-group-id="8647226498-4">]</span><span class="w">
-</span><span class="p" data-group-id="8647226498-1">&gt;</span></code></pre><p>If you forget a required input, Axon will raise:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0096722381-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0096722381-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0096722381-3">(</span><span class="p" data-group-id="0096722381-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0096722381-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0096722381-3">)</span><span class="p" data-group-id="0096722381-2">}</span><span class="p" data-group-id="0096722381-1">)</span></code></pre><h2 id="creating-multi-output-models" class="section-heading">
+3 --&gt; 5;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7078256855-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7078256855-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7078256855-2">(</span><span class="n">out</span><span class="p" data-group-id="7078256855-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7078256855-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7078256855-4">%{</span><span class="p" data-group-id="7078256855-4">}</span><span class="p" data-group-id="7078256855-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0943562342-1">%{</span><span class="p" data-group-id="0943562342-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1849003723-1">%{</span><span class="w">
+  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1849003723-2">(</span><span class="p" data-group-id="1849003723-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1849003723-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1849003723-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1849003723-4">(</span><span class="p" data-group-id="1849003723-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1849003723-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1849003723-4">)</span><span class="w">
+</span><span class="p" data-group-id="1849003723-1">}</span><span class="w">
+
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="1849003723-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="1849003723-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1108078225-1">#</span><span class="nc" data-group-id="1108078225-1">Nx.Tensor</span><span class="p" data-group-id="1108078225-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1108078225-2">[</span><span class="mi">2</span><span class="p" data-group-id="1108078225-2">]</span><span class="p" data-group-id="1108078225-3">[</span><span class="mi">8</span><span class="p" data-group-id="1108078225-3">]</span><span class="w">
+  </span><span class="p" data-group-id="1108078225-4">[</span><span class="w">
+    </span><span class="p" data-group-id="1108078225-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.0</span><span class="p" data-group-id="1108078225-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1108078225-6">[</span><span class="mf">16.0</span><span class="p">,</span><span class="w"> </span><span class="mf">18.0</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p">,</span><span class="w"> </span><span class="mf">22.0</span><span class="p">,</span><span class="w"> </span><span class="mf">24.0</span><span class="p">,</span><span class="w"> </span><span class="mf">26.0</span><span class="p">,</span><span class="w"> </span><span class="mf">28.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="1108078225-6">]</span><span class="w">
+  </span><span class="p" data-group-id="1108078225-4">]</span><span class="w">
+</span><span class="p" data-group-id="1108078225-1">&gt;</span></code></pre><p>If you forget a required input, Axon will raise:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5917591261-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5917591261-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5917591261-3">(</span><span class="p" data-group-id="5917591261-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5917591261-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5917591261-3">)</span><span class="p" data-group-id="5917591261-2">}</span><span class="p" data-group-id="5917591261-1">)</span></code></pre><h2 id="creating-multi-output-models" class="section-heading">
   <a href="#creating-multi-output-models" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-multi-output-models</p>
   </a>
   Creating multi-output models
 </h2>
-<p>Depending on your application, you might also want your model to have multiple outputs. You can achieve this by using <a href="Axon.html#container/2"><code class="inline">Axon.container/2</code></a> to wrap multiple nodes into any supported Nx container:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5987702111-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5987702111-1">)</span><span class="w">
+<p>Depending on your application, you might also want your model to have multiple outputs. You can achieve this by using <a href="Axon.html#container/2"><code class="inline">Axon.container/2</code></a> to wrap multiple nodes into any supported Nx container:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0482384472-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0482384472-1">)</span><span class="w">
 
-</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5987702111-2">(</span><span class="mi">32</span><span class="p" data-group-id="5987702111-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5987702111-3">(</span><span class="p" data-group-id="5987702111-3">)</span><span class="w">
-</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5987702111-4">(</span><span class="mi">64</span><span class="p" data-group-id="5987702111-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5987702111-5">(</span><span class="p" data-group-id="5987702111-5">)</span><span class="w">
+</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0482384472-2">(</span><span class="mi">32</span><span class="p" data-group-id="0482384472-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0482384472-3">(</span><span class="p" data-group-id="0482384472-3">)</span><span class="w">
+</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0482384472-4">(</span><span class="mi">64</span><span class="p" data-group-id="0482384472-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0482384472-5">(</span><span class="p" data-group-id="0482384472-5">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="5987702111-6">(</span><span class="p" data-group-id="5987702111-7">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="5987702111-7">}</span><span class="p" data-group-id="5987702111-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3222699557-1">#</span><span class="nc" data-group-id="3222699557-1">Axon</span><span class="p" data-group-id="3222699557-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3222699557-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="3222699557-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0482384472-6">(</span><span class="p" data-group-id="0482384472-7">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="0482384472-7">}</span><span class="p" data-group-id="0482384472-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4266008579-1">#</span><span class="nc" data-group-id="4266008579-1">Axon</span><span class="p" data-group-id="4266008579-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4266008579-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="4266008579-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;container_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="3222699557-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4292104717-1">(</span><span class="p" data-group-id="4292104717-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4292104717-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4292104717-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="4292104717-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="4292104717-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="4266008579-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0228971973-1">(</span><span class="p" data-group-id="0228971973-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0228971973-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0228971973-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0228971973-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="0228971973-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 7[/&quot;data (:input) {2, 8}&quot;/];
 10[&quot;dense_0 (:dense) {2, 32}&quot;];
 11[&quot;relu_0 (:relu) {2, 32}&quot;];
@@ -184,80 +184,80 @@ <h1>
 14 --&gt; 15;
 7 --&gt; 14;
 10 --&gt; 11;
-7 --&gt; 10;</code></pre><p>When executed, containers will return a data structure which matches their input structure:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4140648383-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4140648383-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4140648383-2">(</span><span class="n">out</span><span class="p" data-group-id="4140648383-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4140648383-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4140648383-4">%{</span><span class="p" data-group-id="4140648383-4">}</span><span class="p" data-group-id="4140648383-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4140648383-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4140648383-6">(</span><span class="p" data-group-id="4140648383-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4140648383-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4140648383-6">)</span><span class="p" data-group-id="4140648383-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8568011038-1">{</span><span class="p" data-group-id="8568011038-2">#</span><span class="nc" data-group-id="8568011038-2">Nx.Tensor</span><span class="p" data-group-id="8568011038-2">&lt;</span><span class="w">
-   </span><span class="n">f32</span><span class="p" data-group-id="8568011038-3">[</span><span class="mi">2</span><span class="p" data-group-id="8568011038-3">]</span><span class="p" data-group-id="8568011038-4">[</span><span class="mi">32</span><span class="p" data-group-id="8568011038-4">]</span><span class="w">
-   </span><span class="p" data-group-id="8568011038-5">[</span><span class="w">
-     </span><span class="p" data-group-id="8568011038-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.111135482788086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48920655250549316</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5125713348388672</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.482532262802124</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.103637933731079</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46897295117378235</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6465413570404053</span><span class="p">,</span><span class="w"> </span><span class="mf">2.837477445602417</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6159781217575073</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3220927715301514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24302834272384644</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4662821292877197</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40560781955718994</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2682836055755615</span><span class="p">,</span><span class="w"> </span><span class="mf">3.5352964401245117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6591103672981262</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5643503665924072</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8568011038-6">]</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="8568011038-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.642599105834961</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8978865146636963</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2522430419921875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2110804319381714</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5524141788482666</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.742849588394165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.30776596069336</span><span class="p">,</span><span class="w"> </span><span class="mf">5.09386682510376</span><span class="p">,</span><span class="w"> </span><span class="mf">4.69991397857666</span><span class="p">,</span><span class="w"> </span><span class="mf">5.195588111877441</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8568011038-7">]</span><span class="w">
-   </span><span class="p" data-group-id="8568011038-5">]</span><span class="w">
- </span><span class="p" data-group-id="8568011038-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="8568011038-8">#</span><span class="nc" data-group-id="8568011038-8">Nx.Tensor</span><span class="p" data-group-id="8568011038-8">&lt;</span><span class="w">
-   </span><span class="n">f32</span><span class="p" data-group-id="8568011038-9">[</span><span class="mi">2</span><span class="p" data-group-id="8568011038-9">]</span><span class="p" data-group-id="8568011038-10">[</span><span class="mi">64</span><span class="p" data-group-id="8568011038-10">]</span><span class="w">
-   </span><span class="p" data-group-id="8568011038-11">[</span><span class="w">
-     </span><span class="p" data-group-id="8568011038-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7948622107505798</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3980231285095215</span><span class="p">,</span><span class="w"> </span><span class="mf">5.2512712478637695</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5820361375808716</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6624603271484375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6954007148742676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.017102837562561035</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7754535675048828</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.891753911972046</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7824556827545166</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5906356573104858</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.288651466369629</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6939071416854858</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8427785038948059</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5664646625518799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38097164034843445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3193289637565613</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35316526889801025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2567038536071777</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7732977867126465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16440902650356293</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9872947931289673</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8568011038-12">]</span><span class="p">,</span><span class="w">
+7 --&gt; 10;</code></pre><p>When executed, containers will return a data structure which matches their input structure:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2774318646-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="2774318646-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="2774318646-2">(</span><span class="n">out</span><span class="p" data-group-id="2774318646-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2774318646-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2774318646-4">%{</span><span class="p" data-group-id="2774318646-4">}</span><span class="p" data-group-id="2774318646-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="2774318646-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2774318646-6">(</span><span class="p" data-group-id="2774318646-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="2774318646-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="2774318646-6">)</span><span class="p" data-group-id="2774318646-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6277479696-1">{</span><span class="p" data-group-id="6277479696-2">#</span><span class="nc" data-group-id="6277479696-2">Nx.Tensor</span><span class="p" data-group-id="6277479696-2">&lt;</span><span class="w">
+   </span><span class="n">f32</span><span class="p" data-group-id="6277479696-3">[</span><span class="mi">2</span><span class="p" data-group-id="6277479696-3">]</span><span class="p" data-group-id="6277479696-4">[</span><span class="mi">32</span><span class="p" data-group-id="6277479696-4">]</span><span class="w">
+   </span><span class="p" data-group-id="6277479696-5">[</span><span class="w">
+     </span><span class="p" data-group-id="6277479696-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.111135482788086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48920655250549316</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5125713348388672</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.482532262802124</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.103637933731079</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46897295117378235</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6465413570404053</span><span class="p">,</span><span class="w"> </span><span class="mf">2.837477445602417</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6159781217575073</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3220927715301514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24302834272384644</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4662821292877197</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40560781955718994</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2682836055755615</span><span class="p">,</span><span class="w"> </span><span class="mf">3.5352964401245117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6591103672981262</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5643503665924072</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6277479696-6">]</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="6277479696-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.642599105834961</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8978865146636963</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2522430419921875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2110804319381714</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5524141788482666</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.742849588394165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.30776596069336</span><span class="p">,</span><span class="w"> </span><span class="mf">5.09386682510376</span><span class="p">,</span><span class="w"> </span><span class="mf">4.69991397857666</span><span class="p">,</span><span class="w"> </span><span class="mf">5.195588111877441</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6277479696-7">]</span><span class="w">
+   </span><span class="p" data-group-id="6277479696-5">]</span><span class="w">
+ </span><span class="p" data-group-id="6277479696-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="6277479696-8">#</span><span class="nc" data-group-id="6277479696-8">Nx.Tensor</span><span class="p" data-group-id="6277479696-8">&lt;</span><span class="w">
+   </span><span class="n">f32</span><span class="p" data-group-id="6277479696-9">[</span><span class="mi">2</span><span class="p" data-group-id="6277479696-9">]</span><span class="p" data-group-id="6277479696-10">[</span><span class="mi">64</span><span class="p" data-group-id="6277479696-10">]</span><span class="w">
+   </span><span class="p" data-group-id="6277479696-11">[</span><span class="w">
+     </span><span class="p" data-group-id="6277479696-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7948622107505798</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3980231285095215</span><span class="p">,</span><span class="w"> </span><span class="mf">5.2512712478637695</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5820361375808716</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6624603271484375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6954007148742676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.017102837562561035</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7754535675048828</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.891753911972046</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7824556827545166</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5906356573104858</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.288651466369629</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6939071416854858</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8427785038948059</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5664646625518799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38097164034843445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3193289637565613</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35316526889801025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2567038536071777</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7732977867126465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16440902650356293</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9872947931289673</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6277479696-12">]</span><span class="p">,</span><span class="w">
      </span><span class="n">...</span><span class="w">
-   </span><span class="p" data-group-id="8568011038-11">]</span><span class="w">
- </span><span class="p" data-group-id="8568011038-8">&gt;</span><span class="p" data-group-id="8568011038-1">}</span></code></pre><p>You can output maps as well:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0531077628-1">(</span><span class="p" data-group-id="0531077628-2">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="0531077628-2">}</span><span class="p" data-group-id="0531077628-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0246118934-1">#</span><span class="nc" data-group-id="0246118934-1">Axon</span><span class="p" data-group-id="0246118934-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0246118934-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="0246118934-2">}</span><span class="w">
+   </span><span class="p" data-group-id="6277479696-11">]</span><span class="w">
+ </span><span class="p" data-group-id="6277479696-8">&gt;</span><span class="p" data-group-id="6277479696-1">}</span></code></pre><p>You can output maps as well:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0036361407-1">(</span><span class="p" data-group-id="0036361407-2">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="0036361407-2">}</span><span class="p" data-group-id="0036361407-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5891154732-1">#</span><span class="nc" data-group-id="5891154732-1">Axon</span><span class="p" data-group-id="5891154732-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5891154732-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="5891154732-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;container_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="0246118934-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4811372361-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4811372361-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4811372361-2">(</span><span class="n">out</span><span class="p" data-group-id="4811372361-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4811372361-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4811372361-4">%{</span><span class="p" data-group-id="4811372361-4">}</span><span class="p" data-group-id="4811372361-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4811372361-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4811372361-6">(</span><span class="p" data-group-id="4811372361-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4811372361-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4811372361-6">)</span><span class="p" data-group-id="4811372361-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2376847995-1">%{</span><span class="w">
-  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2376847995-2">#</span><span class="nc" data-group-id="2376847995-2">Nx.Tensor</span><span class="p" data-group-id="2376847995-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="2376847995-3">[</span><span class="mi">2</span><span class="p" data-group-id="2376847995-3">]</span><span class="p" data-group-id="2376847995-4">[</span><span class="mi">32</span><span class="p" data-group-id="2376847995-4">]</span><span class="w">
-    </span><span class="p" data-group-id="2376847995-5">[</span><span class="w">
-      </span><span class="p" data-group-id="2376847995-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8718442916870117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.813383936882019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0636630058288574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1350113153457642</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7888737916946411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0658932775259018</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4498137831687927</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1311852931976318</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2784717082977295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4505443572998047</span><span class="p">,</span><span class="w"> </span><span class="mf">3.346879005432129</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.614570140838623</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8967163562774658</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2376847995-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="2376847995-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9045438766479492</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.110898971557617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09859625995159149</span><span class="p">,</span><span class="w"> </span><span class="mf">8.149545669555664</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.178244113922119</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.8360297679901123</span><span class="p">,</span><span class="w"> </span><span class="mf">6.177351474761963</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="2376847995-7">]</span><span class="w">
-    </span><span class="p" data-group-id="2376847995-5">]</span><span class="w">
-  </span><span class="p" data-group-id="2376847995-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2376847995-8">#</span><span class="nc" data-group-id="2376847995-8">Nx.Tensor</span><span class="p" data-group-id="2376847995-8">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="2376847995-9">[</span><span class="mi">2</span><span class="p" data-group-id="2376847995-9">]</span><span class="p" data-group-id="2376847995-10">[</span><span class="mi">64</span><span class="p" data-group-id="2376847995-10">]</span><span class="w">
-    </span><span class="p" data-group-id="2376847995-11">[</span><span class="w">
-      </span><span class="p" data-group-id="2376847995-12">[</span><span class="mf">0.41670602560043335</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.338260531425476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5181264877319336</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1024510860443115</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.485485553741455</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9365136623382568</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6925604343414307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6202171444892883</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08886899054050446</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3045244216918945</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0545249879360199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2294358015060425</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.670710563659668</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.161868572235107</span><span class="p">,</span><span class="w"> </span><span class="mf">1.880513072013855</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6189277172088623</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5702207684516907</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.953904151916504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.370330572128296</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17245425283908844</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9922431707382202</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6845364570617676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3711611032485962</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7940037250518799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.12975811958313</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="2376847995-12">]</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="5891154732-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0815239117-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0815239117-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0815239117-2">(</span><span class="n">out</span><span class="p" data-group-id="0815239117-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0815239117-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0815239117-4">%{</span><span class="p" data-group-id="0815239117-4">}</span><span class="p" data-group-id="0815239117-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0815239117-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0815239117-6">(</span><span class="p" data-group-id="0815239117-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0815239117-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0815239117-6">)</span><span class="p" data-group-id="0815239117-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5312193808-1">%{</span><span class="w">
+  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5312193808-2">#</span><span class="nc" data-group-id="5312193808-2">Nx.Tensor</span><span class="p" data-group-id="5312193808-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="5312193808-3">[</span><span class="mi">2</span><span class="p" data-group-id="5312193808-3">]</span><span class="p" data-group-id="5312193808-4">[</span><span class="mi">32</span><span class="p" data-group-id="5312193808-4">]</span><span class="w">
+    </span><span class="p" data-group-id="5312193808-5">[</span><span class="w">
+      </span><span class="p" data-group-id="5312193808-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8718442916870117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.813383936882019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0636630058288574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1350113153457642</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7888737916946411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0658932775259018</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4498137831687927</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1311852931976318</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2784717082977295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4505443572998047</span><span class="p">,</span><span class="w"> </span><span class="mf">3.346879005432129</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.614570140838623</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8967163562774658</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5312193808-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5312193808-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9045438766479492</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.110898971557617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09859625995159149</span><span class="p">,</span><span class="w"> </span><span class="mf">8.149545669555664</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.178244113922119</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.8360297679901123</span><span class="p">,</span><span class="w"> </span><span class="mf">6.177351474761963</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5312193808-7">]</span><span class="w">
+    </span><span class="p" data-group-id="5312193808-5">]</span><span class="w">
+  </span><span class="p" data-group-id="5312193808-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5312193808-8">#</span><span class="nc" data-group-id="5312193808-8">Nx.Tensor</span><span class="p" data-group-id="5312193808-8">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="5312193808-9">[</span><span class="mi">2</span><span class="p" data-group-id="5312193808-9">]</span><span class="p" data-group-id="5312193808-10">[</span><span class="mi">64</span><span class="p" data-group-id="5312193808-10">]</span><span class="w">
+    </span><span class="p" data-group-id="5312193808-11">[</span><span class="w">
+      </span><span class="p" data-group-id="5312193808-12">[</span><span class="mf">0.41670602560043335</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.338260531425476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5181264877319336</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1024510860443115</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.485485553741455</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9365136623382568</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6925604343414307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6202171444892883</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08886899054050446</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3045244216918945</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0545249879360199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2294358015060425</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.670710563659668</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.161868572235107</span><span class="p">,</span><span class="w"> </span><span class="mf">1.880513072013855</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6189277172088623</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5702207684516907</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.953904151916504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.370330572128296</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17245425283908844</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9922431707382202</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6845364570617676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3711611032485962</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7940037250518799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.12975811958313</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5312193808-12">]</span><span class="p">,</span><span class="w">
       </span><span class="n">...</span><span class="w">
-    </span><span class="p" data-group-id="2376847995-11">]</span><span class="w">
-  </span><span class="p" data-group-id="2376847995-8">&gt;</span><span class="w">
-</span><span class="p" data-group-id="2376847995-1">}</span></code></pre><p>Containers even support arbitrary nesting:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="9424754543-1">(</span><span class="p" data-group-id="9424754543-2">{</span><span class="p" data-group-id="9424754543-3">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9424754543-4">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="9424754543-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9424754543-5">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9424754543-6">{</span><span class="n">x2</span><span class="p" data-group-id="9424754543-6">}</span><span class="p" data-group-id="9424754543-5">}</span><span class="p" data-group-id="9424754543-3">}</span><span class="p" data-group-id="9424754543-2">}</span><span class="p" data-group-id="9424754543-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2231147635-1">#</span><span class="nc" data-group-id="2231147635-1">Axon</span><span class="p" data-group-id="2231147635-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2231147635-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="2231147635-2">}</span><span class="w">
+    </span><span class="p" data-group-id="5312193808-11">]</span><span class="w">
+  </span><span class="p" data-group-id="5312193808-8">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5312193808-1">}</span></code></pre><p>Containers even support arbitrary nesting:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="3035073059-1">(</span><span class="p" data-group-id="3035073059-2">{</span><span class="p" data-group-id="3035073059-3">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3035073059-4">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="3035073059-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3035073059-5">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3035073059-6">{</span><span class="n">x2</span><span class="p" data-group-id="3035073059-6">}</span><span class="p" data-group-id="3035073059-5">}</span><span class="p" data-group-id="3035073059-3">}</span><span class="p" data-group-id="3035073059-2">}</span><span class="p" data-group-id="3035073059-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8087143938-1">#</span><span class="nc" data-group-id="8087143938-1">Axon</span><span class="p" data-group-id="8087143938-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8087143938-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="8087143938-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;container_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="2231147635-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5722723042-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5722723042-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5722723042-2">(</span><span class="n">out</span><span class="p" data-group-id="5722723042-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5722723042-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5722723042-4">%{</span><span class="p" data-group-id="5722723042-4">}</span><span class="p" data-group-id="5722723042-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5722723042-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5722723042-6">(</span><span class="p" data-group-id="5722723042-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5722723042-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5722723042-6">)</span><span class="p" data-group-id="5722723042-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5830413526-1">{</span><span class="p" data-group-id="5830413526-2">%{</span><span class="w">
-   </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5830413526-3">{</span><span class="p" data-group-id="5830413526-4">#</span><span class="nc" data-group-id="5830413526-4">Nx.Tensor</span><span class="p" data-group-id="5830413526-4">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5830413526-5">[</span><span class="mi">2</span><span class="p" data-group-id="5830413526-5">]</span><span class="p" data-group-id="5830413526-6">[</span><span class="mi">32</span><span class="p" data-group-id="5830413526-6">]</span><span class="w">
-      </span><span class="p" data-group-id="5830413526-7">[</span><span class="w">
-        </span><span class="p" data-group-id="5830413526-8">[</span><span class="mf">3.9104199409484863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.051666498184204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.086042881011963</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6107193827629089</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5136545896530151</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7927842140197754</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.472961902618408</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13712915778160095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49807000160217285</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7868735790252686</span><span class="p">,</span><span class="w"> </span><span class="mf">5.796293258666992</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.727283477783203</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.129516363143921</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5830413526-8">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5830413526-9">[</span><span class="mf">11.746908187866211</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.840534687042236</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.103122711181641</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0597835779190063</span><span class="p">,</span><span class="w"> </span><span class="mf">8.971627235412598</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5830413526-9">]</span><span class="w">
-      </span><span class="p" data-group-id="5830413526-7">]</span><span class="w">
-    </span><span class="p" data-group-id="5830413526-4">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5830413526-10">#</span><span class="nc" data-group-id="5830413526-10">Nx.Tensor</span><span class="p" data-group-id="5830413526-10">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5830413526-11">[</span><span class="mi">2</span><span class="p" data-group-id="5830413526-11">]</span><span class="p" data-group-id="5830413526-12">[</span><span class="mi">64</span><span class="p" data-group-id="5830413526-12">]</span><span class="w">
-      </span><span class="p" data-group-id="5830413526-13">[</span><span class="w">
-        </span><span class="p" data-group-id="5830413526-14">[</span><span class="mf">0.951026439666748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6895619034767151</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12973949313163757</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0561492443084717</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21812109649181366</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6377829313278198</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6837494373321533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3907173871994019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21352148056030273</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2145031690597534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.080430507659912</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.9572620391845703</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3347463607788086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5280991196632385</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.616438627243042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1335082054138184</span><span class="p">,</span><span class="w"> </span><span class="mf">2.228783369064331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0927692651748657</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7719650268554688</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5830413526-14">]</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="8087143938-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6539059367-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6539059367-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6539059367-2">(</span><span class="n">out</span><span class="p" data-group-id="6539059367-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6539059367-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6539059367-4">%{</span><span class="p" data-group-id="6539059367-4">}</span><span class="p" data-group-id="6539059367-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6539059367-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6539059367-6">(</span><span class="p" data-group-id="6539059367-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6539059367-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6539059367-6">)</span><span class="p" data-group-id="6539059367-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9036840777-1">{</span><span class="p" data-group-id="9036840777-2">%{</span><span class="w">
+   </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9036840777-3">{</span><span class="p" data-group-id="9036840777-4">#</span><span class="nc" data-group-id="9036840777-4">Nx.Tensor</span><span class="p" data-group-id="9036840777-4">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9036840777-5">[</span><span class="mi">2</span><span class="p" data-group-id="9036840777-5">]</span><span class="p" data-group-id="9036840777-6">[</span><span class="mi">32</span><span class="p" data-group-id="9036840777-6">]</span><span class="w">
+      </span><span class="p" data-group-id="9036840777-7">[</span><span class="w">
+        </span><span class="p" data-group-id="9036840777-8">[</span><span class="mf">3.9104199409484863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.051666498184204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.086042881011963</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6107193827629089</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5136545896530151</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7927842140197754</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.472961902618408</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13712915778160095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49807000160217285</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7868735790252686</span><span class="p">,</span><span class="w"> </span><span class="mf">5.796293258666992</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.727283477783203</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.129516363143921</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9036840777-8">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9036840777-9">[</span><span class="mf">11.746908187866211</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.840534687042236</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.103122711181641</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0597835779190063</span><span class="p">,</span><span class="w"> </span><span class="mf">8.971627235412598</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="9036840777-9">]</span><span class="w">
+      </span><span class="p" data-group-id="9036840777-7">]</span><span class="w">
+    </span><span class="p" data-group-id="9036840777-4">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9036840777-10">#</span><span class="nc" data-group-id="9036840777-10">Nx.Tensor</span><span class="p" data-group-id="9036840777-10">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9036840777-11">[</span><span class="mi">2</span><span class="p" data-group-id="9036840777-11">]</span><span class="p" data-group-id="9036840777-12">[</span><span class="mi">64</span><span class="p" data-group-id="9036840777-12">]</span><span class="w">
+      </span><span class="p" data-group-id="9036840777-13">[</span><span class="w">
+        </span><span class="p" data-group-id="9036840777-14">[</span><span class="mf">0.951026439666748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6895619034767151</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12973949313163757</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0561492443084717</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21812109649181366</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6377829313278198</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6837494373321533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3907173871994019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21352148056030273</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2145031690597534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.080430507659912</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.9572620391845703</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3347463607788086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5280991196632385</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.616438627243042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1335082054138184</span><span class="p">,</span><span class="w"> </span><span class="mf">2.228783369064331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0927692651748657</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7719650268554688</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="9036840777-14">]</span><span class="p">,</span><span class="w">
         </span><span class="n">...</span><span class="w">
-      </span><span class="p" data-group-id="5830413526-13">]</span><span class="w">
-    </span><span class="p" data-group-id="5830413526-10">&gt;</span><span class="p" data-group-id="5830413526-3">}</span><span class="p">,</span><span class="w">
-   </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5830413526-15">%{</span><span class="w">
-     </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5830413526-16">#</span><span class="nc" data-group-id="5830413526-16">Nx.Tensor</span><span class="p" data-group-id="5830413526-16">&lt;</span><span class="w">
-       </span><span class="n">f32</span><span class="p" data-group-id="5830413526-17">[</span><span class="mi">2</span><span class="p" data-group-id="5830413526-17">]</span><span class="p" data-group-id="5830413526-18">[</span><span class="mi">32</span><span class="p" data-group-id="5830413526-18">]</span><span class="w">
-       </span><span class="p" data-group-id="5830413526-19">[</span><span class="w">
-         </span><span class="p" data-group-id="5830413526-20">[</span><span class="mf">3.9104199409484863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.051666498184204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.086042881011963</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6107193827629089</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5136545896530151</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7927842140197754</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.472961902618408</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13712915778160095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49807000160217285</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7868735790252686</span><span class="p">,</span><span class="w"> </span><span class="mf">5.796293258666992</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.727283477783203</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.129516363143921</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5830413526-20">]</span><span class="p">,</span><span class="w">
-         </span><span class="p" data-group-id="5830413526-21">[</span><span class="mf">11.746908187866211</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.840534687042236</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.103122711181641</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0597835779190063</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5830413526-21">]</span><span class="w">
-       </span><span class="p" data-group-id="5830413526-19">]</span><span class="w">
-     </span><span class="p" data-group-id="5830413526-16">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5830413526-22">{</span><span class="p" data-group-id="5830413526-23">#</span><span class="nc" data-group-id="5830413526-23">Nx.Tensor</span><span class="p" data-group-id="5830413526-23">&lt;</span><span class="w">
-        </span><span class="n">f32</span><span class="p" data-group-id="5830413526-24">[</span><span class="mi">2</span><span class="p" data-group-id="5830413526-24">]</span><span class="p" data-group-id="5830413526-25">[</span><span class="mi">64</span><span class="p" data-group-id="5830413526-25">]</span><span class="w">
-        </span><span class="p" data-group-id="5830413526-26">[</span><span class="w">
-          </span><span class="p" data-group-id="5830413526-27">[</span><span class="mf">0.951026439666748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6895619034767151</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12973949313163757</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0561492443084717</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21812109649181366</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6377829313278198</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6837494373321533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3907173871994019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21352148056030273</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2145031690597534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.080430507659912</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.9572620391845703</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3347463607788086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5280991196632385</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.616438627243042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1335082054138184</span><span class="p">,</span><span class="w"> </span><span class="mf">2.228783369064331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0927692651748657</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5830413526-27">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="9036840777-13">]</span><span class="w">
+    </span><span class="p" data-group-id="9036840777-10">&gt;</span><span class="p" data-group-id="9036840777-3">}</span><span class="p">,</span><span class="w">
+   </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9036840777-15">%{</span><span class="w">
+     </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9036840777-16">#</span><span class="nc" data-group-id="9036840777-16">Nx.Tensor</span><span class="p" data-group-id="9036840777-16">&lt;</span><span class="w">
+       </span><span class="n">f32</span><span class="p" data-group-id="9036840777-17">[</span><span class="mi">2</span><span class="p" data-group-id="9036840777-17">]</span><span class="p" data-group-id="9036840777-18">[</span><span class="mi">32</span><span class="p" data-group-id="9036840777-18">]</span><span class="w">
+       </span><span class="p" data-group-id="9036840777-19">[</span><span class="w">
+         </span><span class="p" data-group-id="9036840777-20">[</span><span class="mf">3.9104199409484863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.051666498184204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.086042881011963</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6107193827629089</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5136545896530151</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7927842140197754</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.472961902618408</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13712915778160095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49807000160217285</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7868735790252686</span><span class="p">,</span><span class="w"> </span><span class="mf">5.796293258666992</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.727283477783203</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.129516363143921</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9036840777-20">]</span><span class="p">,</span><span class="w">
+         </span><span class="p" data-group-id="9036840777-21">[</span><span class="mf">11.746908187866211</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.840534687042236</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.103122711181641</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0597835779190063</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="9036840777-21">]</span><span class="w">
+       </span><span class="p" data-group-id="9036840777-19">]</span><span class="w">
+     </span><span class="p" data-group-id="9036840777-16">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9036840777-22">{</span><span class="p" data-group-id="9036840777-23">#</span><span class="nc" data-group-id="9036840777-23">Nx.Tensor</span><span class="p" data-group-id="9036840777-23">&lt;</span><span class="w">
+        </span><span class="n">f32</span><span class="p" data-group-id="9036840777-24">[</span><span class="mi">2</span><span class="p" data-group-id="9036840777-24">]</span><span class="p" data-group-id="9036840777-25">[</span><span class="mi">64</span><span class="p" data-group-id="9036840777-25">]</span><span class="w">
+        </span><span class="p" data-group-id="9036840777-26">[</span><span class="w">
+          </span><span class="p" data-group-id="9036840777-27">[</span><span class="mf">0.951026439666748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6895619034767151</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12973949313163757</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0561492443084717</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21812109649181366</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6377829313278198</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6837494373321533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3907173871994019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21352148056030273</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2145031690597534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.080430507659912</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.9572620391845703</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3347463607788086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5280991196632385</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.616438627243042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1335082054138184</span><span class="p">,</span><span class="w"> </span><span class="mf">2.228783369064331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0927692651748657</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="9036840777-27">]</span><span class="p">,</span><span class="w">
           </span><span class="n">...</span><span class="w">
-        </span><span class="p" data-group-id="5830413526-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5830413526-23">&gt;</span><span class="p" data-group-id="5830413526-22">}</span><span class="w">
-   </span><span class="p" data-group-id="5830413526-15">}</span><span class="w">
- </span><span class="p" data-group-id="5830413526-2">}</span><span class="p" data-group-id="5830413526-1">}</span></code></pre>
+        </span><span class="p" data-group-id="9036840777-26">]</span><span class="w">
+      </span><span class="p" data-group-id="9036840777-23">&gt;</span><span class="p" data-group-id="9036840777-22">}</span><span class="w">
+   </span><span class="p" data-group-id="9036840777-15">}</span><span class="w">
+ </span><span class="p" data-group-id="9036840777-2">}</span><span class="p" data-group-id="9036840777-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/onnx_to_axon.html b/onnx_to_axon.html
index 4e723d71..ea10f3f7 100644
--- a/onnx_to_axon.html
+++ b/onnx_to_axon.html
@@ -115,18 +115,18 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="7871487424-1">(</span><span class="w">
-  </span><span class="p" data-group-id="7871487424-2">[</span><span class="w">
-    </span><span class="p" data-group-id="7871487424-3">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3&quot;</span><span class="p" data-group-id="7871487424-3">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7871487424-4">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.2&quot;</span><span class="p" data-group-id="7871487424-4">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7871487424-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3&quot;</span><span class="p" data-group-id="7871487424-5">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7871487424-6">{</span><span class="ss">:axon_onnx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.2&quot;</span><span class="p" data-group-id="7871487424-6">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7871487424-7">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5&quot;</span><span class="p" data-group-id="7871487424-7">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7871487424-8">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="7871487424-8">}</span><span class="w">
-  </span><span class="p" data-group-id="7871487424-2">]</span><span class="p">,</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2770790992-1">(</span><span class="w">
+  </span><span class="p" data-group-id="2770790992-2">[</span><span class="w">
+    </span><span class="p" data-group-id="2770790992-3">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3&quot;</span><span class="p" data-group-id="2770790992-3">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2770790992-4">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.2&quot;</span><span class="p" data-group-id="2770790992-4">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2770790992-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3&quot;</span><span class="p" data-group-id="2770790992-5">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2770790992-6">{</span><span class="ss">:axon_onnx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.2&quot;</span><span class="p" data-group-id="2770790992-6">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2770790992-7">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5&quot;</span><span class="p" data-group-id="2770790992-7">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2770790992-8">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="2770790992-8">}</span><span class="w">
+  </span><span class="p" data-group-id="2770790992-2">]</span><span class="p">,</span><span class="w">
   </span><span class="c1"># change to &quot;cuda111&quot; for Nvidia GPU</span><span class="w">
-  </span><span class="ss">system_env</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7871487424-9">%{</span><span class="s">&quot;XLA_TARGET&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">xla_target</span><span class="p" data-group-id="7871487424-9">}</span><span class="w">
-</span><span class="p" data-group-id="7871487424-1">)</span></code></pre><h2 id="converting-an-onnx-model-into-axon" class="section-heading">
+  </span><span class="ss">system_env</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2770790992-9">%{</span><span class="s">&quot;XLA_TARGET&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">xla_target</span><span class="p" data-group-id="2770790992-9">}</span><span class="w">
+</span><span class="p" data-group-id="2770790992-1">)</span></code></pre><h2 id="converting-an-onnx-model-into-axon" class="section-heading">
   <a href="#converting-an-onnx-model-into-axon" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">converting-an-onnx-model-into-axon</p>
   </a>
@@ -162,11 +162,11 @@ <h1>
 <a href="https://github.com/elixir-nx/axon_onnx"><code class="inline">axon_onnx</code></a>.</p><p>You can find all dependencies in the installation cell at the top of the notebook.
 In there, you will also find the <code class="inline">XLA_TARGET</code> environment variable whick you can set
 to &quot;cuda111&quot; or &quot;rocm&quot; if you have any of those GPUs available.  Let's also configure
-Nx to store tensors in EXLA by default:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="2913489592-1">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="2913489592-1">)</span></code></pre><p>We'll also need local access to ONNX files.  For this notebook, the models/onnx folder
+Nx to store tensors in EXLA by default:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="8954662547-1">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="8954662547-1">)</span></code></pre><p>We'll also need local access to ONNX files.  For this notebook, the models/onnx folder
 contains the ONNX model file.  This notebook assumes the output file location will be
 in models axon.  Copy your ONNX model files into the models/onnx folder.</p><p>This opinionated module presents a simple API for loading in an ONNX file and saving
 the converted Axon model in the provided directory. This API will allow us to
-save multiple models pretty quickly.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">OnnxToAxon</span><span class="w"> </span><span class="k" data-group-id="4208739968-1">do</span><span class="w">
+save multiple models pretty quickly.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">OnnxToAxon</span><span class="w"> </span><span class="k" data-group-id="9814635854-1">do</span><span class="w">
   </span><span class="na">@moduledoc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Helper module from ONNX to Axon.
   &quot;&quot;&quot;</span><span class="w">
@@ -179,40 +179,40 @@ <h1>
       iex&gt; OnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)
 
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">onnx_axon</span><span class="p" data-group-id="4208739968-2">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="4208739968-2">)</span><span class="w"> </span><span class="k" data-group-id="4208739968-3">do</span><span class="w">
-    </span><span class="n">axon_name</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">axon_name_from_onnx_path</span><span class="p" data-group-id="4208739968-4">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="4208739968-4">)</span><span class="w">
-    </span><span class="n">path_to_axon</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">join</span><span class="p" data-group-id="4208739968-5">(</span><span class="n">path_to_axon_dir</span><span class="p">,</span><span class="w"> </span><span class="n">axon_name</span><span class="p" data-group-id="4208739968-5">)</span><span class="w">
-
-    </span><span class="p" data-group-id="4208739968-6">{</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="4208739968-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">AxonOnnx</span><span class="o">.</span><span class="kn">import</span><span class="p" data-group-id="4208739968-7">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="4208739968-7">)</span><span class="w">
-    </span><span class="n">model_bytes</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="4208739968-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="4208739968-8">)</span><span class="w">
-    </span><span class="nc">File</span><span class="o">.</span><span class="n">write!</span><span class="p" data-group-id="4208739968-9">(</span><span class="n">path_to_axon</span><span class="p">,</span><span class="w"> </span><span class="n">model_bytes</span><span class="p" data-group-id="4208739968-9">)</span><span class="w">
-  </span><span class="k" data-group-id="4208739968-3">end</span><span class="w">
-
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">axon_name_from_onnx_path</span><span class="p" data-group-id="4208739968-10">(</span><span class="n">onnx_path</span><span class="p" data-group-id="4208739968-10">)</span><span class="w"> </span><span class="k" data-group-id="4208739968-11">do</span><span class="w">
-    </span><span class="n">model_root</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">onnx_path</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">basename</span><span class="p" data-group-id="4208739968-12">(</span><span class="p" data-group-id="4208739968-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">rootname</span><span class="p" data-group-id="4208739968-13">(</span><span class="p" data-group-id="4208739968-13">)</span><span class="w">
-    </span><span class="s">&quot;</span><span class="si" data-group-id="4208739968-14">#{</span><span class="n">model_root</span><span class="si" data-group-id="4208739968-14">}</span><span class="s">.axon&quot;</span><span class="w">
-  </span><span class="k" data-group-id="4208739968-11">end</span><span class="w">
-</span><span class="k" data-group-id="4208739968-1">end</span></code></pre><h2 id="onnx-model" class="section-heading">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">onnx_axon</span><span class="p" data-group-id="9814635854-2">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="9814635854-2">)</span><span class="w"> </span><span class="k" data-group-id="9814635854-3">do</span><span class="w">
+    </span><span class="n">axon_name</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">axon_name_from_onnx_path</span><span class="p" data-group-id="9814635854-4">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="9814635854-4">)</span><span class="w">
+    </span><span class="n">path_to_axon</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">join</span><span class="p" data-group-id="9814635854-5">(</span><span class="n">path_to_axon_dir</span><span class="p">,</span><span class="w"> </span><span class="n">axon_name</span><span class="p" data-group-id="9814635854-5">)</span><span class="w">
+
+    </span><span class="p" data-group-id="9814635854-6">{</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="9814635854-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">AxonOnnx</span><span class="o">.</span><span class="kn">import</span><span class="p" data-group-id="9814635854-7">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="9814635854-7">)</span><span class="w">
+    </span><span class="n">model_bytes</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="9814635854-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="9814635854-8">)</span><span class="w">
+    </span><span class="nc">File</span><span class="o">.</span><span class="n">write!</span><span class="p" data-group-id="9814635854-9">(</span><span class="n">path_to_axon</span><span class="p">,</span><span class="w"> </span><span class="n">model_bytes</span><span class="p" data-group-id="9814635854-9">)</span><span class="w">
+  </span><span class="k" data-group-id="9814635854-3">end</span><span class="w">
+
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">axon_name_from_onnx_path</span><span class="p" data-group-id="9814635854-10">(</span><span class="n">onnx_path</span><span class="p" data-group-id="9814635854-10">)</span><span class="w"> </span><span class="k" data-group-id="9814635854-11">do</span><span class="w">
+    </span><span class="n">model_root</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">onnx_path</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">basename</span><span class="p" data-group-id="9814635854-12">(</span><span class="p" data-group-id="9814635854-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">rootname</span><span class="p" data-group-id="9814635854-13">(</span><span class="p" data-group-id="9814635854-13">)</span><span class="w">
+    </span><span class="s">&quot;</span><span class="si" data-group-id="9814635854-14">#{</span><span class="n">model_root</span><span class="si" data-group-id="9814635854-14">}</span><span class="s">.axon&quot;</span><span class="w">
+  </span><span class="k" data-group-id="9814635854-11">end</span><span class="w">
+</span><span class="k" data-group-id="9814635854-1">end</span></code></pre><h2 id="onnx-model" class="section-heading">
   <a href="#onnx-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">onnx-model</p>
   </a>
   ONNX model
 </h2>
-<p>For this example, we'll use a couple ONNX models that have been saved in the Huggingface Hub.</p><p>The ONNX models were trained in Fast.ai (PyTorch) using the following notebooks:</p><ul><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb</a></li><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb</a></li></ul><p>To repeat this notebook, the onnx files for this notebook can be found on huggingface hub.  Download the onnx models from:</p><ul><li><a href="https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX">https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX</a></li><li><a href="https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX">https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX</a></li></ul><p>Download the files and place them in a directory of your choice.  By default, we will assume you downloaded them to the same directory as the notebook:</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">cd!</span><span class="p" data-group-id="1695709546-1">(</span><span class="bp">__DIR__</span><span class="p" data-group-id="1695709546-1">)</span></code></pre><p>Now let's convert an ONNX model into Axon</p><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;models/onnx/cats_v_dogs.onnx&quot;</span><span class="w">
+<p>For this example, we'll use a couple ONNX models that have been saved in the Huggingface Hub.</p><p>The ONNX models were trained in Fast.ai (PyTorch) using the following notebooks:</p><ul><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb</a></li><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb</a></li></ul><p>To repeat this notebook, the onnx files for this notebook can be found on huggingface hub.  Download the onnx models from:</p><ul><li><a href="https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX">https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX</a></li><li><a href="https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX">https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX</a></li></ul><p>Download the files and place them in a directory of your choice.  By default, we will assume you downloaded them to the same directory as the notebook:</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">cd!</span><span class="p" data-group-id="4248546556-1">(</span><span class="bp">__DIR__</span><span class="p" data-group-id="4248546556-1">)</span></code></pre><p>Now let's convert an ONNX model into Axon</p><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;models/onnx/cats_v_dogs.onnx&quot;</span><span class="w">
 </span><span class="n">path_to_axon_dir</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;models/axon&quot;</span><span class="w">
-</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="7077238949-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="7077238949-1">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;models/onnx/cat_dog_breeds.onnx&quot;</span><span class="w">
+</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="2137408828-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="2137408828-1">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;models/onnx/cat_dog_breeds.onnx&quot;</span><span class="w">
 </span><span class="n">path_to_axon_dir</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;models/axon&quot;</span><span class="w">
-</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="5933000586-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="5933000586-1">)</span></code></pre><h2 id="inference-on-onnx-derived-models" class="section-heading">
+</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="6673644186-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="6673644186-1">)</span></code></pre><h2 id="inference-on-onnx-derived-models" class="section-heading">
   <a href="#inference-on-onnx-derived-models" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">inference-on-onnx-derived-models</p>
   </a>
   Inference on ONNX derived models
 </h2>
-<p>To run inference on the model, you'll need 10 images focused on cats or dogs.  You can download the images used in training the model at:</p><p>&quot;<a href="https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz%22">https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz&quot;</a></p><p>Or you can find or use your own images.  In this notebook, we are going to use the local copies of the Oxford Pets dataset that was used in training the model.</p><p>Let's load the Axon model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cats_v_dogs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="7253292584-1">(</span><span class="s">&quot;models/axon/cats_v_dogs.axon&quot;</span><span class="p" data-group-id="7253292584-1">)</span><span class="w">
-</span><span class="p" data-group-id="7253292584-2">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="7253292584-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="7253292584-3">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="7253292584-3">)</span></code></pre><p>We need a tensor representation of an image.  Let's start by looking at samples of
-our data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="7375832358-1">(</span><span class="s">&quot;data/oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="7375832358-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="7375832358-2">(</span><span class="ss">:jpeg</span><span class="p" data-group-id="7375832358-2">)</span></code></pre><p>To manipulate the images, we will use the <code class="inline">StbImage</code> library:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2818354801-1">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">img</span><span class="p" data-group-id="2818354801-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file</span><span class="p" data-group-id="2818354801-2">(</span><span class="s">&quot;data/oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="2818354801-2">)</span><span class="w">
-</span><span class="p" data-group-id="2818354801-3">%</span><span class="nc" data-group-id="2818354801-3">StbImage</span><span class="p" data-group-id="2818354801-3">{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="n">type</span><span class="p" data-group-id="2818354801-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="2818354801-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="2818354801-4">)</span></code></pre><p>Now let's work on a batch of images and convert them to tensors. Here are the images we will work with:</p><pre><code class="makeup elixir" translate="no"><span class="n">file_names</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5007491266-1">[</span><span class="w">
+<p>To run inference on the model, you'll need 10 images focused on cats or dogs.  You can download the images used in training the model at:</p><p>&quot;<a href="https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz%22">https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz&quot;</a></p><p>Or you can find or use your own images.  In this notebook, we are going to use the local copies of the Oxford Pets dataset that was used in training the model.</p><p>Let's load the Axon model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cats_v_dogs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="7666503855-1">(</span><span class="s">&quot;models/axon/cats_v_dogs.axon&quot;</span><span class="p" data-group-id="7666503855-1">)</span><span class="w">
+</span><span class="p" data-group-id="7666503855-2">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="7666503855-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="7666503855-3">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="7666503855-3">)</span></code></pre><p>We need a tensor representation of an image.  Let's start by looking at samples of
+our data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="6626340089-1">(</span><span class="s">&quot;data/oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="6626340089-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6626340089-2">(</span><span class="ss">:jpeg</span><span class="p" data-group-id="6626340089-2">)</span></code></pre><p>To manipulate the images, we will use the <code class="inline">StbImage</code> library:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7444819146-1">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">img</span><span class="p" data-group-id="7444819146-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file</span><span class="p" data-group-id="7444819146-2">(</span><span class="s">&quot;data/oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="7444819146-2">)</span><span class="w">
+</span><span class="p" data-group-id="7444819146-3">%</span><span class="nc" data-group-id="7444819146-3">StbImage</span><span class="p" data-group-id="7444819146-3">{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="n">type</span><span class="p" data-group-id="7444819146-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="7444819146-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="7444819146-4">)</span></code></pre><p>Now let's work on a batch of images and convert them to tensors. Here are the images we will work with:</p><pre><code class="makeup elixir" translate="no"><span class="n">file_names</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5819653561-1">[</span><span class="w">
   </span><span class="s">&quot;havanese_71.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;yorkshire_terrier_9.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;Sphynx_206.jpg&quot;</span><span class="p">,</span><span class="w">
@@ -223,18 +223,18 @@ <h1>
   </span><span class="s">&quot;British_Shorthair_122.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;Russian_Blue_20.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;boxer_99.jpg&quot;</span><span class="w">
-</span><span class="p" data-group-id="5007491266-1">]</span></code></pre><p>Next we resize the images:</p><pre><code class="makeup elixir" translate="no"><span class="n">resized_images</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="5573877974-1">(</span><span class="n">file_names</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="5573877974-2">fn</span><span class="w"> </span><span class="n">file_name</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="5573877974-3">(</span><span class="s">&quot;data/oxford-iiit-pet/images/&quot;</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="5573877974-3">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="5573877974-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="5573877974-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file!</span><span class="p" data-group-id="5573877974-5">(</span><span class="p" data-group-id="5573877974-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="5573877974-6">(</span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="5573877974-6">)</span><span class="w">
-  </span><span class="k" data-group-id="5573877974-2">end</span><span class="p" data-group-id="5573877974-1">)</span></code></pre><p>And finally convert them into tensors by using <code class="inline">StbImage.to_nx/1</code>. The created tensor will have three axes, named <code class="inline">:height</code>, <code class="inline">:width</code>, and <code class="inline">:channel</code> respectively. Our goal is to stack the tensors, then normalize and transpose their axes to the order expected by the neural network:</p><pre><code class="makeup elixir" translate="no"><span class="n">img_tensors</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="p" data-group-id="5819653561-1">]</span></code></pre><p>Next we resize the images:</p><pre><code class="makeup elixir" translate="no"><span class="n">resized_images</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="8891229475-1">(</span><span class="n">file_names</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="8891229475-2">fn</span><span class="w"> </span><span class="n">file_name</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="8891229475-3">(</span><span class="s">&quot;data/oxford-iiit-pet/images/&quot;</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="8891229475-3">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8891229475-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="8891229475-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file!</span><span class="p" data-group-id="8891229475-5">(</span><span class="p" data-group-id="8891229475-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="8891229475-6">(</span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="8891229475-6">)</span><span class="w">
+  </span><span class="k" data-group-id="8891229475-2">end</span><span class="p" data-group-id="8891229475-1">)</span></code></pre><p>And finally convert them into tensors by using <code class="inline">StbImage.to_nx/1</code>. The created tensor will have three axes, named <code class="inline">:height</code>, <code class="inline">:width</code>, and <code class="inline">:channel</code> respectively. Our goal is to stack the tensors, then normalize and transpose their axes to the order expected by the neural network:</p><pre><code class="makeup elixir" translate="no"><span class="n">img_tensors</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">resized_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="0461401784-1">(</span><span class="o">&amp;</span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0461401784-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="0461401784-2">(</span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="ss">:index</span><span class="p" data-group-id="0461401784-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="0461401784-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="0461401784-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="0461401784-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0461401784-5">[</span><span class="ss">:index</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="0461401784-5">]</span><span class="p" data-group-id="0461401784-4">)</span></code></pre><p>With our input data, it is finally time to work on predictions. First let's define a helper module:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Predictions</span><span class="w"> </span><span class="k" data-group-id="9370733504-1">do</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="9397754212-1">(</span><span class="o">&amp;</span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9397754212-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="9397754212-2">(</span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="ss">:index</span><span class="p" data-group-id="9397754212-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="9397754212-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="9397754212-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="9397754212-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9397754212-5">[</span><span class="ss">:index</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="9397754212-5">]</span><span class="p" data-group-id="9397754212-4">)</span></code></pre><p>With our input data, it is finally time to work on predictions. First let's define a helper module:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Predictions</span><span class="w"> </span><span class="k" data-group-id="7224761972-1">do</span><span class="w">
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   When provided a Tensor of single label predictions, returns the best vocabulary match for
   each row in the prediction tensor.
@@ -245,26 +245,26 @@ <h1>
       [&quot;dog&quot;, &quot;cat&quot;, &quot;dog&quot;]
 
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">single_label_classification</span><span class="p" data-group-id="9370733504-2">(</span><span class="n">predictions_batch</span><span class="p">,</span><span class="w"> </span><span class="n">vocabulary</span><span class="p" data-group-id="9370733504-2">)</span><span class="w"> </span><span class="k" data-group-id="9370733504-3">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="9370733504-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9370733504-5">(</span><span class="n">predictions_batch</span><span class="p" data-group-id="9370733504-5">)</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;predictions batch shape&quot;</span><span class="p" data-group-id="9370733504-4">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">single_label_classification</span><span class="p" data-group-id="7224761972-2">(</span><span class="n">predictions_batch</span><span class="p">,</span><span class="w"> </span><span class="n">vocabulary</span><span class="p" data-group-id="7224761972-2">)</span><span class="w"> </span><span class="k" data-group-id="7224761972-3">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="7224761972-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="7224761972-5">(</span><span class="n">predictions_batch</span><span class="p" data-group-id="7224761972-5">)</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;predictions batch shape&quot;</span><span class="p" data-group-id="7224761972-4">)</span><span class="w">
 
-    </span><span class="k">for</span><span class="w"> </span><span class="n">prediction_tensor</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="9370733504-6">(</span><span class="n">predictions_batch</span><span class="p" data-group-id="9370733504-6">)</span><span class="w"> </span><span class="k" data-group-id="9370733504-7">do</span><span class="w">
-      </span><span class="p" data-group-id="9370733504-8">{</span><span class="c">_prediction_value</span><span class="p">,</span><span class="w"> </span><span class="n">prediction_label</span><span class="p" data-group-id="9370733504-8">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+    </span><span class="k">for</span><span class="w"> </span><span class="n">prediction_tensor</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7224761972-6">(</span><span class="n">predictions_batch</span><span class="p" data-group-id="7224761972-6">)</span><span class="w"> </span><span class="k" data-group-id="7224761972-7">do</span><span class="w">
+      </span><span class="p" data-group-id="7224761972-8">{</span><span class="c">_prediction_value</span><span class="p">,</span><span class="w"> </span><span class="n">prediction_label</span><span class="p" data-group-id="7224761972-8">}</span><span class="w"> </span><span class="o">=</span><span class="w">
         </span><span class="n">prediction_tensor</span><span class="w">
-        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="9370733504-9">(</span><span class="p" data-group-id="9370733504-9">)</span><span class="w">
-        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="9370733504-10">(</span><span class="n">vocabulary</span><span class="p" data-group-id="9370733504-10">)</span><span class="w">
-        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">max</span><span class="p" data-group-id="9370733504-11">(</span><span class="p" data-group-id="9370733504-11">)</span><span class="w">
+        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="7224761972-9">(</span><span class="p" data-group-id="7224761972-9">)</span><span class="w">
+        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="7224761972-10">(</span><span class="n">vocabulary</span><span class="p" data-group-id="7224761972-10">)</span><span class="w">
+        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">max</span><span class="p" data-group-id="7224761972-11">(</span><span class="p" data-group-id="7224761972-11">)</span><span class="w">
 
       </span><span class="n">prediction_label</span><span class="w">
-    </span><span class="k" data-group-id="9370733504-7">end</span><span class="w">
-  </span><span class="k" data-group-id="9370733504-3">end</span><span class="w">
-</span><span class="k" data-group-id="9370733504-1">end</span></code></pre><p>Now we deserialize the model</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9941527878-1">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="9941527878-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="9941527878-2">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="9941527878-2">)</span></code></pre><p>run a prediction using the <code class="inline">EXLA</code> compiler for performance</p><pre><code class="makeup elixir" translate="no"><span class="n">tensor_of_predictions</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="9449541394-1">(</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9449541394-1">)</span></code></pre><p>and finally retrieve the predicted label</p><pre><code class="makeup elixir" translate="no"><span class="n">dog_cat_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3513950591-1">[</span><span class="w">
+    </span><span class="k" data-group-id="7224761972-7">end</span><span class="w">
+  </span><span class="k" data-group-id="7224761972-3">end</span><span class="w">
+</span><span class="k" data-group-id="7224761972-1">end</span></code></pre><p>Now we deserialize the model</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6694900291-1">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="6694900291-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="6694900291-2">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="6694900291-2">)</span></code></pre><p>run a prediction using the <code class="inline">EXLA</code> compiler for performance</p><pre><code class="makeup elixir" translate="no"><span class="n">tensor_of_predictions</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="9497117572-1">(</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9497117572-1">)</span></code></pre><p>and finally retrieve the predicted label</p><pre><code class="makeup elixir" translate="no"><span class="n">dog_cat_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2832365524-1">[</span><span class="w">
   </span><span class="s">&quot;dog&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;cat&quot;</span><span class="w">
-</span><span class="p" data-group-id="3513950591-1">]</span><span class="w">
+</span><span class="p" data-group-id="2832365524-1">]</span><span class="w">
 
-</span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="3513950591-2">(</span><span class="n">tensor_of_predictions</span><span class="p">,</span><span class="w"> </span><span class="n">dog_cat_vocabulary</span><span class="p" data-group-id="3513950591-2">)</span></code></pre><p>Let's repeat the above process for the dog and cat breed model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3596084847-1">[</span><span class="w">
+</span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="2832365524-2">(</span><span class="n">tensor_of_predictions</span><span class="p">,</span><span class="w"> </span><span class="n">dog_cat_vocabulary</span><span class="p" data-group-id="2832365524-2">)</span></code></pre><p>Let's repeat the above process for the dog and cat breed model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0056947249-1">[</span><span class="w">
   </span><span class="s">&quot;abyssinian&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;american_bulldog&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;american_pit_bull_terrier&quot;</span><span class="p">,</span><span class="w">
@@ -302,9 +302,9 @@ <h1>
   </span><span class="s">&quot;staffordshire_bull_terrier&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;wheaten_terrier&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;yorkshire_terrier&quot;</span><span class="w">
-</span><span class="p" data-group-id="3596084847-1">]</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_breeds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="1694554061-1">(</span><span class="s">&quot;models/axon/cat_dog_breeds.axon&quot;</span><span class="p" data-group-id="1694554061-1">)</span><span class="w">
-</span><span class="p" data-group-id="1694554061-2">{</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p" data-group-id="1694554061-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="1694554061-3">(</span><span class="n">cat_dog_breeds</span><span class="p" data-group-id="1694554061-3">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="8829681058-1">(</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p" data-group-id="8829681058-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="8829681058-2">(</span><span class="n">cat_dog_vocabulary</span><span class="p" data-group-id="8829681058-2">)</span></code></pre><p>For cat and dog breeds, the model performed pretty well, but it was not perfect.</p>
+</span><span class="p" data-group-id="0056947249-1">]</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_breeds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="7855097183-1">(</span><span class="s">&quot;models/axon/cat_dog_breeds.axon&quot;</span><span class="p" data-group-id="7855097183-1">)</span><span class="w">
+</span><span class="p" data-group-id="7855097183-2">{</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p" data-group-id="7855097183-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="7855097183-3">(</span><span class="n">cat_dog_breeds</span><span class="p" data-group-id="7855097183-3">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="1446347558-1">(</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p" data-group-id="1446347558-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="1446347558-2">(</span><span class="n">cat_dog_vocabulary</span><span class="p" data-group-id="1446347558-2">)</span></code></pre><p>For cat and dog breeds, the model performed pretty well, but it was not perfect.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/sequential_models.html b/sequential_models.html
index 41362aec..72bcee96 100644
--- a/sequential_models.html
+++ b/sequential_models.html
@@ -115,31 +115,31 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5432155548-1">(</span><span class="p" data-group-id="5432155548-2">[</span><span class="w">
-  </span><span class="p" data-group-id="5432155548-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="5432155548-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5432155548-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="5432155548-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5432155548-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="5432155548-5">}</span><span class="w">
-</span><span class="p" data-group-id="5432155548-2">]</span><span class="p" data-group-id="5432155548-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-a-sequential-model" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6952418744-1">(</span><span class="p" data-group-id="6952418744-2">[</span><span class="w">
+  </span><span class="p" data-group-id="6952418744-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="6952418744-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="6952418744-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6952418744-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="6952418744-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="6952418744-5">}</span><span class="w">
+</span><span class="p" data-group-id="6952418744-2">]</span><span class="p" data-group-id="6952418744-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-a-sequential-model" class="section-heading">
   <a href="#creating-a-sequential-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-a-sequential-model</p>
   </a>
   Creating a sequential model
 </h2>
 <p>In the <a href="your_first_axon_model.html">last guide</a>, you created a simple identity model which just returned the input. Of course, you would never actually use Axon for such purposes. You want to create real neural networks!</p><p>In equivalent frameworks in the Python ecosystem such as Keras and PyTorch, there is a concept of <em>sequential models</em>. Sequential models are named after the sequential nature in which data flows through them. Sequential models transform the input with sequential, successive transformations.</p><p>If you're an experienced Elixir programmer, this paradigm of sequential transformations might sound a lot like what happens when using the pipe (<code class="inline">|&gt;</code>) operator. In Elixir, it's common to see code blocks like:</p><pre><code class="makeup elixir" translate="no"><span class="n">list</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="0311287982-1">(</span><span class="k" data-group-id="0311287982-2">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="k" data-group-id="0311287982-2">end</span><span class="p" data-group-id="0311287982-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">filter</span><span class="p" data-group-id="0311287982-3">(</span><span class="o">&amp;</span><span class="n">rem</span><span class="p" data-group-id="0311287982-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0311287982-4">)</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0311287982-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="0311287982-5">(</span><span class="p" data-group-id="0311287982-5">)</span></code></pre><p>The snippet above passes <code class="inline">list</code> through a sequence of transformations. You can apply this same paradigm in Axon to create sequential models. In fact, creating sequential models is so natural with Elixir's pipe operator, that Axon does not need a distinct <em>sequential</em> construct. To create a sequential model, you just pass Axon models through successive transformations in the Axon API:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6121142628-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6121142628-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6121142628-2">(</span><span class="mi">32</span><span class="p" data-group-id="6121142628-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="6121142628-3">(</span><span class="ss">:relu</span><span class="p" data-group-id="6121142628-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="6121142628-4">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6121142628-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6121142628-5">(</span><span class="mi">1</span><span class="p" data-group-id="6121142628-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="6121142628-6">(</span><span class="ss">:softmax</span><span class="p" data-group-id="6121142628-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2219264519-1">#</span><span class="nc" data-group-id="2219264519-1">Axon</span><span class="p" data-group-id="2219264519-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2219264519-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="2219264519-2">}</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="4975307333-1">(</span><span class="k" data-group-id="4975307333-2">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="k" data-group-id="4975307333-2">end</span><span class="p" data-group-id="4975307333-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">filter</span><span class="p" data-group-id="4975307333-3">(</span><span class="o">&amp;</span><span class="n">rem</span><span class="p" data-group-id="4975307333-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4975307333-4">)</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4975307333-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="4975307333-5">(</span><span class="p" data-group-id="4975307333-5">)</span></code></pre><p>The snippet above passes <code class="inline">list</code> through a sequence of transformations. You can apply this same paradigm in Axon to create sequential models. In fact, creating sequential models is so natural with Elixir's pipe operator, that Axon does not need a distinct <em>sequential</em> construct. To create a sequential model, you just pass Axon models through successive transformations in the Axon API:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4377011993-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4377011993-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4377011993-2">(</span><span class="mi">32</span><span class="p" data-group-id="4377011993-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="4377011993-3">(</span><span class="ss">:relu</span><span class="p" data-group-id="4377011993-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4377011993-4">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="4377011993-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4377011993-5">(</span><span class="mi">1</span><span class="p" data-group-id="4377011993-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="4377011993-6">(</span><span class="ss">:softmax</span><span class="p" data-group-id="4377011993-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9021357014-1">#</span><span class="nc" data-group-id="9021357014-1">Axon</span><span class="p" data-group-id="9021357014-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9021357014-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="9021357014-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;softmax_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="2219264519-1">&gt;</span></code></pre><p>If you visualize this model, it's easy to see how data flows sequentially through it:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3066910632-1">(</span><span class="p" data-group-id="3066910632-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3066910632-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3066910632-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="3066910632-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="3066910632-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="9021357014-1">&gt;</span></code></pre><p>If you visualize this model, it's easy to see how data flows sequentially through it:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8522907507-1">(</span><span class="p" data-group-id="8522907507-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8522907507-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8522907507-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="8522907507-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="8522907507-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 16}&quot;/];
 6[&quot;dense_0 (:dense) {2, 32}&quot;];
 7[&quot;relu_0 (:relu) {2, 32}&quot;];
@@ -150,72 +150,72 @@ <h1>
 8 --&gt; 11;
 7 --&gt; 8;
 6 --&gt; 7;
-3 --&gt; 6;</code></pre><p>Your model is more involved and as a result so is the execution graph! Now, using the same constructs from the last section, you can build and run your model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7540187309-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7540187309-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7540187309-2">(</span><span class="n">model</span><span class="p" data-group-id="7540187309-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2682311047-1">{</span><span class="p" data-group-id="2682311047-2">#</span><span class="nc" data-group-id="2682311047-2">Function</span><span class="p" data-group-id="2682311047-2">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2682311047-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="2682311047-3">#</span><span class="nc" data-group-id="2682311047-3">Function</span><span class="p" data-group-id="2682311047-3">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2682311047-3">&gt;</span><span class="p" data-group-id="2682311047-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4825417760-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4825417760-2">%{</span><span class="p" data-group-id="4825417760-2">}</span><span class="p" data-group-id="4825417760-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6792749333-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6792749333-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6792749333-3">#</span><span class="nc" data-group-id="6792749333-3">Nx.Tensor</span><span class="p" data-group-id="6792749333-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6792749333-4">[</span><span class="mi">32</span><span class="p" data-group-id="6792749333-4">]</span><span class="w">
-      </span><span class="p" data-group-id="6792749333-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6792749333-5">]</span><span class="w">
-    </span><span class="p" data-group-id="6792749333-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6792749333-6">#</span><span class="nc" data-group-id="6792749333-6">Nx.Tensor</span><span class="p" data-group-id="6792749333-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6792749333-7">[</span><span class="mi">16</span><span class="p" data-group-id="6792749333-7">]</span><span class="p" data-group-id="6792749333-8">[</span><span class="mi">32</span><span class="p" data-group-id="6792749333-8">]</span><span class="w">
-      </span><span class="p" data-group-id="6792749333-9">[</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-10">[</span><span class="o">-</span><span class="mf">0.25727564096450806</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31299564242362976</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1557893306016922</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3321501314640045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34875044226646423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15635445713996887</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25805917382240295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.316285640001297</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29047688841819763</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09108144044876099</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2781231701374054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21326711773872375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29581472277641296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3105146288871765</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11265464127063751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.054490894079208374</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22294805943965912</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23276928067207336</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06426036357879639</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12059605121612549</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24530324339866638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.061366915702819824</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17463091015815735</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2774006724357605</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2621242105960846</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19262376427650452</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10884760320186615</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3156566321849823</span><span class="p">,</span><span class="w"> </span><span class="mf">0.104307621717453</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22591334581375122</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09672778844833374</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18450938165187836</span><span class="p" data-group-id="6792749333-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-11">[</span><span class="o">-</span><span class="mf">0.32328563928604126</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3434811234474182</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3464450538158417</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14756330847740173</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010595977306365967</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32808688282966614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3048470616340637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011142522096633911</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10394474864006042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04501914978027344</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26296690106391907</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1051199734210968</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0060880184173583984</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22103646397590637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3040429651737213</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6792749333-11">]</span><span class="p">,</span><span class="w">
+3 --&gt; 6;</code></pre><p>Your model is more involved and as a result so is the execution graph! Now, using the same constructs from the last section, you can build and run your model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1906211164-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="1906211164-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="1906211164-2">(</span><span class="n">model</span><span class="p" data-group-id="1906211164-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2851334827-1">{</span><span class="p" data-group-id="2851334827-2">#</span><span class="nc" data-group-id="2851334827-2">Function</span><span class="p" data-group-id="2851334827-2">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2851334827-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="2851334827-3">#</span><span class="nc" data-group-id="2851334827-3">Function</span><span class="p" data-group-id="2851334827-3">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2851334827-3">&gt;</span><span class="p" data-group-id="2851334827-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5513106539-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5513106539-2">%{</span><span class="p" data-group-id="5513106539-2">}</span><span class="p" data-group-id="5513106539-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4209405946-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4209405946-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4209405946-3">#</span><span class="nc" data-group-id="4209405946-3">Nx.Tensor</span><span class="p" data-group-id="4209405946-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4209405946-4">[</span><span class="mi">32</span><span class="p" data-group-id="4209405946-4">]</span><span class="w">
+      </span><span class="p" data-group-id="4209405946-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4209405946-5">]</span><span class="w">
+    </span><span class="p" data-group-id="4209405946-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4209405946-6">#</span><span class="nc" data-group-id="4209405946-6">Nx.Tensor</span><span class="p" data-group-id="4209405946-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4209405946-7">[</span><span class="mi">16</span><span class="p" data-group-id="4209405946-7">]</span><span class="p" data-group-id="4209405946-8">[</span><span class="mi">32</span><span class="p" data-group-id="4209405946-8">]</span><span class="w">
+      </span><span class="p" data-group-id="4209405946-9">[</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-10">[</span><span class="o">-</span><span class="mf">0.25727564096450806</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31299564242362976</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1557893306016922</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3321501314640045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34875044226646423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15635445713996887</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25805917382240295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.316285640001297</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29047688841819763</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09108144044876099</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2781231701374054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21326711773872375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29581472277641296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3105146288871765</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11265464127063751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.054490894079208374</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22294805943965912</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23276928067207336</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06426036357879639</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12059605121612549</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24530324339866638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.061366915702819824</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17463091015815735</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2774006724357605</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2621242105960846</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19262376427650452</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10884760320186615</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3156566321849823</span><span class="p">,</span><span class="w"> </span><span class="mf">0.104307621717453</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22591334581375122</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09672778844833374</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18450938165187836</span><span class="p" data-group-id="4209405946-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-11">[</span><span class="o">-</span><span class="mf">0.32328563928604126</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3434811234474182</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3464450538158417</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14756330847740173</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010595977306365967</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32808688282966614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3048470616340637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011142522096633911</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10394474864006042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04501914978027344</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26296690106391907</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1051199734210968</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0060880184173583984</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22103646397590637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3040429651737213</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="4209405946-11">]</span><span class="p">,</span><span class="w">
         </span><span class="n">...</span><span class="w">
-      </span><span class="p" data-group-id="6792749333-9">]</span><span class="w">
-    </span><span class="p" data-group-id="6792749333-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6792749333-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6792749333-12">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6792749333-13">#</span><span class="nc" data-group-id="6792749333-13">Nx.Tensor</span><span class="p" data-group-id="6792749333-13">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6792749333-14">[</span><span class="mi">1</span><span class="p" data-group-id="6792749333-14">]</span><span class="w">
-      </span><span class="p" data-group-id="6792749333-15">[</span><span class="mf">0.0</span><span class="p" data-group-id="6792749333-15">]</span><span class="w">
-    </span><span class="p" data-group-id="6792749333-13">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6792749333-16">#</span><span class="nc" data-group-id="6792749333-16">Nx.Tensor</span><span class="p" data-group-id="6792749333-16">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6792749333-17">[</span><span class="mi">32</span><span class="p" data-group-id="6792749333-17">]</span><span class="p" data-group-id="6792749333-18">[</span><span class="mi">1</span><span class="p" data-group-id="6792749333-18">]</span><span class="w">
-      </span><span class="p" data-group-id="6792749333-19">[</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-20">[</span><span class="o">-</span><span class="mf">0.379288911819458</span><span class="p" data-group-id="6792749333-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-21">[</span><span class="o">-</span><span class="mf">0.05532142519950867</span><span class="p" data-group-id="6792749333-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-22">[</span><span class="o">-</span><span class="mf">0.07836392521858215</span><span class="p" data-group-id="6792749333-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-23">[</span><span class="mf">0.41381680965423584</span><span class="p" data-group-id="6792749333-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-24">[</span><span class="mf">0.33221137523651123</span><span class="p" data-group-id="6792749333-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-25">[</span><span class="mf">0.23515504598617554</span><span class="p" data-group-id="6792749333-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-26">[</span><span class="o">-</span><span class="mf">0.40667685866355896</span><span class="p" data-group-id="6792749333-26">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-27">[</span><span class="o">-</span><span class="mf">0.3503745198249817</span><span class="p" data-group-id="6792749333-27">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-28">[</span><span class="mf">0.2631032466888428</span><span class="p" data-group-id="6792749333-28">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-29">[</span><span class="o">-</span><span class="mf">0.13176566362380981</span><span class="p" data-group-id="6792749333-29">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-30">[</span><span class="o">-</span><span class="mf">0.3811171054840088</span><span class="p" data-group-id="6792749333-30">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-31">[</span><span class="mf">0.24656128883361816</span><span class="p" data-group-id="6792749333-31">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-32">[</span><span class="mf">0.17257028818130493</span><span class="p" data-group-id="6792749333-32">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-33">[</span><span class="mf">0.3528350591659546</span><span class="p" data-group-id="6792749333-33">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-34">[</span><span class="mf">0.4112042784690857</span><span class="p" data-group-id="6792749333-34">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-35">[</span><span class="mf">0.056196123361587524</span><span class="p" data-group-id="6792749333-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-36">[</span><span class="mf">0.138421893119812</span><span class="p" data-group-id="6792749333-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-37">[</span><span class="o">-</span><span class="mf">0.38378745317459106</span><span class="p" data-group-id="6792749333-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-38">[</span><span class="o">-</span><span class="mf">0.044070273637771606</span><span class="p" data-group-id="6792749333-38">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-39">[</span><span class="mf">0.11507803201675415</span><span class="p" data-group-id="6792749333-39">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-40">[</span><span class="o">-</span><span class="mf">0.3125251233577728</span><span class="p" data-group-id="6792749333-40">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-41">[</span><span class="o">-</span><span class="mf">0.11389034986495972</span><span class="p" data-group-id="6792749333-41">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-42">[</span><span class="o">-</span><span class="mf">0.27444711327552795</span><span class="p" data-group-id="6792749333-42">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-43">[</span><span class="o">-</span><span class="mf">0.30974721908569336</span><span class="p" data-group-id="6792749333-43">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-44">[</span><span class="o">-</span><span class="mf">0.3695589303970337</span><span class="p" data-group-id="6792749333-44">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-45">[</span><span class="mf">0.3146793246269226</span><span class="p" data-group-id="6792749333-45">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-46">[</span><span class="mf">0.005854517221450806</span><span class="p" data-group-id="6792749333-46">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-47">[</span><span class="o">-</span><span class="mf">0.03735968470573425</span><span class="p" data-group-id="6792749333-47">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-48">[</span><span class="mf">0.02763468027114868</span><span class="p" data-group-id="6792749333-48">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-49">[</span><span class="o">-</span><span class="mf">0.10707724094390869</span><span class="p" data-group-id="6792749333-49">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-50">[</span><span class="mf">0.10824829339981079</span><span class="p" data-group-id="6792749333-50">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6792749333-51">[</span><span class="mf">0.29013824462890625</span><span class="p" data-group-id="6792749333-51">]</span><span class="w">
-      </span><span class="p" data-group-id="6792749333-19">]</span><span class="w">
-    </span><span class="p" data-group-id="6792749333-16">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6792749333-12">}</span><span class="w">
-</span><span class="p" data-group-id="6792749333-1">}</span></code></pre><p>Wow! Notice that this model actually has trainable parameters. You can see that the parameter map is just a regular Elixir map. Each top-level entry maps to a layer with a key corresponding to that layer's name and a value corresponding to that layer's trainable parameters. Each layer's individual trainable parameters are given layer-specific names and map directly to Nx tensors.</p><p>Now you can use these <code class="inline">params</code> with your <code class="inline">predict_fn</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7842783798-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7842783798-2">(</span><span class="p" data-group-id="7842783798-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7842783798-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7842783798-2">)</span><span class="p" data-group-id="7842783798-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5403085543-1">#</span><span class="nc" data-group-id="5403085543-1">Nx.Tensor</span><span class="p" data-group-id="5403085543-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5403085543-2">[</span><span class="mi">2</span><span class="p" data-group-id="5403085543-2">]</span><span class="p" data-group-id="5403085543-3">[</span><span class="mi">1</span><span class="p" data-group-id="5403085543-3">]</span><span class="w">
-  </span><span class="p" data-group-id="5403085543-4">[</span><span class="w">
-    </span><span class="p" data-group-id="5403085543-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="5403085543-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5403085543-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="5403085543-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5403085543-4">]</span><span class="w">
-</span><span class="p" data-group-id="5403085543-1">&gt;</span></code></pre><p>And voila! You've successfully created and used a sequential model in Axon!</p>
+      </span><span class="p" data-group-id="4209405946-9">]</span><span class="w">
+    </span><span class="p" data-group-id="4209405946-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4209405946-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4209405946-12">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4209405946-13">#</span><span class="nc" data-group-id="4209405946-13">Nx.Tensor</span><span class="p" data-group-id="4209405946-13">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4209405946-14">[</span><span class="mi">1</span><span class="p" data-group-id="4209405946-14">]</span><span class="w">
+      </span><span class="p" data-group-id="4209405946-15">[</span><span class="mf">0.0</span><span class="p" data-group-id="4209405946-15">]</span><span class="w">
+    </span><span class="p" data-group-id="4209405946-13">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4209405946-16">#</span><span class="nc" data-group-id="4209405946-16">Nx.Tensor</span><span class="p" data-group-id="4209405946-16">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4209405946-17">[</span><span class="mi">32</span><span class="p" data-group-id="4209405946-17">]</span><span class="p" data-group-id="4209405946-18">[</span><span class="mi">1</span><span class="p" data-group-id="4209405946-18">]</span><span class="w">
+      </span><span class="p" data-group-id="4209405946-19">[</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-20">[</span><span class="o">-</span><span class="mf">0.379288911819458</span><span class="p" data-group-id="4209405946-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-21">[</span><span class="o">-</span><span class="mf">0.05532142519950867</span><span class="p" data-group-id="4209405946-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-22">[</span><span class="o">-</span><span class="mf">0.07836392521858215</span><span class="p" data-group-id="4209405946-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-23">[</span><span class="mf">0.41381680965423584</span><span class="p" data-group-id="4209405946-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-24">[</span><span class="mf">0.33221137523651123</span><span class="p" data-group-id="4209405946-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-25">[</span><span class="mf">0.23515504598617554</span><span class="p" data-group-id="4209405946-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-26">[</span><span class="o">-</span><span class="mf">0.40667685866355896</span><span class="p" data-group-id="4209405946-26">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-27">[</span><span class="o">-</span><span class="mf">0.3503745198249817</span><span class="p" data-group-id="4209405946-27">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-28">[</span><span class="mf">0.2631032466888428</span><span class="p" data-group-id="4209405946-28">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-29">[</span><span class="o">-</span><span class="mf">0.13176566362380981</span><span class="p" data-group-id="4209405946-29">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-30">[</span><span class="o">-</span><span class="mf">0.3811171054840088</span><span class="p" data-group-id="4209405946-30">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-31">[</span><span class="mf">0.24656128883361816</span><span class="p" data-group-id="4209405946-31">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-32">[</span><span class="mf">0.17257028818130493</span><span class="p" data-group-id="4209405946-32">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-33">[</span><span class="mf">0.3528350591659546</span><span class="p" data-group-id="4209405946-33">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-34">[</span><span class="mf">0.4112042784690857</span><span class="p" data-group-id="4209405946-34">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-35">[</span><span class="mf">0.056196123361587524</span><span class="p" data-group-id="4209405946-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-36">[</span><span class="mf">0.138421893119812</span><span class="p" data-group-id="4209405946-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-37">[</span><span class="o">-</span><span class="mf">0.38378745317459106</span><span class="p" data-group-id="4209405946-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-38">[</span><span class="o">-</span><span class="mf">0.044070273637771606</span><span class="p" data-group-id="4209405946-38">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-39">[</span><span class="mf">0.11507803201675415</span><span class="p" data-group-id="4209405946-39">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-40">[</span><span class="o">-</span><span class="mf">0.3125251233577728</span><span class="p" data-group-id="4209405946-40">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-41">[</span><span class="o">-</span><span class="mf">0.11389034986495972</span><span class="p" data-group-id="4209405946-41">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-42">[</span><span class="o">-</span><span class="mf">0.27444711327552795</span><span class="p" data-group-id="4209405946-42">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-43">[</span><span class="o">-</span><span class="mf">0.30974721908569336</span><span class="p" data-group-id="4209405946-43">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-44">[</span><span class="o">-</span><span class="mf">0.3695589303970337</span><span class="p" data-group-id="4209405946-44">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-45">[</span><span class="mf">0.3146793246269226</span><span class="p" data-group-id="4209405946-45">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-46">[</span><span class="mf">0.005854517221450806</span><span class="p" data-group-id="4209405946-46">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-47">[</span><span class="o">-</span><span class="mf">0.03735968470573425</span><span class="p" data-group-id="4209405946-47">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-48">[</span><span class="mf">0.02763468027114868</span><span class="p" data-group-id="4209405946-48">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-49">[</span><span class="o">-</span><span class="mf">0.10707724094390869</span><span class="p" data-group-id="4209405946-49">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-50">[</span><span class="mf">0.10824829339981079</span><span class="p" data-group-id="4209405946-50">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4209405946-51">[</span><span class="mf">0.29013824462890625</span><span class="p" data-group-id="4209405946-51">]</span><span class="w">
+      </span><span class="p" data-group-id="4209405946-19">]</span><span class="w">
+    </span><span class="p" data-group-id="4209405946-16">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4209405946-12">}</span><span class="w">
+</span><span class="p" data-group-id="4209405946-1">}</span></code></pre><p>Wow! Notice that this model actually has trainable parameters. You can see that the parameter map is just a regular Elixir map. Each top-level entry maps to a layer with a key corresponding to that layer's name and a value corresponding to that layer's trainable parameters. Each layer's individual trainable parameters are given layer-specific names and map directly to Nx tensors.</p><p>Now you can use these <code class="inline">params</code> with your <code class="inline">predict_fn</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0845176450-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0845176450-2">(</span><span class="p" data-group-id="0845176450-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0845176450-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0845176450-2">)</span><span class="p" data-group-id="0845176450-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6546983199-1">#</span><span class="nc" data-group-id="6546983199-1">Nx.Tensor</span><span class="p" data-group-id="6546983199-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6546983199-2">[</span><span class="mi">2</span><span class="p" data-group-id="6546983199-2">]</span><span class="p" data-group-id="6546983199-3">[</span><span class="mi">1</span><span class="p" data-group-id="6546983199-3">]</span><span class="w">
+  </span><span class="p" data-group-id="6546983199-4">[</span><span class="w">
+    </span><span class="p" data-group-id="6546983199-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="6546983199-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6546983199-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="6546983199-6">]</span><span class="w">
+  </span><span class="p" data-group-id="6546983199-4">]</span><span class="w">
+</span><span class="p" data-group-id="6546983199-1">&gt;</span></code></pre><p>And voila! You've successfully created and used a sequential model in Axon!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/training_and_inference_mode.html b/training_and_inference_mode.html
index 05428018..9ef212e6 100644
--- a/training_and_inference_mode.html
+++ b/training_and_inference_mode.html
@@ -115,87 +115,87 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2156801526-1">(</span><span class="p" data-group-id="2156801526-2">[</span><span class="w">
-  </span><span class="p" data-group-id="2156801526-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="2156801526-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="2156801526-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2156801526-4">}</span><span class="w">
-</span><span class="p" data-group-id="2156801526-2">]</span><span class="p" data-group-id="2156801526-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="executing-models-in-inference-mode" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4369425728-1">(</span><span class="p" data-group-id="4369425728-2">[</span><span class="w">
+  </span><span class="p" data-group-id="4369425728-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="4369425728-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4369425728-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4369425728-4">}</span><span class="w">
+</span><span class="p" data-group-id="4369425728-2">]</span><span class="p" data-group-id="4369425728-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="executing-models-in-inference-mode" class="section-heading">
   <a href="#executing-models-in-inference-mode" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">executing-models-in-inference-mode</p>
   </a>
   Executing models in inference mode
 </h2>
-<p>Some layers have different considerations and behavior when running during model training versus model inference. For example <em>dropout layers</em> are intended only to be used during training as a form of model regularization. Certain stateful layers like <em>batch normalization</em> keep a running-internal state which changes during training mode but remains fixed during inference mode. Axon supports mode-dependent execution behavior via the <code class="inline">:mode</code> option passed to all building, compilation, and execution methods. By default, all models build in inference mode. You can see this behavior by adding a dropout layer with a dropout rate of 1. In inference mode this layer will have no affect:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0105824926-1">(</span><span class="p" data-group-id="0105824926-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0105824926-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0105824926-1">)</span><span class="w">
+<p>Some layers have different considerations and behavior when running during model training versus model inference. For example <em>dropout layers</em> are intended only to be used during training as a form of model regularization. Certain stateful layers like <em>batch normalization</em> keep a running-internal state which changes during training mode but remains fixed during inference mode. Axon supports mode-dependent execution behavior via the <code class="inline">:mode</code> option passed to all building, compilation, and execution methods. By default, all models build in inference mode. You can see this behavior by adding a dropout layer with a dropout rate of 1. In inference mode this layer will have no affect:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5207967569-1">(</span><span class="p" data-group-id="5207967569-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5207967569-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5207967569-1">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0105824926-3">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0105824926-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0105824926-4">(</span><span class="mi">4</span><span class="p" data-group-id="0105824926-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="0105824926-5">(</span><span class="p" data-group-id="0105824926-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="0105824926-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.99</span><span class="p" data-group-id="0105824926-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0105824926-7">(</span><span class="mi">1</span><span class="p" data-group-id="0105824926-7">)</span><span class="w">
-
-</span><span class="p" data-group-id="0105824926-8">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0105824926-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0105824926-9">(</span><span class="n">model</span><span class="p" data-group-id="0105824926-9">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0105824926-10">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0105824926-11">%{</span><span class="p" data-group-id="0105824926-11">}</span><span class="p" data-group-id="0105824926-10">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0105824926-12">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="0105824926-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5171922305-1">#</span><span class="nc" data-group-id="5171922305-1">Nx.Tensor</span><span class="p" data-group-id="5171922305-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5171922305-2">[</span><span class="mi">2</span><span class="p" data-group-id="5171922305-2">]</span><span class="p" data-group-id="5171922305-3">[</span><span class="mi">1</span><span class="p" data-group-id="5171922305-3">]</span><span class="w">
-  </span><span class="p" data-group-id="5171922305-4">[</span><span class="w">
-    </span><span class="p" data-group-id="5171922305-5">[</span><span class="o">-</span><span class="mf">0.6138466000556946</span><span class="p" data-group-id="5171922305-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5171922305-6">[</span><span class="o">-</span><span class="mf">0.8409845232963562</span><span class="p" data-group-id="5171922305-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5171922305-4">]</span><span class="w">
-</span><span class="p" data-group-id="5171922305-1">&gt;</span></code></pre><p>You can also explicitly specify the mode:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9238177451-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9238177451-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9238177451-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="9238177451-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9238177451-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9238177451-4">%{</span><span class="p" data-group-id="9238177451-4">}</span><span class="p" data-group-id="9238177451-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9238177451-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="9238177451-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2314065744-1">#</span><span class="nc" data-group-id="2314065744-1">Nx.Tensor</span><span class="p" data-group-id="2314065744-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2314065744-2">[</span><span class="mi">2</span><span class="p" data-group-id="2314065744-2">]</span><span class="p" data-group-id="2314065744-3">[</span><span class="mi">1</span><span class="p" data-group-id="2314065744-3">]</span><span class="w">
-  </span><span class="p" data-group-id="2314065744-4">[</span><span class="w">
-    </span><span class="p" data-group-id="2314065744-5">[</span><span class="mf">0.7551136016845703</span><span class="p" data-group-id="2314065744-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2314065744-6">[</span><span class="mf">0.448221355676651</span><span class="p" data-group-id="2314065744-6">]</span><span class="w">
-  </span><span class="p" data-group-id="2314065744-4">]</span><span class="w">
-</span><span class="p" data-group-id="2314065744-1">&gt;</span></code></pre><p>It's important that you know which mode your model's were compiled for, as running a model built in <code class="inline">:inference</code> mode will behave drastically different than a model built in <code class="inline">:train</code> mode.</p><h2 id="executing-models-in-training-mode" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5207967569-3">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5207967569-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5207967569-4">(</span><span class="mi">4</span><span class="p" data-group-id="5207967569-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="5207967569-5">(</span><span class="p" data-group-id="5207967569-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="5207967569-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.99</span><span class="p" data-group-id="5207967569-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5207967569-7">(</span><span class="mi">1</span><span class="p" data-group-id="5207967569-7">)</span><span class="w">
+
+</span><span class="p" data-group-id="5207967569-8">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5207967569-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5207967569-9">(</span><span class="n">model</span><span class="p" data-group-id="5207967569-9">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5207967569-10">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5207967569-11">%{</span><span class="p" data-group-id="5207967569-11">}</span><span class="p" data-group-id="5207967569-10">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5207967569-12">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="5207967569-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3480480106-1">#</span><span class="nc" data-group-id="3480480106-1">Nx.Tensor</span><span class="p" data-group-id="3480480106-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3480480106-2">[</span><span class="mi">2</span><span class="p" data-group-id="3480480106-2">]</span><span class="p" data-group-id="3480480106-3">[</span><span class="mi">1</span><span class="p" data-group-id="3480480106-3">]</span><span class="w">
+  </span><span class="p" data-group-id="3480480106-4">[</span><span class="w">
+    </span><span class="p" data-group-id="3480480106-5">[</span><span class="o">-</span><span class="mf">0.6138466000556946</span><span class="p" data-group-id="3480480106-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3480480106-6">[</span><span class="o">-</span><span class="mf">0.8409845232963562</span><span class="p" data-group-id="3480480106-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3480480106-4">]</span><span class="w">
+</span><span class="p" data-group-id="3480480106-1">&gt;</span></code></pre><p>You can also explicitly specify the mode:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5046530707-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5046530707-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5046530707-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="5046530707-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5046530707-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5046530707-4">%{</span><span class="p" data-group-id="5046530707-4">}</span><span class="p" data-group-id="5046530707-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5046530707-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="5046530707-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9190752721-1">#</span><span class="nc" data-group-id="9190752721-1">Nx.Tensor</span><span class="p" data-group-id="9190752721-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9190752721-2">[</span><span class="mi">2</span><span class="p" data-group-id="9190752721-2">]</span><span class="p" data-group-id="9190752721-3">[</span><span class="mi">1</span><span class="p" data-group-id="9190752721-3">]</span><span class="w">
+  </span><span class="p" data-group-id="9190752721-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9190752721-5">[</span><span class="mf">0.7551136016845703</span><span class="p" data-group-id="9190752721-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9190752721-6">[</span><span class="mf">0.448221355676651</span><span class="p" data-group-id="9190752721-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9190752721-4">]</span><span class="w">
+</span><span class="p" data-group-id="9190752721-1">&gt;</span></code></pre><p>It's important that you know which mode your model's were compiled for, as running a model built in <code class="inline">:inference</code> mode will behave drastically different than a model built in <code class="inline">:train</code> mode.</p><h2 id="executing-models-in-training-mode" class="section-heading">
   <a href="#executing-models-in-training-mode" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">executing-models-in-training-mode</p>
   </a>
   Executing models in training mode
 </h2>
-<p>By specifying <code class="inline">mode: :train</code>, you tell your models to execute in training mode. You can see the effects of this behavior here:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0102373469-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0102373469-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0102373469-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="0102373469-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0102373469-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0102373469-4">%{</span><span class="p" data-group-id="0102373469-4">}</span><span class="p" data-group-id="0102373469-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0102373469-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="0102373469-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8990265598-1">%{</span><span class="w">
-  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8990265598-2">#</span><span class="nc" data-group-id="8990265598-2">Nx.Tensor</span><span class="p" data-group-id="8990265598-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="8990265598-3">[</span><span class="mi">2</span><span class="p" data-group-id="8990265598-3">]</span><span class="p" data-group-id="8990265598-4">[</span><span class="mi">1</span><span class="p" data-group-id="8990265598-4">]</span><span class="w">
-    </span><span class="p" data-group-id="8990265598-5">[</span><span class="w">
-      </span><span class="p" data-group-id="8990265598-6">[</span><span class="mf">0.0</span><span class="p" data-group-id="8990265598-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8990265598-7">[</span><span class="mf">0.0</span><span class="p" data-group-id="8990265598-7">]</span><span class="w">
-    </span><span class="p" data-group-id="8990265598-5">]</span><span class="w">
-  </span><span class="p" data-group-id="8990265598-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8990265598-8">%{</span><span class="p" data-group-id="8990265598-8">}</span><span class="w">
-</span><span class="p" data-group-id="8990265598-1">}</span></code></pre><p>First, notice that your model now returns a map with keys <code class="inline">:prediction</code> and <code class="inline">:state</code>. <code class="inline">:prediction</code> contains the actual model prediction, while <code class="inline">:state</code> contains the updated state for any stateful layers such as batch norm. When writing custom training loops, you should extract <code class="inline">:state</code> and use it in conjunction with the updates API to ensure your stateful layers are updated correctly. If your model has stateful layers, <code class="inline">:state</code> will look similar to your model's parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0034225908-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0034225908-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0034225908-2">(</span><span class="mi">4</span><span class="p" data-group-id="0034225908-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="0034225908-3">(</span><span class="p" data-group-id="0034225908-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="0034225908-4">(</span><span class="p" data-group-id="0034225908-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0034225908-5">(</span><span class="mi">1</span><span class="p" data-group-id="0034225908-5">)</span><span class="w">
-
-</span><span class="p" data-group-id="0034225908-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0034225908-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0034225908-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="0034225908-7">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0034225908-8">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0034225908-9">%{</span><span class="p" data-group-id="0034225908-9">}</span><span class="p" data-group-id="0034225908-8">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0034225908-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="0034225908-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1099454543-1">%{</span><span class="w">
-  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1099454543-2">#</span><span class="nc" data-group-id="1099454543-2">Nx.Tensor</span><span class="p" data-group-id="1099454543-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="1099454543-3">[</span><span class="mi">2</span><span class="p" data-group-id="1099454543-3">]</span><span class="p" data-group-id="1099454543-4">[</span><span class="mi">1</span><span class="p" data-group-id="1099454543-4">]</span><span class="w">
-    </span><span class="p" data-group-id="1099454543-5">[</span><span class="w">
-      </span><span class="p" data-group-id="1099454543-6">[</span><span class="mf">0.03675001487135887</span><span class="p" data-group-id="1099454543-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1099454543-7">[</span><span class="o">-</span><span class="mf">0.03674999624490738</span><span class="p" data-group-id="1099454543-7">]</span><span class="w">
-    </span><span class="p" data-group-id="1099454543-5">]</span><span class="w">
-  </span><span class="p" data-group-id="1099454543-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1099454543-8">%{</span><span class="w">
-    </span><span class="s">&quot;batch_norm_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1099454543-9">%{</span><span class="w">
-      </span><span class="s">&quot;mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1099454543-10">#</span><span class="nc" data-group-id="1099454543-10">Nx.Tensor</span><span class="p" data-group-id="1099454543-10">&lt;</span><span class="w">
-        </span><span class="n">f32</span><span class="p" data-group-id="1099454543-11">[</span><span class="mi">4</span><span class="p" data-group-id="1099454543-11">]</span><span class="w">
-        </span><span class="p" data-group-id="1099454543-12">[</span><span class="mf">0.8784151673316956</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7386987209320068</span><span class="p">,</span><span class="w"> </span><span class="mf">0.663623571395874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8947045803070068</span><span class="p" data-group-id="1099454543-12">]</span><span class="w">
-      </span><span class="p" data-group-id="1099454543-10">&gt;</span><span class="p">,</span><span class="w">
-      </span><span class="s">&quot;var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1099454543-13">#</span><span class="nc" data-group-id="1099454543-13">Nx.Tensor</span><span class="p" data-group-id="1099454543-13">&lt;</span><span class="w">
-        </span><span class="n">f32</span><span class="p" data-group-id="1099454543-14">[</span><span class="mi">4</span><span class="p" data-group-id="1099454543-14">]</span><span class="w">
-        </span><span class="p" data-group-id="1099454543-15">[</span><span class="mf">0.10050597041845322</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11294332146644592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16061438620090485</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10003116726875305</span><span class="p" data-group-id="1099454543-15">]</span><span class="w">
-      </span><span class="p" data-group-id="1099454543-13">&gt;</span><span class="w">
-    </span><span class="p" data-group-id="1099454543-9">}</span><span class="w">
-  </span><span class="p" data-group-id="1099454543-8">}</span><span class="w">
-</span><span class="p" data-group-id="1099454543-1">}</span></code></pre>
+<p>By specifying <code class="inline">mode: :train</code>, you tell your models to execute in training mode. You can see the effects of this behavior here:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8046093194-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8046093194-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8046093194-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="8046093194-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8046093194-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8046093194-4">%{</span><span class="p" data-group-id="8046093194-4">}</span><span class="p" data-group-id="8046093194-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8046093194-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="8046093194-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5503733583-1">%{</span><span class="w">
+  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5503733583-2">#</span><span class="nc" data-group-id="5503733583-2">Nx.Tensor</span><span class="p" data-group-id="5503733583-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="5503733583-3">[</span><span class="mi">2</span><span class="p" data-group-id="5503733583-3">]</span><span class="p" data-group-id="5503733583-4">[</span><span class="mi">1</span><span class="p" data-group-id="5503733583-4">]</span><span class="w">
+    </span><span class="p" data-group-id="5503733583-5">[</span><span class="w">
+      </span><span class="p" data-group-id="5503733583-6">[</span><span class="mf">0.0</span><span class="p" data-group-id="5503733583-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5503733583-7">[</span><span class="mf">0.0</span><span class="p" data-group-id="5503733583-7">]</span><span class="w">
+    </span><span class="p" data-group-id="5503733583-5">]</span><span class="w">
+  </span><span class="p" data-group-id="5503733583-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5503733583-8">%{</span><span class="p" data-group-id="5503733583-8">}</span><span class="w">
+</span><span class="p" data-group-id="5503733583-1">}</span></code></pre><p>First, notice that your model now returns a map with keys <code class="inline">:prediction</code> and <code class="inline">:state</code>. <code class="inline">:prediction</code> contains the actual model prediction, while <code class="inline">:state</code> contains the updated state for any stateful layers such as batch norm. When writing custom training loops, you should extract <code class="inline">:state</code> and use it in conjunction with the updates API to ensure your stateful layers are updated correctly. If your model has stateful layers, <code class="inline">:state</code> will look similar to your model's parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3914411159-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3914411159-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3914411159-2">(</span><span class="mi">4</span><span class="p" data-group-id="3914411159-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="3914411159-3">(</span><span class="p" data-group-id="3914411159-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="3914411159-4">(</span><span class="p" data-group-id="3914411159-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3914411159-5">(</span><span class="mi">1</span><span class="p" data-group-id="3914411159-5">)</span><span class="w">
+
+</span><span class="p" data-group-id="3914411159-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3914411159-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3914411159-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="3914411159-7">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3914411159-8">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3914411159-9">%{</span><span class="p" data-group-id="3914411159-9">}</span><span class="p" data-group-id="3914411159-8">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3914411159-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="3914411159-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3986103597-1">%{</span><span class="w">
+  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3986103597-2">#</span><span class="nc" data-group-id="3986103597-2">Nx.Tensor</span><span class="p" data-group-id="3986103597-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="3986103597-3">[</span><span class="mi">2</span><span class="p" data-group-id="3986103597-3">]</span><span class="p" data-group-id="3986103597-4">[</span><span class="mi">1</span><span class="p" data-group-id="3986103597-4">]</span><span class="w">
+    </span><span class="p" data-group-id="3986103597-5">[</span><span class="w">
+      </span><span class="p" data-group-id="3986103597-6">[</span><span class="mf">0.03675001487135887</span><span class="p" data-group-id="3986103597-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3986103597-7">[</span><span class="o">-</span><span class="mf">0.03674999624490738</span><span class="p" data-group-id="3986103597-7">]</span><span class="w">
+    </span><span class="p" data-group-id="3986103597-5">]</span><span class="w">
+  </span><span class="p" data-group-id="3986103597-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3986103597-8">%{</span><span class="w">
+    </span><span class="s">&quot;batch_norm_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3986103597-9">%{</span><span class="w">
+      </span><span class="s">&quot;mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3986103597-10">#</span><span class="nc" data-group-id="3986103597-10">Nx.Tensor</span><span class="p" data-group-id="3986103597-10">&lt;</span><span class="w">
+        </span><span class="n">f32</span><span class="p" data-group-id="3986103597-11">[</span><span class="mi">4</span><span class="p" data-group-id="3986103597-11">]</span><span class="w">
+        </span><span class="p" data-group-id="3986103597-12">[</span><span class="mf">0.8784151673316956</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7386987209320068</span><span class="p">,</span><span class="w"> </span><span class="mf">0.663623571395874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8947045803070068</span><span class="p" data-group-id="3986103597-12">]</span><span class="w">
+      </span><span class="p" data-group-id="3986103597-10">&gt;</span><span class="p">,</span><span class="w">
+      </span><span class="s">&quot;var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3986103597-13">#</span><span class="nc" data-group-id="3986103597-13">Nx.Tensor</span><span class="p" data-group-id="3986103597-13">&lt;</span><span class="w">
+        </span><span class="n">f32</span><span class="p" data-group-id="3986103597-14">[</span><span class="mi">4</span><span class="p" data-group-id="3986103597-14">]</span><span class="w">
+        </span><span class="p" data-group-id="3986103597-15">[</span><span class="mf">0.10050597041845322</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11294332146644592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16061438620090485</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10003116726875305</span><span class="p" data-group-id="3986103597-15">]</span><span class="w">
+      </span><span class="p" data-group-id="3986103597-13">&gt;</span><span class="w">
+    </span><span class="p" data-group-id="3986103597-9">}</span><span class="w">
+  </span><span class="p" data-group-id="3986103597-8">}</span><span class="w">
+</span><span class="p" data-group-id="3986103597-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/using_loop_event_handlers.html b/using_loop_event_handlers.html
index 27d981e2..494d67a8 100644
--- a/using_loop_event_handlers.html
+++ b/using_loop_event_handlers.html
@@ -115,16 +115,16 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8192426092-1">(</span><span class="p" data-group-id="8192426092-2">[</span><span class="w">
-  </span><span class="p" data-group-id="8192426092-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="8192426092-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8192426092-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8192426092-4">}</span><span class="w">
-</span><span class="p" data-group-id="8192426092-2">]</span><span class="p" data-group-id="8192426092-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-event-handlers-to-training-loops" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6080045338-1">(</span><span class="p" data-group-id="6080045338-2">[</span><span class="w">
+  </span><span class="p" data-group-id="6080045338-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="6080045338-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="6080045338-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6080045338-4">}</span><span class="w">
+</span><span class="p" data-group-id="6080045338-2">]</span><span class="p" data-group-id="6080045338-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-event-handlers-to-training-loops" class="section-heading">
   <a href="#adding-event-handlers-to-training-loops" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">adding-event-handlers-to-training-loops</p>
   </a>
   Adding event handlers to training loops
 </h2>
-<p>Often times you want more fine-grained control over things that happen during loop execution. For example, you might want to save loop state to a file every 500 iterations, or log some output to <code class="inline">:stdout</code> at the end of every epoch. Axon loops allow more fine-grained control via events and event handlers.</p><p>Axon fires a number of events during loop execution which allow you to instrument various points in the loop execution cycle. You can attach event handlers to any of these events:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2989653078-1">[</span><span class="w">
+<p>Often times you want more fine-grained control over things that happen during loop execution. For example, you might want to save loop state to a file every 500 iterations, or log some output to <code class="inline">:stdout</code> at the end of every epoch. Axon loops allow more fine-grained control via events and event handlers.</p><p>Axon fires a number of events during loop execution which allow you to instrument various points in the loop execution cycle. You can attach event handlers to any of these events:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2857009165-1">[</span><span class="w">
   </span><span class="ss">:started</span><span class="p">,</span><span class="w">             </span><span class="c1"># After loop state initialization</span><span class="w">
   </span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w">       </span><span class="c1"># On epoch start</span><span class="w">
   </span><span class="ss">:iteration_started</span><span class="p">,</span><span class="w">   </span><span class="c1"># On iteration start</span><span class="w">
@@ -133,103 +133,103 @@ <h1>
   </span><span class="ss">:epoch_halted</span><span class="p">,</span><span class="w">        </span><span class="c1"># On epoch halt, if early halted</span><span class="w">
   </span><span class="ss">:halted</span><span class="p">,</span><span class="w">              </span><span class="c1"># On loop halt, if early halted</span><span class="w">
   </span><span class="ss">:completed</span><span class="w">            </span><span class="c1"># On loop completion</span><span class="w">
-</span><span class="p" data-group-id="2989653078-1">]</span></code></pre><p>Axon packages a number of common loop event handlers for you out of the box. These handlers should cover most of the common event handlers you would need to write in practice. Axon also allows for custom event handlers. See <a href="writing_custom_event_handlers.html">Writing custom event handlers</a> for more information.</p><p>An event handler will take the current loop state at the time of the fired event, and alter or use it in someway before returning control back to the main loop execution. You can attach any of Axon's pre-packaged event handlers to a loop by using the function directly. For example, if you want to checkpoint loop state at the end of every epoch, you can use <a href="Axon.Loop.html#checkpoint/2"><code class="inline">Axon.Loop.checkpoint/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5305800463-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5305800463-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5305800463-2">(</span><span class="mi">8</span><span class="p" data-group-id="5305800463-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5305800463-3">(</span><span class="p" data-group-id="5305800463-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5305800463-4">(</span><span class="mi">4</span><span class="p" data-group-id="5305800463-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5305800463-5">(</span><span class="p" data-group-id="5305800463-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5305800463-6">(</span><span class="mi">1</span><span class="p" data-group-id="5305800463-6">)</span><span class="w">
+</span><span class="p" data-group-id="2857009165-1">]</span></code></pre><p>Axon packages a number of common loop event handlers for you out of the box. These handlers should cover most of the common event handlers you would need to write in practice. Axon also allows for custom event handlers. See <a href="writing_custom_event_handlers.html">Writing custom event handlers</a> for more information.</p><p>An event handler will take the current loop state at the time of the fired event, and alter or use it in someway before returning control back to the main loop execution. You can attach any of Axon's pre-packaged event handlers to a loop by using the function directly. For example, if you want to checkpoint loop state at the end of every epoch, you can use <a href="Axon.Loop.html#checkpoint/2"><code class="inline">Axon.Loop.checkpoint/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2934035900-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="2934035900-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2934035900-2">(</span><span class="mi">8</span><span class="p" data-group-id="2934035900-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2934035900-3">(</span><span class="p" data-group-id="2934035900-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2934035900-4">(</span><span class="mi">4</span><span class="p" data-group-id="2934035900-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2934035900-5">(</span><span class="p" data-group-id="2934035900-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2934035900-6">(</span><span class="mi">1</span><span class="p" data-group-id="2934035900-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5305800463-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5305800463-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="5305800463-8">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p" data-group-id="5305800463-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4377514613-1">#</span><span class="nc" data-group-id="4377514613-1">Axon.Loop</span><span class="p" data-group-id="4377514613-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-3">[</span><span class="p" data-group-id="4377514613-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-4">[</span><span class="w">
-      </span><span class="p" data-group-id="4377514613-5">{</span><span class="p" data-group-id="4377514613-6">#</span><span class="nc" data-group-id="4377514613-6">Function</span><span class="p" data-group-id="4377514613-6">&lt;</span><span class="mf">14.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4377514613-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4377514613-7">#</span><span class="nc" data-group-id="4377514613-7">Function</span><span class="p" data-group-id="4377514613-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4377514613-7">&gt;</span><span class="p" data-group-id="4377514613-5">}</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4377514613-8">{</span><span class="p" data-group-id="4377514613-9">#</span><span class="nc" data-group-id="4377514613-9">Function</span><span class="p" data-group-id="4377514613-9">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4377514613-9">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4377514613-10">#</span><span class="nc" data-group-id="4377514613-10">Function</span><span class="p" data-group-id="4377514613-10">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4377514613-10">&gt;</span><span class="p" data-group-id="4377514613-8">}</span><span class="w">
-    </span><span class="p" data-group-id="4377514613-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-11">[</span><span class="p" data-group-id="4377514613-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-12">[</span><span class="p" data-group-id="4377514613-12">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-13">[</span><span class="p" data-group-id="4377514613-13">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-14">[</span><span class="w">
-      </span><span class="p" data-group-id="4377514613-15">{</span><span class="p" data-group-id="4377514613-16">#</span><span class="nc" data-group-id="4377514613-16">Function</span><span class="p" data-group-id="4377514613-16">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4377514613-16">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4377514613-17">#</span><span class="nc" data-group-id="4377514613-17">Function</span><span class="p" data-group-id="4377514613-17">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4377514613-17">&gt;</span><span class="p" data-group-id="4377514613-15">}</span><span class="w">
-    </span><span class="p" data-group-id="4377514613-14">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-18">[</span><span class="p" data-group-id="4377514613-18">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-19">[</span><span class="p" data-group-id="4377514613-19">]</span><span class="w">
-  </span><span class="p" data-group-id="4377514613-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4377514613-20">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4377514613-21">{</span><span class="p" data-group-id="4377514613-22">#</span><span class="nc" data-group-id="4377514613-22">Function</span><span class="p" data-group-id="4377514613-22">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4377514613-22">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="4377514613-23">#</span><span class="nc" data-group-id="4377514613-23">Function</span><span class="p" data-group-id="4377514613-23">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4377514613-23">&gt;</span><span class="p" data-group-id="4377514613-21">}</span><span class="w">
-  </span><span class="p" data-group-id="4377514613-20">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2934035900-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2934035900-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="2934035900-8">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p" data-group-id="2934035900-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5421042675-1">#</span><span class="nc" data-group-id="5421042675-1">Axon.Loop</span><span class="p" data-group-id="5421042675-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-3">[</span><span class="p" data-group-id="5421042675-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-4">[</span><span class="w">
+      </span><span class="p" data-group-id="5421042675-5">{</span><span class="p" data-group-id="5421042675-6">#</span><span class="nc" data-group-id="5421042675-6">Function</span><span class="p" data-group-id="5421042675-6">&lt;</span><span class="mf">14.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="5421042675-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="5421042675-7">#</span><span class="nc" data-group-id="5421042675-7">Function</span><span class="p" data-group-id="5421042675-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5421042675-7">&gt;</span><span class="p" data-group-id="5421042675-5">}</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="5421042675-8">{</span><span class="p" data-group-id="5421042675-9">#</span><span class="nc" data-group-id="5421042675-9">Function</span><span class="p" data-group-id="5421042675-9">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="5421042675-9">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="5421042675-10">#</span><span class="nc" data-group-id="5421042675-10">Function</span><span class="p" data-group-id="5421042675-10">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5421042675-10">&gt;</span><span class="p" data-group-id="5421042675-8">}</span><span class="w">
+    </span><span class="p" data-group-id="5421042675-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-11">[</span><span class="p" data-group-id="5421042675-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-12">[</span><span class="p" data-group-id="5421042675-12">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-13">[</span><span class="p" data-group-id="5421042675-13">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-14">[</span><span class="w">
+      </span><span class="p" data-group-id="5421042675-15">{</span><span class="p" data-group-id="5421042675-16">#</span><span class="nc" data-group-id="5421042675-16">Function</span><span class="p" data-group-id="5421042675-16">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="5421042675-16">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="5421042675-17">#</span><span class="nc" data-group-id="5421042675-17">Function</span><span class="p" data-group-id="5421042675-17">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5421042675-17">&gt;</span><span class="p" data-group-id="5421042675-15">}</span><span class="w">
+    </span><span class="p" data-group-id="5421042675-14">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-18">[</span><span class="p" data-group-id="5421042675-18">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-19">[</span><span class="p" data-group-id="5421042675-19">]</span><span class="w">
+  </span><span class="p" data-group-id="5421042675-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5421042675-20">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5421042675-21">{</span><span class="p" data-group-id="5421042675-22">#</span><span class="nc" data-group-id="5421042675-22">Function</span><span class="p" data-group-id="5421042675-22">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5421042675-22">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="5421042675-23">#</span><span class="nc" data-group-id="5421042675-23">Function</span><span class="p" data-group-id="5421042675-23">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5421042675-23">&gt;</span><span class="p" data-group-id="5421042675-21">}</span><span class="w">
+  </span><span class="p" data-group-id="5421042675-20">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="4377514613-1">&gt;</span></code></pre><p>Now when you execute your loop, it will save a checkpoint at the end of every epoch:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="3123289653-1">(</span><span class="k" data-group-id="3123289653-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="3123289653-3">(</span><span class="p" data-group-id="3123289653-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3123289653-4">}</span><span class="p" data-group-id="3123289653-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="3123289653-5">(</span><span class="n">xs</span><span class="p" data-group-id="3123289653-5">)</span><span class="w">
-    </span><span class="p" data-group-id="3123289653-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="3123289653-6">}</span><span class="w">
-  </span><span class="k" data-group-id="3123289653-2">end</span><span class="p" data-group-id="3123289653-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3123289653-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3123289653-8">%{</span><span class="p" data-group-id="3123289653-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="3123289653-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2462310</span><span class="w">
+</span><span class="p" data-group-id="5421042675-1">&gt;</span></code></pre><p>Now when you execute your loop, it will save a checkpoint at the end of every epoch:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="9636800844-1">(</span><span class="k" data-group-id="9636800844-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="9636800844-3">(</span><span class="p" data-group-id="9636800844-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9636800844-4">}</span><span class="p" data-group-id="9636800844-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="9636800844-5">(</span><span class="n">xs</span><span class="p" data-group-id="9636800844-5">)</span><span class="w">
+    </span><span class="p" data-group-id="9636800844-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="9636800844-6">}</span><span class="w">
+  </span><span class="k" data-group-id="9636800844-2">end</span><span class="p" data-group-id="9636800844-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9636800844-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9636800844-8">%{</span><span class="p" data-group-id="9636800844-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="9636800844-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2462310</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1804814</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1452925</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1177117</span><span class="w">
-</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1008184</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4765518944-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-3">#</span><span class="nc" data-group-id="4765518944-3">Nx.Tensor</span><span class="p" data-group-id="4765518944-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4765518944-4">[</span><span class="mi">8</span><span class="p" data-group-id="4765518944-4">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-5">[</span><span class="mf">0.36853691935539246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24528849124908447</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13193830847740173</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03188902884721756</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06358373910188675</span><span class="p">,</span><span class="w"> </span><span class="mf">0.044517479836940765</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1203451156616211</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.352089694701135e-4</span><span class="p" data-group-id="4765518944-5">]</span><span class="w">
-    </span><span class="p" data-group-id="4765518944-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-6">#</span><span class="nc" data-group-id="4765518944-6">Nx.Tensor</span><span class="p" data-group-id="4765518944-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4765518944-7">[</span><span class="mi">1</span><span class="p" data-group-id="4765518944-7">]</span><span class="p" data-group-id="4765518944-8">[</span><span class="mi">8</span><span class="p" data-group-id="4765518944-8">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-9">[</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-10">[</span><span class="mf">0.49448737502098083</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5250089764595032</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7132464051246643</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47473379969596863</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.043285828083753586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14137212932109833</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07576408237218857</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48898136615753174</span><span class="p" data-group-id="4765518944-10">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-9">]</span><span class="w">
-    </span><span class="p" data-group-id="4765518944-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4765518944-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-12">#</span><span class="nc" data-group-id="4765518944-12">Nx.Tensor</span><span class="p" data-group-id="4765518944-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4765518944-13">[</span><span class="mi">4</span><span class="p" data-group-id="4765518944-13">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-14">[</span><span class="mf">0.30324652791023254</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0385407879948616</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16782516241073608</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1984063982963562</span><span class="p" data-group-id="4765518944-14">]</span><span class="w">
-    </span><span class="p" data-group-id="4765518944-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-15">#</span><span class="nc" data-group-id="4765518944-15">Nx.Tensor</span><span class="p" data-group-id="4765518944-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4765518944-16">[</span><span class="mi">8</span><span class="p" data-group-id="4765518944-16">]</span><span class="p" data-group-id="4765518944-17">[</span><span class="mi">4</span><span class="p" data-group-id="4765518944-17">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-18">[</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-19">[</span><span class="mf">0.2536502778530121</span><span class="p">,</span><span class="w"> </span><span class="mf">0.375381737947464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7119463086128235</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14521682262420654</span><span class="p" data-group-id="4765518944-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-20">[</span><span class="mf">0.20504063367843628</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11605211347341537</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49423739314079285</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03246872499585152</span><span class="p" data-group-id="4765518944-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-21">[</span><span class="o">-</span><span class="mf">0.13834621012210846</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2579476833343506</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34836748242378235</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4670639634132385</span><span class="p" data-group-id="4765518944-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-22">[</span><span class="o">-</span><span class="mf">0.11925031989812851</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6655324697494507</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5057039856910706</span><span class="p">,</span><span class="w"> </span><span class="mf">0.496115118265152</span><span class="p" data-group-id="4765518944-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-23">[</span><span class="mf">0.15856991708278656</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2239169478416443</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5550385117530823</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3774339258670807</span><span class="p" data-group-id="4765518944-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-24">[</span><span class="o">-</span><span class="mf">0.326529860496521</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10192928463220596</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2961374819278717</span><span class="p">,</span><span class="w"> </span><span class="mf">0.580808699131012</span><span class="p" data-group-id="4765518944-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-25">[</span><span class="mf">0.46179524064064026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4794206917285919</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47078272700309753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5654175877571106</span><span class="p" data-group-id="4765518944-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-26">[</span><span class="o">-</span><span class="mf">0.501025915145874</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.38049301505088806</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3792027235031128</span><span class="p">,</span><span class="w"> </span><span class="mf">0.685397207736969</span><span class="p" data-group-id="4765518944-26">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-18">]</span><span class="w">
-    </span><span class="p" data-group-id="4765518944-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4765518944-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-28">#</span><span class="nc" data-group-id="4765518944-28">Nx.Tensor</span><span class="p" data-group-id="4765518944-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4765518944-29">[</span><span class="mi">1</span><span class="p" data-group-id="4765518944-29">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-30">[</span><span class="o">-</span><span class="mf">0.4034360647201538</span><span class="p" data-group-id="4765518944-30">]</span><span class="w">
-    </span><span class="p" data-group-id="4765518944-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4765518944-31">#</span><span class="nc" data-group-id="4765518944-31">Nx.Tensor</span><span class="p" data-group-id="4765518944-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4765518944-32">[</span><span class="mi">4</span><span class="p" data-group-id="4765518944-32">]</span><span class="p" data-group-id="4765518944-33">[</span><span class="mi">1</span><span class="p" data-group-id="4765518944-33">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-34">[</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-35">[</span><span class="mf">0.8062413334846497</span><span class="p" data-group-id="4765518944-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-36">[</span><span class="mf">0.6867087483406067</span><span class="p" data-group-id="4765518944-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-37">[</span><span class="mf">0.5137255787849426</span><span class="p" data-group-id="4765518944-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4765518944-38">[</span><span class="o">-</span><span class="mf">0.5783006548881531</span><span class="p" data-group-id="4765518944-38">]</span><span class="w">
-      </span><span class="p" data-group-id="4765518944-34">]</span><span class="w">
-    </span><span class="p" data-group-id="4765518944-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4765518944-27">}</span><span class="w">
-</span><span class="p" data-group-id="4765518944-1">}</span></code></pre><p>You can also use event handlers for things as simple as implementing custom logging with the pre-packaged <code class="inline">Axon.Loop.log/4</code> event handler:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1080707540-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1080707540-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="1080707540-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1080707540-3">fn</span><span class="w"> </span><span class="c">_state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="s">&quot;epoch is over</span><span class="se">\n</span><span class="s">&quot;</span><span class="w"> </span><span class="k" data-group-id="1080707540-3">end</span><span class="p">,</span><span class="w"> </span><span class="ss">:stdio</span><span class="p" data-group-id="1080707540-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1080707540-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1080707540-5">%{</span><span class="p" data-group-id="1080707540-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="1080707540-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2134880</span><span class="w">
+</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1008184</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7608845923-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-3">#</span><span class="nc" data-group-id="7608845923-3">Nx.Tensor</span><span class="p" data-group-id="7608845923-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7608845923-4">[</span><span class="mi">8</span><span class="p" data-group-id="7608845923-4">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-5">[</span><span class="mf">0.36853691935539246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24528849124908447</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13193830847740173</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03188902884721756</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06358373910188675</span><span class="p">,</span><span class="w"> </span><span class="mf">0.044517479836940765</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1203451156616211</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.352089694701135e-4</span><span class="p" data-group-id="7608845923-5">]</span><span class="w">
+    </span><span class="p" data-group-id="7608845923-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-6">#</span><span class="nc" data-group-id="7608845923-6">Nx.Tensor</span><span class="p" data-group-id="7608845923-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7608845923-7">[</span><span class="mi">1</span><span class="p" data-group-id="7608845923-7">]</span><span class="p" data-group-id="7608845923-8">[</span><span class="mi">8</span><span class="p" data-group-id="7608845923-8">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-9">[</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-10">[</span><span class="mf">0.49448737502098083</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5250089764595032</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7132464051246643</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47473379969596863</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.043285828083753586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14137212932109833</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07576408237218857</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48898136615753174</span><span class="p" data-group-id="7608845923-10">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-9">]</span><span class="w">
+    </span><span class="p" data-group-id="7608845923-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7608845923-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-12">#</span><span class="nc" data-group-id="7608845923-12">Nx.Tensor</span><span class="p" data-group-id="7608845923-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7608845923-13">[</span><span class="mi">4</span><span class="p" data-group-id="7608845923-13">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-14">[</span><span class="mf">0.30324652791023254</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0385407879948616</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16782516241073608</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1984063982963562</span><span class="p" data-group-id="7608845923-14">]</span><span class="w">
+    </span><span class="p" data-group-id="7608845923-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-15">#</span><span class="nc" data-group-id="7608845923-15">Nx.Tensor</span><span class="p" data-group-id="7608845923-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7608845923-16">[</span><span class="mi">8</span><span class="p" data-group-id="7608845923-16">]</span><span class="p" data-group-id="7608845923-17">[</span><span class="mi">4</span><span class="p" data-group-id="7608845923-17">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-18">[</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-19">[</span><span class="mf">0.2536502778530121</span><span class="p">,</span><span class="w"> </span><span class="mf">0.375381737947464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7119463086128235</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14521682262420654</span><span class="p" data-group-id="7608845923-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-20">[</span><span class="mf">0.20504063367843628</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11605211347341537</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49423739314079285</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03246872499585152</span><span class="p" data-group-id="7608845923-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-21">[</span><span class="o">-</span><span class="mf">0.13834621012210846</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2579476833343506</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34836748242378235</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4670639634132385</span><span class="p" data-group-id="7608845923-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-22">[</span><span class="o">-</span><span class="mf">0.11925031989812851</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6655324697494507</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5057039856910706</span><span class="p">,</span><span class="w"> </span><span class="mf">0.496115118265152</span><span class="p" data-group-id="7608845923-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-23">[</span><span class="mf">0.15856991708278656</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2239169478416443</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5550385117530823</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3774339258670807</span><span class="p" data-group-id="7608845923-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-24">[</span><span class="o">-</span><span class="mf">0.326529860496521</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10192928463220596</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2961374819278717</span><span class="p">,</span><span class="w"> </span><span class="mf">0.580808699131012</span><span class="p" data-group-id="7608845923-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-25">[</span><span class="mf">0.46179524064064026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4794206917285919</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47078272700309753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5654175877571106</span><span class="p" data-group-id="7608845923-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-26">[</span><span class="o">-</span><span class="mf">0.501025915145874</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.38049301505088806</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3792027235031128</span><span class="p">,</span><span class="w"> </span><span class="mf">0.685397207736969</span><span class="p" data-group-id="7608845923-26">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-18">]</span><span class="w">
+    </span><span class="p" data-group-id="7608845923-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7608845923-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-28">#</span><span class="nc" data-group-id="7608845923-28">Nx.Tensor</span><span class="p" data-group-id="7608845923-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7608845923-29">[</span><span class="mi">1</span><span class="p" data-group-id="7608845923-29">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-30">[</span><span class="o">-</span><span class="mf">0.4034360647201538</span><span class="p" data-group-id="7608845923-30">]</span><span class="w">
+    </span><span class="p" data-group-id="7608845923-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7608845923-31">#</span><span class="nc" data-group-id="7608845923-31">Nx.Tensor</span><span class="p" data-group-id="7608845923-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7608845923-32">[</span><span class="mi">4</span><span class="p" data-group-id="7608845923-32">]</span><span class="p" data-group-id="7608845923-33">[</span><span class="mi">1</span><span class="p" data-group-id="7608845923-33">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-34">[</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-35">[</span><span class="mf">0.8062413334846497</span><span class="p" data-group-id="7608845923-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-36">[</span><span class="mf">0.6867087483406067</span><span class="p" data-group-id="7608845923-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-37">[</span><span class="mf">0.5137255787849426</span><span class="p" data-group-id="7608845923-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7608845923-38">[</span><span class="o">-</span><span class="mf">0.5783006548881531</span><span class="p" data-group-id="7608845923-38">]</span><span class="w">
+      </span><span class="p" data-group-id="7608845923-34">]</span><span class="w">
+    </span><span class="p" data-group-id="7608845923-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7608845923-27">}</span><span class="w">
+</span><span class="p" data-group-id="7608845923-1">}</span></code></pre><p>You can also use event handlers for things as simple as implementing custom logging with the pre-packaged <code class="inline">Axon.Loop.log/4</code> event handler:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2384214750-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2384214750-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="2384214750-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="2384214750-3">fn</span><span class="w"> </span><span class="c">_state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="s">&quot;epoch is over</span><span class="se">\n</span><span class="s">&quot;</span><span class="w"> </span><span class="k" data-group-id="2384214750-3">end</span><span class="p">,</span><span class="w"> </span><span class="ss">:stdio</span><span class="p" data-group-id="2384214750-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2384214750-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2384214750-5">%{</span><span class="p" data-group-id="2384214750-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="2384214750-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2134880</span><span class="w">
 </span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1604774</span><span class="w">
 </span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span><span class="w">
@@ -238,108 +238,108 @@ <h1>
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1087099</span><span class="w">
 </span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0940388</span><span class="w">
-</span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8521638073-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-3">#</span><span class="nc" data-group-id="8521638073-3">Nx.Tensor</span><span class="p" data-group-id="8521638073-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8521638073-4">[</span><span class="mi">8</span><span class="p" data-group-id="8521638073-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-5">[</span><span class="mf">0.1741544008255005</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.013307991437613964</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0873112753033638</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04722493514418602</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12966567277908325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04596322402358055</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3969370722770691</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04508184269070625</span><span class="p" data-group-id="8521638073-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8521638073-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-6">#</span><span class="nc" data-group-id="8521638073-6">Nx.Tensor</span><span class="p" data-group-id="8521638073-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8521638073-7">[</span><span class="mi">1</span><span class="p" data-group-id="8521638073-7">]</span><span class="p" data-group-id="8521638073-8">[</span><span class="mi">8</span><span class="p" data-group-id="8521638073-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-10">[</span><span class="mf">0.31960299611091614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5328841805458069</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24278149008750916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47772416472435</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21538947522640228</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2799384295940399</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5947694778442383</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0497460775077343</span><span class="p" data-group-id="8521638073-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8521638073-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8521638073-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-12">#</span><span class="nc" data-group-id="8521638073-12">Nx.Tensor</span><span class="p" data-group-id="8521638073-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8521638073-13">[</span><span class="mi">4</span><span class="p" data-group-id="8521638073-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-14">[</span><span class="mf">0.25857725739479065</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07283111661672592</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10656370222568512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08234459906816483</span><span class="p" data-group-id="8521638073-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8521638073-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-15">#</span><span class="nc" data-group-id="8521638073-15">Nx.Tensor</span><span class="p" data-group-id="8521638073-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8521638073-16">[</span><span class="mi">8</span><span class="p" data-group-id="8521638073-16">]</span><span class="p" data-group-id="8521638073-17">[</span><span class="mi">4</span><span class="p" data-group-id="8521638073-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-19">[</span><span class="mf">0.3983175754547119</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5524351596832275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36650899052619934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23933114111423492</span><span class="p" data-group-id="8521638073-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-20">[</span><span class="mf">0.06517457216978073</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2564122974872589</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6227137446403503</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5661884546279907</span><span class="p" data-group-id="8521638073-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-21">[</span><span class="o">-</span><span class="mf">0.7012182474136353</span><span class="p">,</span><span class="w"> </span><span class="mf">0.054501600563526154</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6726318597793579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4774037301540375</span><span class="p" data-group-id="8521638073-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-22">[</span><span class="o">-</span><span class="mf">0.11393500864505768</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1726256012916565</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6723376512527466</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6044175028800964</span><span class="p" data-group-id="8521638073-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-23">[</span><span class="o">-</span><span class="mf">0.30502673983573914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7011693120002747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40034061670303345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5748327374458313</span><span class="p" data-group-id="8521638073-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-24">[</span><span class="o">-</span><span class="mf">0.07724377512931824</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.251364529132843</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6626797914505005</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20940908789634705</span><span class="p" data-group-id="8521638073-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-25">[</span><span class="mf">0.7290927767753601</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08563250303268433</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.047927819192409515</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04336162284016609</span><span class="p" data-group-id="8521638073-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-26">[</span><span class="o">-</span><span class="mf">0.34993213415145874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.281339168548584</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49343380331993103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2481663078069687</span><span class="p" data-group-id="8521638073-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8521638073-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8521638073-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-28">#</span><span class="nc" data-group-id="8521638073-28">Nx.Tensor</span><span class="p" data-group-id="8521638073-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8521638073-29">[</span><span class="mi">1</span><span class="p" data-group-id="8521638073-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-30">[</span><span class="o">-</span><span class="mf">0.6856028437614441</span><span class="p" data-group-id="8521638073-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8521638073-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8521638073-31">#</span><span class="nc" data-group-id="8521638073-31">Nx.Tensor</span><span class="p" data-group-id="8521638073-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8521638073-32">[</span><span class="mi">4</span><span class="p" data-group-id="8521638073-32">]</span><span class="p" data-group-id="8521638073-33">[</span><span class="mi">1</span><span class="p" data-group-id="8521638073-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-35">[</span><span class="mf">1.1966136693954468</span><span class="p" data-group-id="8521638073-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-36">[</span><span class="o">-</span><span class="mf">0.00546963419765234</span><span class="p" data-group-id="8521638073-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-37">[</span><span class="o">-</span><span class="mf">0.9349364042282104</span><span class="p" data-group-id="8521638073-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8521638073-38">[</span><span class="mf">0.9214714765548706</span><span class="p" data-group-id="8521638073-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8521638073-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8521638073-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8521638073-27">}</span><span class="w">
-</span><span class="p" data-group-id="8521638073-1">}</span></code></pre><p>For even more fine-grained control over when event handlers fire, you can add filters. For example, if you only want to checkpoint loop state every 2 epochs, you can use a filter:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9147302966-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9147302966-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="9147302966-2">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9147302966-3">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9147302966-3">]</span><span class="p" data-group-id="9147302966-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9147302966-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9147302966-5">%{</span><span class="p" data-group-id="9147302966-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="9147302966-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1791917</span><span class="w">
+</span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1967656328-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-3">#</span><span class="nc" data-group-id="1967656328-3">Nx.Tensor</span><span class="p" data-group-id="1967656328-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1967656328-4">[</span><span class="mi">8</span><span class="p" data-group-id="1967656328-4">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-5">[</span><span class="mf">0.1741544008255005</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.013307991437613964</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0873112753033638</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04722493514418602</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12966567277908325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04596322402358055</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3969370722770691</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04508184269070625</span><span class="p" data-group-id="1967656328-5">]</span><span class="w">
+    </span><span class="p" data-group-id="1967656328-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-6">#</span><span class="nc" data-group-id="1967656328-6">Nx.Tensor</span><span class="p" data-group-id="1967656328-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1967656328-7">[</span><span class="mi">1</span><span class="p" data-group-id="1967656328-7">]</span><span class="p" data-group-id="1967656328-8">[</span><span class="mi">8</span><span class="p" data-group-id="1967656328-8">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-9">[</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-10">[</span><span class="mf">0.31960299611091614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5328841805458069</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24278149008750916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47772416472435</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21538947522640228</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2799384295940399</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5947694778442383</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0497460775077343</span><span class="p" data-group-id="1967656328-10">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-9">]</span><span class="w">
+    </span><span class="p" data-group-id="1967656328-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1967656328-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-12">#</span><span class="nc" data-group-id="1967656328-12">Nx.Tensor</span><span class="p" data-group-id="1967656328-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1967656328-13">[</span><span class="mi">4</span><span class="p" data-group-id="1967656328-13">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-14">[</span><span class="mf">0.25857725739479065</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07283111661672592</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10656370222568512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08234459906816483</span><span class="p" data-group-id="1967656328-14">]</span><span class="w">
+    </span><span class="p" data-group-id="1967656328-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-15">#</span><span class="nc" data-group-id="1967656328-15">Nx.Tensor</span><span class="p" data-group-id="1967656328-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1967656328-16">[</span><span class="mi">8</span><span class="p" data-group-id="1967656328-16">]</span><span class="p" data-group-id="1967656328-17">[</span><span class="mi">4</span><span class="p" data-group-id="1967656328-17">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-18">[</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-19">[</span><span class="mf">0.3983175754547119</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5524351596832275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36650899052619934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23933114111423492</span><span class="p" data-group-id="1967656328-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-20">[</span><span class="mf">0.06517457216978073</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2564122974872589</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6227137446403503</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5661884546279907</span><span class="p" data-group-id="1967656328-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-21">[</span><span class="o">-</span><span class="mf">0.7012182474136353</span><span class="p">,</span><span class="w"> </span><span class="mf">0.054501600563526154</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6726318597793579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4774037301540375</span><span class="p" data-group-id="1967656328-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-22">[</span><span class="o">-</span><span class="mf">0.11393500864505768</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1726256012916565</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6723376512527466</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6044175028800964</span><span class="p" data-group-id="1967656328-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-23">[</span><span class="o">-</span><span class="mf">0.30502673983573914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7011693120002747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40034061670303345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5748327374458313</span><span class="p" data-group-id="1967656328-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-24">[</span><span class="o">-</span><span class="mf">0.07724377512931824</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.251364529132843</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6626797914505005</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20940908789634705</span><span class="p" data-group-id="1967656328-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-25">[</span><span class="mf">0.7290927767753601</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08563250303268433</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.047927819192409515</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04336162284016609</span><span class="p" data-group-id="1967656328-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-26">[</span><span class="o">-</span><span class="mf">0.34993213415145874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.281339168548584</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49343380331993103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2481663078069687</span><span class="p" data-group-id="1967656328-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-18">]</span><span class="w">
+    </span><span class="p" data-group-id="1967656328-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1967656328-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-28">#</span><span class="nc" data-group-id="1967656328-28">Nx.Tensor</span><span class="p" data-group-id="1967656328-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1967656328-29">[</span><span class="mi">1</span><span class="p" data-group-id="1967656328-29">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-30">[</span><span class="o">-</span><span class="mf">0.6856028437614441</span><span class="p" data-group-id="1967656328-30">]</span><span class="w">
+    </span><span class="p" data-group-id="1967656328-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1967656328-31">#</span><span class="nc" data-group-id="1967656328-31">Nx.Tensor</span><span class="p" data-group-id="1967656328-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1967656328-32">[</span><span class="mi">4</span><span class="p" data-group-id="1967656328-32">]</span><span class="p" data-group-id="1967656328-33">[</span><span class="mi">1</span><span class="p" data-group-id="1967656328-33">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-34">[</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-35">[</span><span class="mf">1.1966136693954468</span><span class="p" data-group-id="1967656328-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-36">[</span><span class="o">-</span><span class="mf">0.00546963419765234</span><span class="p" data-group-id="1967656328-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-37">[</span><span class="o">-</span><span class="mf">0.9349364042282104</span><span class="p" data-group-id="1967656328-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1967656328-38">[</span><span class="mf">0.9214714765548706</span><span class="p" data-group-id="1967656328-38">]</span><span class="w">
+      </span><span class="p" data-group-id="1967656328-34">]</span><span class="w">
+    </span><span class="p" data-group-id="1967656328-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1967656328-27">}</span><span class="w">
+</span><span class="p" data-group-id="1967656328-1">}</span></code></pre><p>For even more fine-grained control over when event handlers fire, you can add filters. For example, if you only want to checkpoint loop state every 2 epochs, you can use a filter:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5894930110-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5894930110-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="5894930110-2">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5894930110-3">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5894930110-3">]</span><span class="p" data-group-id="5894930110-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5894930110-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5894930110-5">%{</span><span class="p" data-group-id="5894930110-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="5894930110-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1791917</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1373887</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1156979</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0965481</span><span class="w">
-</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0865761</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8209047626-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-3">#</span><span class="nc" data-group-id="8209047626-3">Nx.Tensor</span><span class="p" data-group-id="8209047626-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8209047626-4">[</span><span class="mi">8</span><span class="p" data-group-id="8209047626-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-5">[</span><span class="mf">0.00938357226550579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16315333545207977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2767408788204193</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22733710706233978</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2830233573913574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10280115902423859</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07500249892473221</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2947545647621155</span><span class="p" data-group-id="8209047626-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8209047626-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-6">#</span><span class="nc" data-group-id="8209047626-6">Nx.Tensor</span><span class="p" data-group-id="8209047626-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8209047626-7">[</span><span class="mi">1</span><span class="p" data-group-id="8209047626-7">]</span><span class="p" data-group-id="8209047626-8">[</span><span class="mi">8</span><span class="p" data-group-id="8209047626-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-10">[</span><span class="mf">0.522411048412323</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15686289966106415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30727216601371765</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3295647203922272</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38795727491378784</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17159366607666016</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7608513236045837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4526905119419098</span><span class="p" data-group-id="8209047626-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8209047626-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8209047626-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-12">#</span><span class="nc" data-group-id="8209047626-12">Nx.Tensor</span><span class="p" data-group-id="8209047626-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8209047626-13">[</span><span class="mi">4</span><span class="p" data-group-id="8209047626-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-14">[</span><span class="o">-</span><span class="mf">0.024011338129639626</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.00135718728415668</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0015321056125685573</span><span class="p" data-group-id="8209047626-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8209047626-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-15">#</span><span class="nc" data-group-id="8209047626-15">Nx.Tensor</span><span class="p" data-group-id="8209047626-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8209047626-16">[</span><span class="mi">8</span><span class="p" data-group-id="8209047626-16">]</span><span class="p" data-group-id="8209047626-17">[</span><span class="mi">4</span><span class="p" data-group-id="8209047626-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-19">[</span><span class="mf">0.606391966342926</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08385708928108215</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06838012486696243</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08704598248004913</span><span class="p" data-group-id="8209047626-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-20">[</span><span class="mf">0.5944894552230835</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17639528214931488</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26653605699539185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35148826241493225</span><span class="p" data-group-id="8209047626-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-21">[</span><span class="o">-</span><span class="mf">0.06138936057686806</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.024123376235365868</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29706713557243347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5498997569084167</span><span class="p" data-group-id="8209047626-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-22">[</span><span class="mf">0.26888611912727356</span><span class="p">,</span><span class="w"> </span><span class="mf">0.024979088455438614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.653775155544281</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4111217260360718</span><span class="p" data-group-id="8209047626-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-23">[</span><span class="o">-</span><span class="mf">0.5042538046836853</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6867390871047974</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13647332787513733</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7193269729614258</span><span class="p" data-group-id="8209047626-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-24">[</span><span class="o">-</span><span class="mf">0.052732646465301514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.099549300968647</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6970457434654236</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3078557252883911</span><span class="p" data-group-id="8209047626-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-25">[</span><span class="o">-</span><span class="mf">0.261769562959671</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17121906578540802</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08267408609390259</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2213396430015564</span><span class="p" data-group-id="8209047626-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-26">[</span><span class="o">-</span><span class="mf">0.09766292572021484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5843542218208313</span><span class="p">,</span><span class="w"> </span><span class="mf">0.369784414768219</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48434120416641235</span><span class="p" data-group-id="8209047626-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8209047626-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8209047626-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-28">#</span><span class="nc" data-group-id="8209047626-28">Nx.Tensor</span><span class="p" data-group-id="8209047626-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8209047626-29">[</span><span class="mi">1</span><span class="p" data-group-id="8209047626-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-30">[</span><span class="o">-</span><span class="mf">0.6914201378822327</span><span class="p" data-group-id="8209047626-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8209047626-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8209047626-31">#</span><span class="nc" data-group-id="8209047626-31">Nx.Tensor</span><span class="p" data-group-id="8209047626-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8209047626-32">[</span><span class="mi">4</span><span class="p" data-group-id="8209047626-32">]</span><span class="p" data-group-id="8209047626-33">[</span><span class="mi">1</span><span class="p" data-group-id="8209047626-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-35">[</span><span class="mf">0.96906977891922</span><span class="p" data-group-id="8209047626-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-36">[</span><span class="o">-</span><span class="mf">0.5032458901405334</span><span class="p" data-group-id="8209047626-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-37">[</span><span class="mf">0.9275273680686951</span><span class="p" data-group-id="8209047626-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8209047626-38">[</span><span class="mf">0.8574270606040955</span><span class="p" data-group-id="8209047626-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8209047626-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8209047626-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8209047626-27">}</span><span class="w">
-</span><span class="p" data-group-id="8209047626-1">}</span></code></pre><p>Axon event handlers support both keyword and function filters. Keyword filters include keywords such as <code class="inline">:every</code>, <code class="inline">:once</code>, and <code class="inline">:always</code>. Function filters are arity-1 functions which accept the current loop state and return a boolean.</p>
+</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0865761</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1131329954-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-3">#</span><span class="nc" data-group-id="1131329954-3">Nx.Tensor</span><span class="p" data-group-id="1131329954-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1131329954-4">[</span><span class="mi">8</span><span class="p" data-group-id="1131329954-4">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-5">[</span><span class="mf">0.00938357226550579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16315333545207977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2767408788204193</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22733710706233978</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2830233573913574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10280115902423859</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07500249892473221</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2947545647621155</span><span class="p" data-group-id="1131329954-5">]</span><span class="w">
+    </span><span class="p" data-group-id="1131329954-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-6">#</span><span class="nc" data-group-id="1131329954-6">Nx.Tensor</span><span class="p" data-group-id="1131329954-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1131329954-7">[</span><span class="mi">1</span><span class="p" data-group-id="1131329954-7">]</span><span class="p" data-group-id="1131329954-8">[</span><span class="mi">8</span><span class="p" data-group-id="1131329954-8">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-9">[</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-10">[</span><span class="mf">0.522411048412323</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15686289966106415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30727216601371765</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3295647203922272</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38795727491378784</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17159366607666016</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7608513236045837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4526905119419098</span><span class="p" data-group-id="1131329954-10">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-9">]</span><span class="w">
+    </span><span class="p" data-group-id="1131329954-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1131329954-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-12">#</span><span class="nc" data-group-id="1131329954-12">Nx.Tensor</span><span class="p" data-group-id="1131329954-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1131329954-13">[</span><span class="mi">4</span><span class="p" data-group-id="1131329954-13">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-14">[</span><span class="o">-</span><span class="mf">0.024011338129639626</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.00135718728415668</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0015321056125685573</span><span class="p" data-group-id="1131329954-14">]</span><span class="w">
+    </span><span class="p" data-group-id="1131329954-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-15">#</span><span class="nc" data-group-id="1131329954-15">Nx.Tensor</span><span class="p" data-group-id="1131329954-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1131329954-16">[</span><span class="mi">8</span><span class="p" data-group-id="1131329954-16">]</span><span class="p" data-group-id="1131329954-17">[</span><span class="mi">4</span><span class="p" data-group-id="1131329954-17">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-18">[</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-19">[</span><span class="mf">0.606391966342926</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08385708928108215</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06838012486696243</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08704598248004913</span><span class="p" data-group-id="1131329954-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-20">[</span><span class="mf">0.5944894552230835</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17639528214931488</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26653605699539185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35148826241493225</span><span class="p" data-group-id="1131329954-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-21">[</span><span class="o">-</span><span class="mf">0.06138936057686806</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.024123376235365868</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29706713557243347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5498997569084167</span><span class="p" data-group-id="1131329954-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-22">[</span><span class="mf">0.26888611912727356</span><span class="p">,</span><span class="w"> </span><span class="mf">0.024979088455438614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.653775155544281</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4111217260360718</span><span class="p" data-group-id="1131329954-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-23">[</span><span class="o">-</span><span class="mf">0.5042538046836853</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6867390871047974</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13647332787513733</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7193269729614258</span><span class="p" data-group-id="1131329954-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-24">[</span><span class="o">-</span><span class="mf">0.052732646465301514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.099549300968647</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6970457434654236</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3078557252883911</span><span class="p" data-group-id="1131329954-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-25">[</span><span class="o">-</span><span class="mf">0.261769562959671</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17121906578540802</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08267408609390259</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2213396430015564</span><span class="p" data-group-id="1131329954-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-26">[</span><span class="o">-</span><span class="mf">0.09766292572021484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5843542218208313</span><span class="p">,</span><span class="w"> </span><span class="mf">0.369784414768219</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48434120416641235</span><span class="p" data-group-id="1131329954-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-18">]</span><span class="w">
+    </span><span class="p" data-group-id="1131329954-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1131329954-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-28">#</span><span class="nc" data-group-id="1131329954-28">Nx.Tensor</span><span class="p" data-group-id="1131329954-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1131329954-29">[</span><span class="mi">1</span><span class="p" data-group-id="1131329954-29">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-30">[</span><span class="o">-</span><span class="mf">0.6914201378822327</span><span class="p" data-group-id="1131329954-30">]</span><span class="w">
+    </span><span class="p" data-group-id="1131329954-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1131329954-31">#</span><span class="nc" data-group-id="1131329954-31">Nx.Tensor</span><span class="p" data-group-id="1131329954-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1131329954-32">[</span><span class="mi">4</span><span class="p" data-group-id="1131329954-32">]</span><span class="p" data-group-id="1131329954-33">[</span><span class="mi">1</span><span class="p" data-group-id="1131329954-33">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-34">[</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-35">[</span><span class="mf">0.96906977891922</span><span class="p" data-group-id="1131329954-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-36">[</span><span class="o">-</span><span class="mf">0.5032458901405334</span><span class="p" data-group-id="1131329954-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-37">[</span><span class="mf">0.9275273680686951</span><span class="p" data-group-id="1131329954-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1131329954-38">[</span><span class="mf">0.8574270606040955</span><span class="p" data-group-id="1131329954-38">]</span><span class="w">
+      </span><span class="p" data-group-id="1131329954-34">]</span><span class="w">
+    </span><span class="p" data-group-id="1131329954-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1131329954-27">}</span><span class="w">
+</span><span class="p" data-group-id="1131329954-1">}</span></code></pre><p>Axon event handlers support both keyword and function filters. Keyword filters include keywords such as <code class="inline">:every</code>, <code class="inline">:once</code>, and <code class="inline">:always</code>. Function filters are arity-1 functions which accept the current loop state and return a boolean.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/writing_custom_event_handlers.html b/writing_custom_event_handlers.html
index ec7a0548..677dd9ac 100644
--- a/writing_custom_event_handlers.html
+++ b/writing_custom_event_handlers.html
@@ -115,65 +115,65 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8174969489-1">(</span><span class="p" data-group-id="8174969489-2">[</span><span class="w">
-  </span><span class="p" data-group-id="8174969489-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="8174969489-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8174969489-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8174969489-4">}</span><span class="w">
-</span><span class="p" data-group-id="8174969489-2">]</span><span class="p" data-group-id="8174969489-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-event-handlers" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3508121906-1">(</span><span class="p" data-group-id="3508121906-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3508121906-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="3508121906-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3508121906-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3508121906-4">}</span><span class="w">
+</span><span class="p" data-group-id="3508121906-2">]</span><span class="p" data-group-id="3508121906-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-event-handlers" class="section-heading">
   <a href="#writing-custom-event-handlers" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">writing-custom-event-handlers</p>
   </a>
   Writing custom event handlers
 </h2>
-<p>If you require functionality not offered by any of Axon's built-in event handlers, then you'll need to write a custom event handler. Custom event handlers are functions which accept loop state, perform some action, and then defer execution back to the main loop. For example, you can write custom loop handlers which visualize model outputs, communicate with an external Kino process, or simply halt the loop based on some criteria.</p><p>All event handlers must accept an <code class="inline">%Axon.Loop.State{}</code> struct and return a tuple of <code class="inline">{control_term, state}</code> where <code class="inline">control_term</code> is one of <code class="inline">:continue</code>, <code class="inline">:halt_epoch</code>, or <code class="inline">:halt_loop</code> and <code class="inline">state</code> is the updated loop state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="w"> </span><span class="k" data-group-id="9753354587-1">do</span><span class="w">
+<p>If you require functionality not offered by any of Axon's built-in event handlers, then you'll need to write a custom event handler. Custom event handlers are functions which accept loop state, perform some action, and then defer execution back to the main loop. For example, you can write custom loop handlers which visualize model outputs, communicate with an external Kino process, or simply halt the loop based on some criteria.</p><p>All event handlers must accept an <code class="inline">%Axon.Loop.State{}</code> struct and return a tuple of <code class="inline">{control_term, state}</code> where <code class="inline">control_term</code> is one of <code class="inline">:continue</code>, <code class="inline">:halt_epoch</code>, or <code class="inline">:halt_loop</code> and <code class="inline">state</code> is the updated loop state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="w"> </span><span class="k" data-group-id="1047305160-1">do</span><span class="w">
   </span><span class="kn">alias</span><span class="w"> </span><span class="nc">Axon.Loop.State</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_weird_handler</span><span class="p" data-group-id="9753354587-2">(</span><span class="p" data-group-id="9753354587-3">%</span><span class="nc" data-group-id="9753354587-3">State</span><span class="p" data-group-id="9753354587-3">{</span><span class="p" data-group-id="9753354587-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="9753354587-2">)</span><span class="w"> </span><span class="k" data-group-id="9753354587-4">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="9753354587-5">(</span><span class="s">&quot;My weird handler: fired&quot;</span><span class="p" data-group-id="9753354587-5">)</span><span class="w">
-    </span><span class="p" data-group-id="9753354587-6">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="9753354587-6">}</span><span class="w">
-  </span><span class="k" data-group-id="9753354587-4">end</span><span class="w">
-</span><span class="k" data-group-id="9753354587-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3999624671-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3999624671-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="3999624671-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3999624671-3">{</span><span class="ss">:my_weird_handler</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3999624671-3">}</span><span class="p" data-group-id="3999624671-1">}</span></code></pre><p>To register event handlers, you use <code class="inline">Axon.Loop.handle/4</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0962613856-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0962613856-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0962613856-2">(</span><span class="mi">8</span><span class="p" data-group-id="0962613856-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0962613856-3">(</span><span class="p" data-group-id="0962613856-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0962613856-4">(</span><span class="mi">4</span><span class="p" data-group-id="0962613856-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0962613856-5">(</span><span class="p" data-group-id="0962613856-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0962613856-6">(</span><span class="mi">1</span><span class="p" data-group-id="0962613856-6">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_weird_handler</span><span class="p" data-group-id="1047305160-2">(</span><span class="p" data-group-id="1047305160-3">%</span><span class="nc" data-group-id="1047305160-3">State</span><span class="p" data-group-id="1047305160-3">{</span><span class="p" data-group-id="1047305160-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1047305160-2">)</span><span class="w"> </span><span class="k" data-group-id="1047305160-4">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="1047305160-5">(</span><span class="s">&quot;My weird handler: fired&quot;</span><span class="p" data-group-id="1047305160-5">)</span><span class="w">
+    </span><span class="p" data-group-id="1047305160-6">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1047305160-6">}</span><span class="w">
+  </span><span class="k" data-group-id="1047305160-4">end</span><span class="w">
+</span><span class="k" data-group-id="1047305160-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4335348304-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4335348304-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="4335348304-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4335348304-3">{</span><span class="ss">:my_weird_handler</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4335348304-3">}</span><span class="p" data-group-id="4335348304-1">}</span></code></pre><p>To register event handlers, you use <code class="inline">Axon.Loop.handle/4</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4051137952-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4051137952-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4051137952-2">(</span><span class="mi">8</span><span class="p" data-group-id="4051137952-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4051137952-3">(</span><span class="p" data-group-id="4051137952-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4051137952-4">(</span><span class="mi">4</span><span class="p" data-group-id="4051137952-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4051137952-5">(</span><span class="p" data-group-id="4051137952-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4051137952-6">(</span><span class="mi">1</span><span class="p" data-group-id="4051137952-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0962613856-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0962613856-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="0962613856-8">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0962613856-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8425527819-1">#</span><span class="nc" data-group-id="8425527819-1">Axon.Loop</span><span class="p" data-group-id="8425527819-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-3">[</span><span class="p" data-group-id="8425527819-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-4">[</span><span class="w">
-      </span><span class="p" data-group-id="8425527819-5">{</span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="8425527819-6">#</span><span class="nc" data-group-id="8425527819-6">Function</span><span class="p" data-group-id="8425527819-6">&lt;</span><span class="mf">5.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8425527819-6">&gt;</span><span class="p" data-group-id="8425527819-5">}</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8425527819-7">{</span><span class="p" data-group-id="8425527819-8">#</span><span class="nc" data-group-id="8425527819-8">Function</span><span class="p" data-group-id="8425527819-8">&lt;</span><span class="mf">23.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="8425527819-8">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="8425527819-9">#</span><span class="nc" data-group-id="8425527819-9">Function</span><span class="p" data-group-id="8425527819-9">&lt;</span><span class="mf">5.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8425527819-9">&gt;</span><span class="p" data-group-id="8425527819-7">}</span><span class="w">
-    </span><span class="p" data-group-id="8425527819-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-10">[</span><span class="p" data-group-id="8425527819-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-11">[</span><span class="p" data-group-id="8425527819-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-12">[</span><span class="p" data-group-id="8425527819-12">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-13">[</span><span class="w">
-      </span><span class="p" data-group-id="8425527819-14">{</span><span class="p" data-group-id="8425527819-15">#</span><span class="nc" data-group-id="8425527819-15">Function</span><span class="p" data-group-id="8425527819-15">&lt;</span><span class="mf">23.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="8425527819-15">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="8425527819-16">#</span><span class="nc" data-group-id="8425527819-16">Function</span><span class="p" data-group-id="8425527819-16">&lt;</span><span class="mf">3.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8425527819-16">&gt;</span><span class="p" data-group-id="8425527819-14">}</span><span class="w">
-    </span><span class="p" data-group-id="8425527819-13">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-17">[</span><span class="p" data-group-id="8425527819-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-18">[</span><span class="p" data-group-id="8425527819-18">]</span><span class="w">
-  </span><span class="p" data-group-id="8425527819-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8425527819-19">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8425527819-20">{</span><span class="p" data-group-id="8425527819-21">#</span><span class="nc" data-group-id="8425527819-21">Function</span><span class="p" data-group-id="8425527819-21">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8425527819-21">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="8425527819-22">#</span><span class="nc" data-group-id="8425527819-22">Function</span><span class="p" data-group-id="8425527819-22">&lt;</span><span class="mf">6.33119226</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8425527819-22">&gt;</span><span class="p" data-group-id="8425527819-20">}</span><span class="w">
-  </span><span class="p" data-group-id="8425527819-19">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4051137952-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4051137952-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="4051137952-8">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4051137952-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8129554077-1">#</span><span class="nc" data-group-id="8129554077-1">Axon.Loop</span><span class="p" data-group-id="8129554077-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-3">[</span><span class="p" data-group-id="8129554077-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-4">[</span><span class="w">
+      </span><span class="p" data-group-id="8129554077-5">{</span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="8129554077-6">#</span><span class="nc" data-group-id="8129554077-6">Function</span><span class="p" data-group-id="8129554077-6">&lt;</span><span class="mf">5.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8129554077-6">&gt;</span><span class="p" data-group-id="8129554077-5">}</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="8129554077-7">{</span><span class="p" data-group-id="8129554077-8">#</span><span class="nc" data-group-id="8129554077-8">Function</span><span class="p" data-group-id="8129554077-8">&lt;</span><span class="mf">23.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="8129554077-8">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="8129554077-9">#</span><span class="nc" data-group-id="8129554077-9">Function</span><span class="p" data-group-id="8129554077-9">&lt;</span><span class="mf">5.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8129554077-9">&gt;</span><span class="p" data-group-id="8129554077-7">}</span><span class="w">
+    </span><span class="p" data-group-id="8129554077-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-10">[</span><span class="p" data-group-id="8129554077-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-11">[</span><span class="p" data-group-id="8129554077-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-12">[</span><span class="p" data-group-id="8129554077-12">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-13">[</span><span class="w">
+      </span><span class="p" data-group-id="8129554077-14">{</span><span class="p" data-group-id="8129554077-15">#</span><span class="nc" data-group-id="8129554077-15">Function</span><span class="p" data-group-id="8129554077-15">&lt;</span><span class="mf">23.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="8129554077-15">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="8129554077-16">#</span><span class="nc" data-group-id="8129554077-16">Function</span><span class="p" data-group-id="8129554077-16">&lt;</span><span class="mf">3.33119226</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8129554077-16">&gt;</span><span class="p" data-group-id="8129554077-14">}</span><span class="w">
+    </span><span class="p" data-group-id="8129554077-13">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-17">[</span><span class="p" data-group-id="8129554077-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-18">[</span><span class="p" data-group-id="8129554077-18">]</span><span class="w">
+  </span><span class="p" data-group-id="8129554077-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8129554077-19">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8129554077-20">{</span><span class="p" data-group-id="8129554077-21">#</span><span class="nc" data-group-id="8129554077-21">Function</span><span class="p" data-group-id="8129554077-21">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8129554077-21">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="8129554077-22">#</span><span class="nc" data-group-id="8129554077-22">Function</span><span class="p" data-group-id="8129554077-22">&lt;</span><span class="mf">6.33119226</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8129554077-22">&gt;</span><span class="p" data-group-id="8129554077-20">}</span><span class="w">
+  </span><span class="p" data-group-id="8129554077-19">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="8425527819-1">&gt;</span></code></pre><p>Axon will trigger your custom handler to run on the attached event:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="2936299013-1">(</span><span class="k" data-group-id="2936299013-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="2936299013-3">(</span><span class="p" data-group-id="2936299013-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2936299013-4">}</span><span class="p" data-group-id="2936299013-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="2936299013-5">(</span><span class="n">xs</span><span class="p" data-group-id="2936299013-5">)</span><span class="w">
-    </span><span class="p" data-group-id="2936299013-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="2936299013-6">}</span><span class="w">
-  </span><span class="k" data-group-id="2936299013-2">end</span><span class="p" data-group-id="2936299013-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2936299013-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2936299013-8">%{</span><span class="p" data-group-id="2936299013-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="2936299013-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1905403</span><span class="w">
+</span><span class="p" data-group-id="8129554077-1">&gt;</span></code></pre><p>Axon will trigger your custom handler to run on the attached event:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="3880745835-1">(</span><span class="k" data-group-id="3880745835-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="3880745835-3">(</span><span class="p" data-group-id="3880745835-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3880745835-4">}</span><span class="p" data-group-id="3880745835-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="3880745835-5">(</span><span class="n">xs</span><span class="p" data-group-id="3880745835-5">)</span><span class="w">
+    </span><span class="p" data-group-id="3880745835-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="3880745835-6">}</span><span class="w">
+  </span><span class="k" data-group-id="3880745835-2">end</span><span class="p" data-group-id="3880745835-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3880745835-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3880745835-8">%{</span><span class="p" data-group-id="3880745835-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="3880745835-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1905403</span><span class="w">
 </span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1478554</span><span class="w">
 </span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span><span class="w">
@@ -182,128 +182,128 @@ <h1>
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0983292</span><span class="w">
 </span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0845697</span><span class="w">
-</span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6101958980-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-3">#</span><span class="nc" data-group-id="6101958980-3">Nx.Tensor</span><span class="p" data-group-id="6101958980-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6101958980-4">[</span><span class="mi">8</span><span class="p" data-group-id="6101958980-4">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-5">[</span><span class="mf">0.014659373089671135</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08941870182752609</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09661660343408585</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2650177478790283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06400775164365768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07953602075576782</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22094617784023285</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014790073968470097</span><span class="p" data-group-id="6101958980-5">]</span><span class="w">
-    </span><span class="p" data-group-id="6101958980-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-6">#</span><span class="nc" data-group-id="6101958980-6">Nx.Tensor</span><span class="p" data-group-id="6101958980-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6101958980-7">[</span><span class="mi">1</span><span class="p" data-group-id="6101958980-7">]</span><span class="p" data-group-id="6101958980-8">[</span><span class="mi">8</span><span class="p" data-group-id="6101958980-8">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-9">[</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-10">[</span><span class="mf">0.3581556975841522</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38828182220458984</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3311854302883148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4059808552265167</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6334917545318604</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17008493840694427</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5630434155464172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3790667653083801</span><span class="p" data-group-id="6101958980-10">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-9">]</span><span class="w">
-    </span><span class="p" data-group-id="6101958980-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6101958980-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-12">#</span><span class="nc" data-group-id="6101958980-12">Nx.Tensor</span><span class="p" data-group-id="6101958980-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6101958980-13">[</span><span class="mi">4</span><span class="p" data-group-id="6101958980-13">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-14">[</span><span class="mf">0.3047839403152466</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.025677276775240898</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18113580346107483</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19019420444965363</span><span class="p" data-group-id="6101958980-14">]</span><span class="w">
-    </span><span class="p" data-group-id="6101958980-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-15">#</span><span class="nc" data-group-id="6101958980-15">Nx.Tensor</span><span class="p" data-group-id="6101958980-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6101958980-16">[</span><span class="mi">8</span><span class="p" data-group-id="6101958980-16">]</span><span class="p" data-group-id="6101958980-17">[</span><span class="mi">4</span><span class="p" data-group-id="6101958980-17">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-18">[</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-19">[</span><span class="o">-</span><span class="mf">0.25477269291877747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28833284974098206</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25498083233833313</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40912926197052</span><span class="p" data-group-id="6101958980-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-20">[</span><span class="o">-</span><span class="mf">0.387851357460022</span><span class="p">,</span><span class="w"> </span><span class="mf">0.009837300516664982</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48930269479751587</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6119663715362549</span><span class="p" data-group-id="6101958980-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-21">[</span><span class="mf">0.49769237637519836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45746952295303345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3886529505252838</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49895355105400085</span><span class="p" data-group-id="6101958980-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-22">[</span><span class="mf">0.6451961994171143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16054697334766388</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27802371978759766</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15226426720619202</span><span class="p" data-group-id="6101958980-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-23">[</span><span class="mf">0.17125651240348816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.048851024359464645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19429178535938263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24933232367038727</span><span class="p" data-group-id="6101958980-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-24">[</span><span class="mf">0.5465306043624878</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15836869180202484</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39782997965812683</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3635501563549042</span><span class="p" data-group-id="6101958980-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-25">[</span><span class="o">-</span><span class="mf">0.36660289764404297</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.011948992498219013</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48680511116981506</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5263928174972534</span><span class="p" data-group-id="6101958980-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-26">[</span><span class="o">-</span><span class="mf">0.6284276843070984</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5880372524261475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004470183979719877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4550755023956299</span><span class="p" data-group-id="6101958980-26">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-18">]</span><span class="w">
-    </span><span class="p" data-group-id="6101958980-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6101958980-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-28">#</span><span class="nc" data-group-id="6101958980-28">Nx.Tensor</span><span class="p" data-group-id="6101958980-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6101958980-29">[</span><span class="mi">1</span><span class="p" data-group-id="6101958980-29">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-30">[</span><span class="mf">0.7117368578910828</span><span class="p" data-group-id="6101958980-30">]</span><span class="w">
-    </span><span class="p" data-group-id="6101958980-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6101958980-31">#</span><span class="nc" data-group-id="6101958980-31">Nx.Tensor</span><span class="p" data-group-id="6101958980-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6101958980-32">[</span><span class="mi">4</span><span class="p" data-group-id="6101958980-32">]</span><span class="p" data-group-id="6101958980-33">[</span><span class="mi">1</span><span class="p" data-group-id="6101958980-33">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-34">[</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-35">[</span><span class="o">-</span><span class="mf">0.7743457555770874</span><span class="p" data-group-id="6101958980-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-36">[</span><span class="mf">0.3977936804294586</span><span class="p" data-group-id="6101958980-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-37">[</span><span class="o">-</span><span class="mf">1.0638943910598755</span><span class="p" data-group-id="6101958980-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6101958980-38">[</span><span class="o">-</span><span class="mf">0.6494196653366089</span><span class="p" data-group-id="6101958980-38">]</span><span class="w">
-      </span><span class="p" data-group-id="6101958980-34">]</span><span class="w">
-    </span><span class="p" data-group-id="6101958980-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6101958980-27">}</span><span class="w">
-</span><span class="p" data-group-id="6101958980-1">}</span></code></pre><p>You can use event handlers to early-stop a loop or loop epoch by returning a <code class="inline">:halt_*</code> control term. Halt control terms can be one of <code class="inline">:halt_epoch</code> or <code class="inline">:halt_loop</code>. <code class="inline">:halt_epoch</code> halts the current epoch and continues to the next. <code class="inline">:halt_loop</code> halts the loop altogether.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="w"> </span><span class="k" data-group-id="6865094608-1">do</span><span class="w">
+</span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9318944506-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-3">#</span><span class="nc" data-group-id="9318944506-3">Nx.Tensor</span><span class="p" data-group-id="9318944506-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9318944506-4">[</span><span class="mi">8</span><span class="p" data-group-id="9318944506-4">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-5">[</span><span class="mf">0.014659373089671135</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08941870182752609</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09661660343408585</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2650177478790283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06400775164365768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07953602075576782</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22094617784023285</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014790073968470097</span><span class="p" data-group-id="9318944506-5">]</span><span class="w">
+    </span><span class="p" data-group-id="9318944506-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-6">#</span><span class="nc" data-group-id="9318944506-6">Nx.Tensor</span><span class="p" data-group-id="9318944506-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9318944506-7">[</span><span class="mi">1</span><span class="p" data-group-id="9318944506-7">]</span><span class="p" data-group-id="9318944506-8">[</span><span class="mi">8</span><span class="p" data-group-id="9318944506-8">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-9">[</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-10">[</span><span class="mf">0.3581556975841522</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38828182220458984</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3311854302883148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4059808552265167</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6334917545318604</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17008493840694427</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5630434155464172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3790667653083801</span><span class="p" data-group-id="9318944506-10">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-9">]</span><span class="w">
+    </span><span class="p" data-group-id="9318944506-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9318944506-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-12">#</span><span class="nc" data-group-id="9318944506-12">Nx.Tensor</span><span class="p" data-group-id="9318944506-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9318944506-13">[</span><span class="mi">4</span><span class="p" data-group-id="9318944506-13">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-14">[</span><span class="mf">0.3047839403152466</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.025677276775240898</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18113580346107483</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19019420444965363</span><span class="p" data-group-id="9318944506-14">]</span><span class="w">
+    </span><span class="p" data-group-id="9318944506-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-15">#</span><span class="nc" data-group-id="9318944506-15">Nx.Tensor</span><span class="p" data-group-id="9318944506-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9318944506-16">[</span><span class="mi">8</span><span class="p" data-group-id="9318944506-16">]</span><span class="p" data-group-id="9318944506-17">[</span><span class="mi">4</span><span class="p" data-group-id="9318944506-17">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-18">[</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-19">[</span><span class="o">-</span><span class="mf">0.25477269291877747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28833284974098206</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25498083233833313</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40912926197052</span><span class="p" data-group-id="9318944506-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-20">[</span><span class="o">-</span><span class="mf">0.387851357460022</span><span class="p">,</span><span class="w"> </span><span class="mf">0.009837300516664982</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48930269479751587</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6119663715362549</span><span class="p" data-group-id="9318944506-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-21">[</span><span class="mf">0.49769237637519836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45746952295303345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3886529505252838</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49895355105400085</span><span class="p" data-group-id="9318944506-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-22">[</span><span class="mf">0.6451961994171143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16054697334766388</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27802371978759766</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15226426720619202</span><span class="p" data-group-id="9318944506-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-23">[</span><span class="mf">0.17125651240348816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.048851024359464645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19429178535938263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24933232367038727</span><span class="p" data-group-id="9318944506-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-24">[</span><span class="mf">0.5465306043624878</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15836869180202484</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39782997965812683</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3635501563549042</span><span class="p" data-group-id="9318944506-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-25">[</span><span class="o">-</span><span class="mf">0.36660289764404297</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.011948992498219013</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48680511116981506</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5263928174972534</span><span class="p" data-group-id="9318944506-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-26">[</span><span class="o">-</span><span class="mf">0.6284276843070984</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5880372524261475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004470183979719877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4550755023956299</span><span class="p" data-group-id="9318944506-26">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-18">]</span><span class="w">
+    </span><span class="p" data-group-id="9318944506-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9318944506-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-28">#</span><span class="nc" data-group-id="9318944506-28">Nx.Tensor</span><span class="p" data-group-id="9318944506-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9318944506-29">[</span><span class="mi">1</span><span class="p" data-group-id="9318944506-29">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-30">[</span><span class="mf">0.7117368578910828</span><span class="p" data-group-id="9318944506-30">]</span><span class="w">
+    </span><span class="p" data-group-id="9318944506-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9318944506-31">#</span><span class="nc" data-group-id="9318944506-31">Nx.Tensor</span><span class="p" data-group-id="9318944506-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9318944506-32">[</span><span class="mi">4</span><span class="p" data-group-id="9318944506-32">]</span><span class="p" data-group-id="9318944506-33">[</span><span class="mi">1</span><span class="p" data-group-id="9318944506-33">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-34">[</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-35">[</span><span class="o">-</span><span class="mf">0.7743457555770874</span><span class="p" data-group-id="9318944506-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-36">[</span><span class="mf">0.3977936804294586</span><span class="p" data-group-id="9318944506-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-37">[</span><span class="o">-</span><span class="mf">1.0638943910598755</span><span class="p" data-group-id="9318944506-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9318944506-38">[</span><span class="o">-</span><span class="mf">0.6494196653366089</span><span class="p" data-group-id="9318944506-38">]</span><span class="w">
+      </span><span class="p" data-group-id="9318944506-34">]</span><span class="w">
+    </span><span class="p" data-group-id="9318944506-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9318944506-27">}</span><span class="w">
+</span><span class="p" data-group-id="9318944506-1">}</span></code></pre><p>You can use event handlers to early-stop a loop or loop epoch by returning a <code class="inline">:halt_*</code> control term. Halt control terms can be one of <code class="inline">:halt_epoch</code> or <code class="inline">:halt_loop</code>. <code class="inline">:halt_epoch</code> halts the current epoch and continues to the next. <code class="inline">:halt_loop</code> halts the loop altogether.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="w"> </span><span class="k" data-group-id="0925918212-1">do</span><span class="w">
   </span><span class="kn">alias</span><span class="w"> </span><span class="nc">Axon.Loop.State</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts</span><span class="p" data-group-id="6865094608-2">(</span><span class="p" data-group-id="6865094608-3">%</span><span class="nc" data-group-id="6865094608-3">State</span><span class="p" data-group-id="6865094608-3">{</span><span class="p" data-group-id="6865094608-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6865094608-2">)</span><span class="w"> </span><span class="k" data-group-id="6865094608-4">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6865094608-5">(</span><span class="s">&quot;stopping loop&quot;</span><span class="p" data-group-id="6865094608-5">)</span><span class="w">
-    </span><span class="p" data-group-id="6865094608-6">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6865094608-6">}</span><span class="w">
-  </span><span class="k" data-group-id="6865094608-4">end</span><span class="w">
-</span><span class="k" data-group-id="6865094608-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0037665695-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0037665695-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0037665695-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0037665695-3">{</span><span class="ss">:always_halts</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0037665695-3">}</span><span class="p" data-group-id="0037665695-1">}</span></code></pre><p>The loop will immediately stop executing and return the current state at the time it was halted:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9449485258-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9449485258-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="9449485258-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">always_halts</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9449485258-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9449485258-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9449485258-4">%{</span><span class="p" data-group-id="9449485258-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="9449485258-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1967763</span><span class="w">
-</span><span class="n">stopping</span><span class="w"> </span><span class="n">loop</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5805124461-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-3">#</span><span class="nc" data-group-id="5805124461-3">Nx.Tensor</span><span class="p" data-group-id="5805124461-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5805124461-4">[</span><span class="mi">8</span><span class="p" data-group-id="5805124461-4">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-5">[</span><span class="o">-</span><span class="mf">0.05958094820380211</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08930676430463791</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.006259916350245476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05067025125026703</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10981185734272003</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.011248357594013214</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.007601946126669645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.036958880722522736</span><span class="p" data-group-id="5805124461-5">]</span><span class="w">
-    </span><span class="p" data-group-id="5805124461-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-6">#</span><span class="nc" data-group-id="5805124461-6">Nx.Tensor</span><span class="p" data-group-id="5805124461-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5805124461-7">[</span><span class="mi">1</span><span class="p" data-group-id="5805124461-7">]</span><span class="p" data-group-id="5805124461-8">[</span><span class="mi">8</span><span class="p" data-group-id="5805124461-8">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-9">[</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-10">[</span><span class="mf">0.050393108278512955</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5486620664596558</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6901980042457581</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42280837893486023</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6446300745010376</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25207778811454773</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13566234707832336</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26625606417655945</span><span class="p" data-group-id="5805124461-10">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-9">]</span><span class="w">
-    </span><span class="p" data-group-id="5805124461-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5805124461-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-12">#</span><span class="nc" data-group-id="5805124461-12">Nx.Tensor</span><span class="p" data-group-id="5805124461-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5805124461-13">[</span><span class="mi">4</span><span class="p" data-group-id="5805124461-13">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-14">[</span><span class="o">-</span><span class="mf">0.06729397922754288</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14259757101535797</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0020351663697510958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16679106652736664</span><span class="p" data-group-id="5805124461-14">]</span><span class="w">
-    </span><span class="p" data-group-id="5805124461-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-15">#</span><span class="nc" data-group-id="5805124461-15">Nx.Tensor</span><span class="p" data-group-id="5805124461-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5805124461-16">[</span><span class="mi">8</span><span class="p" data-group-id="5805124461-16">]</span><span class="p" data-group-id="5805124461-17">[</span><span class="mi">4</span><span class="p" data-group-id="5805124461-17">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-18">[</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-19">[</span><span class="o">-</span><span class="mf">0.5964004397392273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5631846785545349</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15613533556461334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1943722516298294</span><span class="p" data-group-id="5805124461-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-20">[</span><span class="mf">0.19513694941997528</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24765732884407043</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06751974672079086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6707308292388916</span><span class="p" data-group-id="5805124461-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-21">[</span><span class="o">-</span><span class="mf">0.6826592087745667</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.006577506195753813</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6097249984741211</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5801466703414917</span><span class="p" data-group-id="5805124461-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-22">[</span><span class="o">-</span><span class="mf">0.30076032876968384</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34819719195365906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5906499028205872</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37741175293922424</span><span class="p" data-group-id="5805124461-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-23">[</span><span class="mf">0.16266342997550964</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7666646838188171</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6456886529922485</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4589986801147461</span><span class="p" data-group-id="5805124461-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-24">[</span><span class="o">-</span><span class="mf">0.2686948776245117</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06113003194332123</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22663049399852753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12092678993940353</span><span class="p" data-group-id="5805124461-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-25">[</span><span class="o">-</span><span class="mf">0.5785921216011047</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.641874372959137</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24317769706249237</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2897084951400757</span><span class="p" data-group-id="5805124461-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-26">[</span><span class="mf">0.14917287230491638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24462535977363586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.64858478307724</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5138146877288818</span><span class="p" data-group-id="5805124461-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-18">]</span><span class="w">
-    </span><span class="p" data-group-id="5805124461-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5805124461-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-28">#</span><span class="nc" data-group-id="5805124461-28">Nx.Tensor</span><span class="p" data-group-id="5805124461-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5805124461-29">[</span><span class="mi">1</span><span class="p" data-group-id="5805124461-29">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-30">[</span><span class="o">-</span><span class="mf">0.11649220436811447</span><span class="p" data-group-id="5805124461-30">]</span><span class="w">
-    </span><span class="p" data-group-id="5805124461-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5805124461-31">#</span><span class="nc" data-group-id="5805124461-31">Nx.Tensor</span><span class="p" data-group-id="5805124461-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5805124461-32">[</span><span class="mi">4</span><span class="p" data-group-id="5805124461-32">]</span><span class="p" data-group-id="5805124461-33">[</span><span class="mi">1</span><span class="p" data-group-id="5805124461-33">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-34">[</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-35">[</span><span class="mf">0.7849427461624146</span><span class="p" data-group-id="5805124461-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-36">[</span><span class="mf">0.5966104865074158</span><span class="p" data-group-id="5805124461-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-37">[</span><span class="o">-</span><span class="mf">0.5520159602165222</span><span class="p" data-group-id="5805124461-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5805124461-38">[</span><span class="o">-</span><span class="mf">0.4974740147590637</span><span class="p" data-group-id="5805124461-38">]</span><span class="w">
-      </span><span class="p" data-group-id="5805124461-34">]</span><span class="w">
-    </span><span class="p" data-group-id="5805124461-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5805124461-27">}</span><span class="w">
-</span><span class="p" data-group-id="5805124461-1">}</span></code></pre><p>Note that halting an epoch will fire a different event than completing an epoch. So if you implement a custom handler to halt the loop when an epoch completes, it will never fire if the epoch always halts prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="w"> </span><span class="k" data-group-id="1586727132-1">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts</span><span class="p" data-group-id="0925918212-2">(</span><span class="p" data-group-id="0925918212-3">%</span><span class="nc" data-group-id="0925918212-3">State</span><span class="p" data-group-id="0925918212-3">{</span><span class="p" data-group-id="0925918212-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0925918212-2">)</span><span class="w"> </span><span class="k" data-group-id="0925918212-4">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0925918212-5">(</span><span class="s">&quot;stopping loop&quot;</span><span class="p" data-group-id="0925918212-5">)</span><span class="w">
+    </span><span class="p" data-group-id="0925918212-6">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0925918212-6">}</span><span class="w">
+  </span><span class="k" data-group-id="0925918212-4">end</span><span class="w">
+</span><span class="k" data-group-id="0925918212-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1406323925-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1406323925-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1406323925-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1406323925-3">{</span><span class="ss">:always_halts</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1406323925-3">}</span><span class="p" data-group-id="1406323925-1">}</span></code></pre><p>The loop will immediately stop executing and return the current state at the time it was halted:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0465482433-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0465482433-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="0465482433-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">always_halts</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0465482433-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0465482433-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0465482433-4">%{</span><span class="p" data-group-id="0465482433-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="0465482433-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1967763</span><span class="w">
+</span><span class="n">stopping</span><span class="w"> </span><span class="n">loop</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1300109357-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-3">#</span><span class="nc" data-group-id="1300109357-3">Nx.Tensor</span><span class="p" data-group-id="1300109357-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1300109357-4">[</span><span class="mi">8</span><span class="p" data-group-id="1300109357-4">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-5">[</span><span class="o">-</span><span class="mf">0.05958094820380211</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08930676430463791</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.006259916350245476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05067025125026703</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10981185734272003</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.011248357594013214</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.007601946126669645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.036958880722522736</span><span class="p" data-group-id="1300109357-5">]</span><span class="w">
+    </span><span class="p" data-group-id="1300109357-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-6">#</span><span class="nc" data-group-id="1300109357-6">Nx.Tensor</span><span class="p" data-group-id="1300109357-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1300109357-7">[</span><span class="mi">1</span><span class="p" data-group-id="1300109357-7">]</span><span class="p" data-group-id="1300109357-8">[</span><span class="mi">8</span><span class="p" data-group-id="1300109357-8">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-9">[</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-10">[</span><span class="mf">0.050393108278512955</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5486620664596558</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6901980042457581</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42280837893486023</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6446300745010376</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25207778811454773</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13566234707832336</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26625606417655945</span><span class="p" data-group-id="1300109357-10">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-9">]</span><span class="w">
+    </span><span class="p" data-group-id="1300109357-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1300109357-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-12">#</span><span class="nc" data-group-id="1300109357-12">Nx.Tensor</span><span class="p" data-group-id="1300109357-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1300109357-13">[</span><span class="mi">4</span><span class="p" data-group-id="1300109357-13">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-14">[</span><span class="o">-</span><span class="mf">0.06729397922754288</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14259757101535797</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0020351663697510958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16679106652736664</span><span class="p" data-group-id="1300109357-14">]</span><span class="w">
+    </span><span class="p" data-group-id="1300109357-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-15">#</span><span class="nc" data-group-id="1300109357-15">Nx.Tensor</span><span class="p" data-group-id="1300109357-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1300109357-16">[</span><span class="mi">8</span><span class="p" data-group-id="1300109357-16">]</span><span class="p" data-group-id="1300109357-17">[</span><span class="mi">4</span><span class="p" data-group-id="1300109357-17">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-18">[</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-19">[</span><span class="o">-</span><span class="mf">0.5964004397392273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5631846785545349</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15613533556461334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1943722516298294</span><span class="p" data-group-id="1300109357-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-20">[</span><span class="mf">0.19513694941997528</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24765732884407043</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06751974672079086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6707308292388916</span><span class="p" data-group-id="1300109357-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-21">[</span><span class="o">-</span><span class="mf">0.6826592087745667</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.006577506195753813</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6097249984741211</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5801466703414917</span><span class="p" data-group-id="1300109357-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-22">[</span><span class="o">-</span><span class="mf">0.30076032876968384</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34819719195365906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5906499028205872</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37741175293922424</span><span class="p" data-group-id="1300109357-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-23">[</span><span class="mf">0.16266342997550964</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7666646838188171</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6456886529922485</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4589986801147461</span><span class="p" data-group-id="1300109357-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-24">[</span><span class="o">-</span><span class="mf">0.2686948776245117</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06113003194332123</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22663049399852753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12092678993940353</span><span class="p" data-group-id="1300109357-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-25">[</span><span class="o">-</span><span class="mf">0.5785921216011047</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.641874372959137</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24317769706249237</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2897084951400757</span><span class="p" data-group-id="1300109357-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-26">[</span><span class="mf">0.14917287230491638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24462535977363586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.64858478307724</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5138146877288818</span><span class="p" data-group-id="1300109357-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-18">]</span><span class="w">
+    </span><span class="p" data-group-id="1300109357-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1300109357-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-28">#</span><span class="nc" data-group-id="1300109357-28">Nx.Tensor</span><span class="p" data-group-id="1300109357-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1300109357-29">[</span><span class="mi">1</span><span class="p" data-group-id="1300109357-29">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-30">[</span><span class="o">-</span><span class="mf">0.11649220436811447</span><span class="p" data-group-id="1300109357-30">]</span><span class="w">
+    </span><span class="p" data-group-id="1300109357-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1300109357-31">#</span><span class="nc" data-group-id="1300109357-31">Nx.Tensor</span><span class="p" data-group-id="1300109357-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1300109357-32">[</span><span class="mi">4</span><span class="p" data-group-id="1300109357-32">]</span><span class="p" data-group-id="1300109357-33">[</span><span class="mi">1</span><span class="p" data-group-id="1300109357-33">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-34">[</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-35">[</span><span class="mf">0.7849427461624146</span><span class="p" data-group-id="1300109357-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-36">[</span><span class="mf">0.5966104865074158</span><span class="p" data-group-id="1300109357-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-37">[</span><span class="o">-</span><span class="mf">0.5520159602165222</span><span class="p" data-group-id="1300109357-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1300109357-38">[</span><span class="o">-</span><span class="mf">0.4974740147590637</span><span class="p" data-group-id="1300109357-38">]</span><span class="w">
+      </span><span class="p" data-group-id="1300109357-34">]</span><span class="w">
+    </span><span class="p" data-group-id="1300109357-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1300109357-27">}</span><span class="w">
+</span><span class="p" data-group-id="1300109357-1">}</span></code></pre><p>Note that halting an epoch will fire a different event than completing an epoch. So if you implement a custom handler to halt the loop when an epoch completes, it will never fire if the epoch always halts prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="w"> </span><span class="k" data-group-id="6124155453-1">do</span><span class="w">
   </span><span class="kn">alias</span><span class="w"> </span><span class="nc">Axon.Loop.State</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_epoch</span><span class="p" data-group-id="1586727132-2">(</span><span class="p" data-group-id="1586727132-3">%</span><span class="nc" data-group-id="1586727132-3">State</span><span class="p" data-group-id="1586727132-3">{</span><span class="p" data-group-id="1586727132-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1586727132-2">)</span><span class="w"> </span><span class="k" data-group-id="1586727132-4">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="1586727132-5">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">stopping epoch&quot;</span><span class="p" data-group-id="1586727132-5">)</span><span class="w">
-    </span><span class="p" data-group-id="1586727132-6">{</span><span class="ss">:halt_epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1586727132-6">}</span><span class="w">
-  </span><span class="k" data-group-id="1586727132-4">end</span><span class="w">
-
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_loop</span><span class="p" data-group-id="1586727132-7">(</span><span class="p" data-group-id="1586727132-8">%</span><span class="nc" data-group-id="1586727132-8">State</span><span class="p" data-group-id="1586727132-8">{</span><span class="p" data-group-id="1586727132-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1586727132-7">)</span><span class="w"> </span><span class="k" data-group-id="1586727132-9">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="1586727132-10">(</span><span class="s">&quot;stopping loop</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="1586727132-10">)</span><span class="w">
-    </span><span class="p" data-group-id="1586727132-11">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="1586727132-11">}</span><span class="w">
-  </span><span class="k" data-group-id="1586727132-9">end</span><span class="w">
-</span><span class="k" data-group-id="1586727132-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6982572474-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6982572474-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">7</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6982572474-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6982572474-3">{</span><span class="ss">:always_halts_loop</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6982572474-3">}</span><span class="p" data-group-id="6982572474-1">}</span></code></pre><p>If you run these handlers in conjunction, the loop will not terminate prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1223344660-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1223344660-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="1223344660-2">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">always_halts_epoch</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1223344660-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="1223344660-3">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">always_halts_loop</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1223344660-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1223344660-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1223344660-5">%{</span><span class="p" data-group-id="1223344660-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="1223344660-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0000000</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_epoch</span><span class="p" data-group-id="6124155453-2">(</span><span class="p" data-group-id="6124155453-3">%</span><span class="nc" data-group-id="6124155453-3">State</span><span class="p" data-group-id="6124155453-3">{</span><span class="p" data-group-id="6124155453-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6124155453-2">)</span><span class="w"> </span><span class="k" data-group-id="6124155453-4">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6124155453-5">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">stopping epoch&quot;</span><span class="p" data-group-id="6124155453-5">)</span><span class="w">
+    </span><span class="p" data-group-id="6124155453-6">{</span><span class="ss">:halt_epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6124155453-6">}</span><span class="w">
+  </span><span class="k" data-group-id="6124155453-4">end</span><span class="w">
+
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_loop</span><span class="p" data-group-id="6124155453-7">(</span><span class="p" data-group-id="6124155453-8">%</span><span class="nc" data-group-id="6124155453-8">State</span><span class="p" data-group-id="6124155453-8">{</span><span class="p" data-group-id="6124155453-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6124155453-7">)</span><span class="w"> </span><span class="k" data-group-id="6124155453-9">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6124155453-10">(</span><span class="s">&quot;stopping loop</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="6124155453-10">)</span><span class="w">
+    </span><span class="p" data-group-id="6124155453-11">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6124155453-11">}</span><span class="w">
+  </span><span class="k" data-group-id="6124155453-9">end</span><span class="w">
+</span><span class="k" data-group-id="6124155453-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6110397267-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6110397267-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">7</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6110397267-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6110397267-3">{</span><span class="ss">:always_halts_loop</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6110397267-3">}</span><span class="p" data-group-id="6110397267-1">}</span></code></pre><p>If you run these handlers in conjunction, the loop will not terminate prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8633850287-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8633850287-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="8633850287-2">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">always_halts_epoch</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8633850287-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="8633850287-3">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler</span><span class="o">.</span><span class="n">always_halts_loop</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8633850287-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8633850287-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8633850287-5">%{</span><span class="p" data-group-id="8633850287-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="8633850287-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0000000</span><span class="w">
 </span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.7256396</span><span class="w">
 </span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span><span class="w">
@@ -312,54 +312,54 @@ <h1>
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.4981923</span><span class="w">
 </span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.4377063</span><span class="w">
-</span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5874884788-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-3">#</span><span class="nc" data-group-id="5874884788-3">Nx.Tensor</span><span class="p" data-group-id="5874884788-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5874884788-4">[</span><span class="mi">8</span><span class="p" data-group-id="5874884788-4">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-5">[</span><span class="mf">9.248655405826867e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0038722341414541006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0015197680331766605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.001993122510612011</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0015419051051139832</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.004070846363902092</span><span class="p">,</span><span class="w"> </span><span class="mf">0.001461982261389494</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0043989671394228935</span><span class="p" data-group-id="5874884788-5">]</span><span class="w">
-    </span><span class="p" data-group-id="5874884788-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-6">#</span><span class="nc" data-group-id="5874884788-6">Nx.Tensor</span><span class="p" data-group-id="5874884788-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5874884788-7">[</span><span class="mi">1</span><span class="p" data-group-id="5874884788-7">]</span><span class="p" data-group-id="5874884788-8">[</span><span class="mi">8</span><span class="p" data-group-id="5874884788-8">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-9">[</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-10">[</span><span class="o">-</span><span class="mf">0.6537156701087952</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2857331335544586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.339731365442276</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46841081976890564</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5864744782447815</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.364472359418869</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385616421699524</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.694677472114563</span><span class="p" data-group-id="5874884788-10">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-9">]</span><span class="w">
-    </span><span class="p" data-group-id="5874884788-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5874884788-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-12">#</span><span class="nc" data-group-id="5874884788-12">Nx.Tensor</span><span class="p" data-group-id="5874884788-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5874884788-13">[</span><span class="mi">4</span><span class="p" data-group-id="5874884788-13">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017093738541007042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.00152371556032449</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0019599769730120897</span><span class="p" data-group-id="5874884788-14">]</span><span class="w">
-    </span><span class="p" data-group-id="5874884788-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-15">#</span><span class="nc" data-group-id="5874884788-15">Nx.Tensor</span><span class="p" data-group-id="5874884788-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5874884788-16">[</span><span class="mi">8</span><span class="p" data-group-id="5874884788-16">]</span><span class="p" data-group-id="5874884788-17">[</span><span class="mi">4</span><span class="p" data-group-id="5874884788-17">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-18">[</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-19">[</span><span class="o">-</span><span class="mf">0.21336764097213745</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6211493611335754</span><span class="p">,</span><span class="w"> </span><span class="mf">0.676548957824707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3768426477909088</span><span class="p" data-group-id="5874884788-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-20">[</span><span class="o">-</span><span class="mf">0.24921125173568726</span><span class="p">,</span><span class="w"> </span><span class="mf">0.217195525765419</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23704318702220917</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1597728431224823</span><span class="p" data-group-id="5874884788-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-21">[</span><span class="o">-</span><span class="mf">0.12178827077150345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4966273307800293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.283501535654068</span><span class="p">,</span><span class="w"> </span><span class="mf">0.00888047181069851</span><span class="p" data-group-id="5874884788-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-22">[</span><span class="o">-</span><span class="mf">0.19504092633724213</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18697738647460938</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14705461263656616</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39286476373672485</span><span class="p" data-group-id="5874884788-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-23">[</span><span class="o">-</span><span class="mf">0.5945789813995361</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5958647727966309</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3320448100566864</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02747068926692009</span><span class="p" data-group-id="5874884788-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-24">[</span><span class="o">-</span><span class="mf">0.2157520055770874</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2990635335445404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16008871793746948</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4921063184738159</span><span class="p" data-group-id="5874884788-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-25">[</span><span class="o">-</span><span class="mf">0.529068648815155</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.383655846118927</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07292155921459198</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2834954559803009</span><span class="p" data-group-id="5874884788-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-26">[</span><span class="o">-</span><span class="mf">0.3056498169898987</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28507867455482483</span><span class="p">,</span><span class="w"> </span><span class="mf">0.554026186466217</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24665579199790955</span><span class="p" data-group-id="5874884788-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-18">]</span><span class="w">
-    </span><span class="p" data-group-id="5874884788-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5874884788-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-28">#</span><span class="nc" data-group-id="5874884788-28">Nx.Tensor</span><span class="p" data-group-id="5874884788-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5874884788-29">[</span><span class="mi">1</span><span class="p" data-group-id="5874884788-29">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-30">[</span><span class="o">-</span><span class="mf">0.010511377826333046</span><span class="p" data-group-id="5874884788-30">]</span><span class="w">
-    </span><span class="p" data-group-id="5874884788-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5874884788-31">#</span><span class="nc" data-group-id="5874884788-31">Nx.Tensor</span><span class="p" data-group-id="5874884788-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5874884788-32">[</span><span class="mi">4</span><span class="p" data-group-id="5874884788-32">]</span><span class="p" data-group-id="5874884788-33">[</span><span class="mi">1</span><span class="p" data-group-id="5874884788-33">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-34">[</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-35">[</span><span class="mf">0.9865502119064331</span><span class="p" data-group-id="5874884788-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-36">[</span><span class="o">-</span><span class="mf">0.686279296875</span><span class="p" data-group-id="5874884788-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-37">[</span><span class="o">-</span><span class="mf">0.15436960756778717</span><span class="p" data-group-id="5874884788-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5874884788-38">[</span><span class="mf">0.18355509638786316</span><span class="p" data-group-id="5874884788-38">]</span><span class="w">
-      </span><span class="p" data-group-id="5874884788-34">]</span><span class="w">
-    </span><span class="p" data-group-id="5874884788-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5874884788-27">}</span><span class="w">
-</span><span class="p" data-group-id="5874884788-1">}</span></code></pre><p>You may access and update any portion of the loop state. Keep in mind that event handlers are <strong>not</strong> JIT-compiled, so you should be certain to manually JIT-compile any long-running or expensive operations.</p>
+</span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5635087704-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-3">#</span><span class="nc" data-group-id="5635087704-3">Nx.Tensor</span><span class="p" data-group-id="5635087704-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5635087704-4">[</span><span class="mi">8</span><span class="p" data-group-id="5635087704-4">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-5">[</span><span class="mf">9.248655405826867e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0038722341414541006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0015197680331766605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.001993122510612011</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0015419051051139832</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.004070846363902092</span><span class="p">,</span><span class="w"> </span><span class="mf">0.001461982261389494</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0043989671394228935</span><span class="p" data-group-id="5635087704-5">]</span><span class="w">
+    </span><span class="p" data-group-id="5635087704-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-6">#</span><span class="nc" data-group-id="5635087704-6">Nx.Tensor</span><span class="p" data-group-id="5635087704-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5635087704-7">[</span><span class="mi">1</span><span class="p" data-group-id="5635087704-7">]</span><span class="p" data-group-id="5635087704-8">[</span><span class="mi">8</span><span class="p" data-group-id="5635087704-8">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-9">[</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-10">[</span><span class="o">-</span><span class="mf">0.6537156701087952</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2857331335544586</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.339731365442276</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46841081976890564</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5864744782447815</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.364472359418869</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385616421699524</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.694677472114563</span><span class="p" data-group-id="5635087704-10">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-9">]</span><span class="w">
+    </span><span class="p" data-group-id="5635087704-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5635087704-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-12">#</span><span class="nc" data-group-id="5635087704-12">Nx.Tensor</span><span class="p" data-group-id="5635087704-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5635087704-13">[</span><span class="mi">4</span><span class="p" data-group-id="5635087704-13">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017093738541007042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.00152371556032449</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0019599769730120897</span><span class="p" data-group-id="5635087704-14">]</span><span class="w">
+    </span><span class="p" data-group-id="5635087704-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-15">#</span><span class="nc" data-group-id="5635087704-15">Nx.Tensor</span><span class="p" data-group-id="5635087704-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5635087704-16">[</span><span class="mi">8</span><span class="p" data-group-id="5635087704-16">]</span><span class="p" data-group-id="5635087704-17">[</span><span class="mi">4</span><span class="p" data-group-id="5635087704-17">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-18">[</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-19">[</span><span class="o">-</span><span class="mf">0.21336764097213745</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6211493611335754</span><span class="p">,</span><span class="w"> </span><span class="mf">0.676548957824707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3768426477909088</span><span class="p" data-group-id="5635087704-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-20">[</span><span class="o">-</span><span class="mf">0.24921125173568726</span><span class="p">,</span><span class="w"> </span><span class="mf">0.217195525765419</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23704318702220917</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1597728431224823</span><span class="p" data-group-id="5635087704-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-21">[</span><span class="o">-</span><span class="mf">0.12178827077150345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4966273307800293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.283501535654068</span><span class="p">,</span><span class="w"> </span><span class="mf">0.00888047181069851</span><span class="p" data-group-id="5635087704-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-22">[</span><span class="o">-</span><span class="mf">0.19504092633724213</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18697738647460938</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14705461263656616</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39286476373672485</span><span class="p" data-group-id="5635087704-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-23">[</span><span class="o">-</span><span class="mf">0.5945789813995361</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5958647727966309</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3320448100566864</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02747068926692009</span><span class="p" data-group-id="5635087704-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-24">[</span><span class="o">-</span><span class="mf">0.2157520055770874</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2990635335445404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16008871793746948</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4921063184738159</span><span class="p" data-group-id="5635087704-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-25">[</span><span class="o">-</span><span class="mf">0.529068648815155</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.383655846118927</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07292155921459198</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2834954559803009</span><span class="p" data-group-id="5635087704-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-26">[</span><span class="o">-</span><span class="mf">0.3056498169898987</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28507867455482483</span><span class="p">,</span><span class="w"> </span><span class="mf">0.554026186466217</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24665579199790955</span><span class="p" data-group-id="5635087704-26">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-18">]</span><span class="w">
+    </span><span class="p" data-group-id="5635087704-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5635087704-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-28">#</span><span class="nc" data-group-id="5635087704-28">Nx.Tensor</span><span class="p" data-group-id="5635087704-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5635087704-29">[</span><span class="mi">1</span><span class="p" data-group-id="5635087704-29">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-30">[</span><span class="o">-</span><span class="mf">0.010511377826333046</span><span class="p" data-group-id="5635087704-30">]</span><span class="w">
+    </span><span class="p" data-group-id="5635087704-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5635087704-31">#</span><span class="nc" data-group-id="5635087704-31">Nx.Tensor</span><span class="p" data-group-id="5635087704-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5635087704-32">[</span><span class="mi">4</span><span class="p" data-group-id="5635087704-32">]</span><span class="p" data-group-id="5635087704-33">[</span><span class="mi">1</span><span class="p" data-group-id="5635087704-33">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-34">[</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-35">[</span><span class="mf">0.9865502119064331</span><span class="p" data-group-id="5635087704-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-36">[</span><span class="o">-</span><span class="mf">0.686279296875</span><span class="p" data-group-id="5635087704-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-37">[</span><span class="o">-</span><span class="mf">0.15436960756778717</span><span class="p" data-group-id="5635087704-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5635087704-38">[</span><span class="mf">0.18355509638786316</span><span class="p" data-group-id="5635087704-38">]</span><span class="w">
+      </span><span class="p" data-group-id="5635087704-34">]</span><span class="w">
+    </span><span class="p" data-group-id="5635087704-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5635087704-27">}</span><span class="w">
+</span><span class="p" data-group-id="5635087704-1">}</span></code></pre><p>You may access and update any portion of the loop state. Keep in mind that event handlers are <strong>not</strong> JIT-compiled, so you should be certain to manually JIT-compile any long-running or expensive operations.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/writing_custom_metrics.html b/writing_custom_metrics.html
index 34d2ec6d..90439e61 100644
--- a/writing_custom_metrics.html
+++ b/writing_custom_metrics.html
@@ -115,312 +115,312 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3963829325-1">(</span><span class="p" data-group-id="3963829325-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3963829325-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="3963829325-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3963829325-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3963829325-4">}</span><span class="w">
-</span><span class="p" data-group-id="3963829325-2">]</span><span class="p" data-group-id="3963829325-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-metrics" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5528816643-1">(</span><span class="p" data-group-id="5528816643-2">[</span><span class="w">
+  </span><span class="p" data-group-id="5528816643-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="5528816643-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5528816643-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="5528816643-4">}</span><span class="w">
+</span><span class="p" data-group-id="5528816643-2">]</span><span class="p" data-group-id="5528816643-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-metrics" class="section-heading">
   <a href="#writing-custom-metrics" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">writing-custom-metrics</p>
   </a>
   Writing custom metrics
 </h2>
-<p>When passing an atom to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>, Axon dispatches the function to a built-in function in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. If you find you'd like to use a metric that does not exist in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>, you can define a custom function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="w"> </span><span class="k" data-group-id="7418121877-1">do</span><span class="w">
+<p>When passing an atom to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>, Axon dispatches the function to a built-in function in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. If you find you'd like to use a metric that does not exist in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>, you can define a custom function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="w"> </span><span class="k" data-group-id="7079695584-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_weird_metric</span><span class="p" data-group-id="7418121877-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7418121877-2">)</span><span class="w"> </span><span class="k" data-group-id="7418121877-3">do</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="7418121877-4">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7418121877-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="7418121877-5">(</span><span class="p" data-group-id="7418121877-5">)</span><span class="w">
-  </span><span class="k" data-group-id="7418121877-3">end</span><span class="w">
-</span><span class="k" data-group-id="7418121877-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6794260414-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6794260414-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6794260414-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6794260414-3">{</span><span class="ss">:my_weird_metric</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6794260414-3">}</span><span class="p" data-group-id="6794260414-1">}</span></code></pre><p>Then you can pass that directly to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>. You must provide a name for your custom metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1627438694-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="1627438694-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1627438694-2">(</span><span class="mi">8</span><span class="p" data-group-id="1627438694-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1627438694-3">(</span><span class="p" data-group-id="1627438694-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1627438694-4">(</span><span class="mi">4</span><span class="p" data-group-id="1627438694-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1627438694-5">(</span><span class="p" data-group-id="1627438694-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1627438694-6">(</span><span class="mi">1</span><span class="p" data-group-id="1627438694-6">)</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_weird_metric</span><span class="p" data-group-id="7079695584-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7079695584-2">)</span><span class="w"> </span><span class="k" data-group-id="7079695584-3">do</span><span class="w">
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="7079695584-4">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7079695584-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="7079695584-5">(</span><span class="p" data-group-id="7079695584-5">)</span><span class="w">
+  </span><span class="k" data-group-id="7079695584-3">end</span><span class="w">
+</span><span class="k" data-group-id="7079695584-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1562274938-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1562274938-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1562274938-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1562274938-3">{</span><span class="ss">:my_weird_metric</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1562274938-3">}</span><span class="p" data-group-id="1562274938-1">}</span></code></pre><p>Then you can pass that directly to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>. You must provide a name for your custom metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5268041018-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5268041018-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5268041018-2">(</span><span class="mi">8</span><span class="p" data-group-id="5268041018-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5268041018-3">(</span><span class="p" data-group-id="5268041018-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5268041018-4">(</span><span class="mi">4</span><span class="p" data-group-id="5268041018-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5268041018-5">(</span><span class="p" data-group-id="5268041018-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5268041018-6">(</span><span class="mi">1</span><span class="p" data-group-id="5268041018-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1627438694-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1627438694-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1627438694-8">(</span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;my weird metric&quot;</span><span class="p" data-group-id="1627438694-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9399306541-1">#</span><span class="nc" data-group-id="9399306541-1">Axon.Loop</span><span class="p" data-group-id="9399306541-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-3">[</span><span class="p" data-group-id="9399306541-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-4">[</span><span class="w">
-      </span><span class="p" data-group-id="9399306541-5">{</span><span class="p" data-group-id="9399306541-6">#</span><span class="nc" data-group-id="9399306541-6">Function</span><span class="p" data-group-id="9399306541-6">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="9399306541-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="9399306541-7">#</span><span class="nc" data-group-id="9399306541-7">Function</span><span class="p" data-group-id="9399306541-7">&lt;</span><span class="mf">5.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9399306541-7">&gt;</span><span class="p" data-group-id="9399306541-5">}</span><span class="w">
-    </span><span class="p" data-group-id="9399306541-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-8">[</span><span class="p" data-group-id="9399306541-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-9">[</span><span class="p" data-group-id="9399306541-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-10">[</span><span class="p" data-group-id="9399306541-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-11">[</span><span class="w">
-      </span><span class="p" data-group-id="9399306541-12">{</span><span class="p" data-group-id="9399306541-13">#</span><span class="nc" data-group-id="9399306541-13">Function</span><span class="p" data-group-id="9399306541-13">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="9399306541-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="9399306541-14">#</span><span class="nc" data-group-id="9399306541-14">Function</span><span class="p" data-group-id="9399306541-14">&lt;</span><span class="mf">3.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9399306541-14">&gt;</span><span class="p" data-group-id="9399306541-12">}</span><span class="w">
-    </span><span class="p" data-group-id="9399306541-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-15">[</span><span class="p" data-group-id="9399306541-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-16">[</span><span class="p" data-group-id="9399306541-16">]</span><span class="w">
-  </span><span class="p" data-group-id="9399306541-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9399306541-17">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9399306541-18">{</span><span class="p" data-group-id="9399306541-19">#</span><span class="nc" data-group-id="9399306541-19">Function</span><span class="p" data-group-id="9399306541-19">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9399306541-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="9399306541-20">#</span><span class="nc" data-group-id="9399306541-20">Function</span><span class="p" data-group-id="9399306541-20">&lt;</span><span class="mf">6.77614421</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9399306541-20">&gt;</span><span class="p" data-group-id="9399306541-18">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;my weird metric&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9399306541-21">{</span><span class="p" data-group-id="9399306541-22">#</span><span class="nc" data-group-id="9399306541-22">Function</span><span class="p" data-group-id="9399306541-22">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9399306541-22">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="9399306541-21">}</span><span class="w">
-  </span><span class="p" data-group-id="9399306541-17">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5268041018-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5268041018-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5268041018-8">(</span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;my weird metric&quot;</span><span class="p" data-group-id="5268041018-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3907412273-1">#</span><span class="nc" data-group-id="3907412273-1">Axon.Loop</span><span class="p" data-group-id="3907412273-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-3">[</span><span class="p" data-group-id="3907412273-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-4">[</span><span class="w">
+      </span><span class="p" data-group-id="3907412273-5">{</span><span class="p" data-group-id="3907412273-6">#</span><span class="nc" data-group-id="3907412273-6">Function</span><span class="p" data-group-id="3907412273-6">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3907412273-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="3907412273-7">#</span><span class="nc" data-group-id="3907412273-7">Function</span><span class="p" data-group-id="3907412273-7">&lt;</span><span class="mf">5.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3907412273-7">&gt;</span><span class="p" data-group-id="3907412273-5">}</span><span class="w">
+    </span><span class="p" data-group-id="3907412273-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-8">[</span><span class="p" data-group-id="3907412273-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-9">[</span><span class="p" data-group-id="3907412273-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-10">[</span><span class="p" data-group-id="3907412273-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-11">[</span><span class="w">
+      </span><span class="p" data-group-id="3907412273-12">{</span><span class="p" data-group-id="3907412273-13">#</span><span class="nc" data-group-id="3907412273-13">Function</span><span class="p" data-group-id="3907412273-13">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3907412273-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="3907412273-14">#</span><span class="nc" data-group-id="3907412273-14">Function</span><span class="p" data-group-id="3907412273-14">&lt;</span><span class="mf">3.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3907412273-14">&gt;</span><span class="p" data-group-id="3907412273-12">}</span><span class="w">
+    </span><span class="p" data-group-id="3907412273-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-15">[</span><span class="p" data-group-id="3907412273-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-16">[</span><span class="p" data-group-id="3907412273-16">]</span><span class="w">
+  </span><span class="p" data-group-id="3907412273-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3907412273-17">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3907412273-18">{</span><span class="p" data-group-id="3907412273-19">#</span><span class="nc" data-group-id="3907412273-19">Function</span><span class="p" data-group-id="3907412273-19">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3907412273-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="3907412273-20">#</span><span class="nc" data-group-id="3907412273-20">Function</span><span class="p" data-group-id="3907412273-20">&lt;</span><span class="mf">6.77614421</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3907412273-20">&gt;</span><span class="p" data-group-id="3907412273-18">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;my weird metric&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3907412273-21">{</span><span class="p" data-group-id="3907412273-22">#</span><span class="nc" data-group-id="3907412273-22">Function</span><span class="p" data-group-id="3907412273-22">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3907412273-22">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3907412273-21">}</span><span class="w">
+  </span><span class="p" data-group-id="3907412273-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="9399306541-1">&gt;</span></code></pre><p>Then when running, Axon will invoke your custom metric function and accumulate it with the given aggregator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="9457385551-1">(</span><span class="k" data-group-id="9457385551-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="9457385551-3">(</span><span class="p" data-group-id="9457385551-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9457385551-4">}</span><span class="p" data-group-id="9457385551-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="9457385551-5">(</span><span class="n">xs</span><span class="p" data-group-id="9457385551-5">)</span><span class="w">
-    </span><span class="p" data-group-id="9457385551-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="9457385551-6">}</span><span class="w">
-  </span><span class="k" data-group-id="9457385551-2">end</span><span class="p" data-group-id="9457385551-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9457385551-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9457385551-8">%{</span><span class="p" data-group-id="9457385551-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="9457385551-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0468431</span><span class="w"> </span><span class="n">my</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">metric</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">5.7462921</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9542945432-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-3">#</span><span class="nc" data-group-id="9542945432-3">Nx.Tensor</span><span class="p" data-group-id="9542945432-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9542945432-4">[</span><span class="mi">8</span><span class="p" data-group-id="9542945432-4">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-5">[</span><span class="mf">0.011475208215415478</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23035769164562225</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01538881566375494</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08167446404695511</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23642019927501678</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10298296064138412</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20279639959335327</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18916435539722443</span><span class="p" data-group-id="9542945432-5">]</span><span class="w">
-    </span><span class="p" data-group-id="9542945432-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-6">#</span><span class="nc" data-group-id="9542945432-6">Nx.Tensor</span><span class="p" data-group-id="9542945432-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9542945432-7">[</span><span class="mi">1</span><span class="p" data-group-id="9542945432-7">]</span><span class="p" data-group-id="9542945432-8">[</span><span class="mi">8</span><span class="p" data-group-id="9542945432-8">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-9">[</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-10">[</span><span class="mf">0.7426201105117798</span><span class="p">,</span><span class="w"> </span><span class="mf">0.734136700630188</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5648708343505859</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5230435132980347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3056533932685852</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3383721709251404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3518844544887543</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19460521638393402</span><span class="p" data-group-id="9542945432-10">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-9">]</span><span class="w">
-    </span><span class="p" data-group-id="9542945432-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9542945432-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-12">#</span><span class="nc" data-group-id="9542945432-12">Nx.Tensor</span><span class="p" data-group-id="9542945432-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9542945432-13">[</span><span class="mi">4</span><span class="p" data-group-id="9542945432-13">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-14">[</span><span class="mf">0.2185358852148056</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23043134808540344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2650437355041504</span><span class="p" data-group-id="9542945432-14">]</span><span class="w">
-    </span><span class="p" data-group-id="9542945432-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-15">#</span><span class="nc" data-group-id="9542945432-15">Nx.Tensor</span><span class="p" data-group-id="9542945432-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9542945432-16">[</span><span class="mi">8</span><span class="p" data-group-id="9542945432-16">]</span><span class="p" data-group-id="9542945432-17">[</span><span class="mi">4</span><span class="p" data-group-id="9542945432-17">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-18">[</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-19">[</span><span class="mf">0.19164204597473145</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26440876722335815</span><span class="p">,</span><span class="w"> </span><span class="mf">0.060297321528196335</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004777891095727682</span><span class="p" data-group-id="9542945432-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-20">[</span><span class="mf">0.019263261929154396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6267783045768738</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33454063534736633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33268266916275024</span><span class="p" data-group-id="9542945432-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-21">[</span><span class="o">-</span><span class="mf">0.18489953875541687</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4653063714504242</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6056118607521057</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046012550592422485</span><span class="p" data-group-id="9542945432-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-22">[</span><span class="mf">0.5975558161735535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.237883061170578</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6522921919822693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.019332828000187874</span><span class="p" data-group-id="9542945432-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-23">[</span><span class="o">-</span><span class="mf">0.7424253225326538</span><span class="p">,</span><span class="w"> </span><span class="mf">0.593705952167511</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2551117241382599</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26270362734794617</span><span class="p" data-group-id="9542945432-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-24">[</span><span class="mf">0.018434584140777588</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15290242433547974</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08793036639690399</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1839984804391861</span><span class="p" data-group-id="9542945432-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-25">[</span><span class="mf">0.6048195958137512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20294713973999023</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.694927990436554</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45577046275138855</span><span class="p" data-group-id="9542945432-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-26">[</span><span class="o">-</span><span class="mf">0.628790020942688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21741150319576263</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08936657756567001</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6170362234115601</span><span class="p" data-group-id="9542945432-26">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-18">]</span><span class="w">
-    </span><span class="p" data-group-id="9542945432-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9542945432-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-28">#</span><span class="nc" data-group-id="9542945432-28">Nx.Tensor</span><span class="p" data-group-id="9542945432-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9542945432-29">[</span><span class="mi">1</span><span class="p" data-group-id="9542945432-29">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-30">[</span><span class="o">-</span><span class="mf">0.03722470998764038</span><span class="p" data-group-id="9542945432-30">]</span><span class="w">
-    </span><span class="p" data-group-id="9542945432-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9542945432-31">#</span><span class="nc" data-group-id="9542945432-31">Nx.Tensor</span><span class="p" data-group-id="9542945432-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9542945432-32">[</span><span class="mi">4</span><span class="p" data-group-id="9542945432-32">]</span><span class="p" data-group-id="9542945432-33">[</span><span class="mi">1</span><span class="p" data-group-id="9542945432-33">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-34">[</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-35">[</span><span class="o">-</span><span class="mf">0.7919473648071289</span><span class="p" data-group-id="9542945432-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-36">[</span><span class="o">-</span><span class="mf">0.4341854751110077</span><span class="p" data-group-id="9542945432-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-37">[</span><span class="o">-</span><span class="mf">0.39114490151405334</span><span class="p" data-group-id="9542945432-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9542945432-38">[</span><span class="mf">0.9605273008346558</span><span class="p" data-group-id="9542945432-38">]</span><span class="w">
-      </span><span class="p" data-group-id="9542945432-34">]</span><span class="w">
-    </span><span class="p" data-group-id="9542945432-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9542945432-27">}</span><span class="w">
-</span><span class="p" data-group-id="9542945432-1">}</span></code></pre><p>While the metric defaults are designed with supervised training loops in mind, they can be used for much more flexible purposes. By default, metrics look for the fields <code class="inline">:y_true</code> and <code class="inline">:y_pred</code> in the given loop's step state. They then apply the given metric function on those inputs. You can also define metrics which work on other fields. For example you can track the running average of a given parameter with a metric just by defining a custom output transform:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6071340345-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6071340345-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6071340345-2">(</span><span class="mi">8</span><span class="p" data-group-id="6071340345-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6071340345-3">(</span><span class="p" data-group-id="6071340345-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6071340345-4">(</span><span class="mi">4</span><span class="p" data-group-id="6071340345-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6071340345-5">(</span><span class="p" data-group-id="6071340345-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6071340345-6">(</span><span class="mi">1</span><span class="p" data-group-id="6071340345-6">)</span><span class="w">
-
-</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6071340345-7">fn</span><span class="w"> </span><span class="p" data-group-id="6071340345-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="6071340345-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6071340345-9">[</span><span class="n">model_state</span><span class="p" data-group-id="6071340345-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="6071340345-10">]</span><span class="p" data-group-id="6071340345-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="6071340345-11">]</span><span class="p" data-group-id="6071340345-9">]</span><span class="w">
-</span><span class="k" data-group-id="6071340345-7">end</span><span class="w">
+</span><span class="p" data-group-id="3907412273-1">&gt;</span></code></pre><p>Then when running, Axon will invoke your custom metric function and accumulate it with the given aggregator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="4790650563-1">(</span><span class="k" data-group-id="4790650563-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="4790650563-3">(</span><span class="p" data-group-id="4790650563-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4790650563-4">}</span><span class="p" data-group-id="4790650563-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="4790650563-5">(</span><span class="n">xs</span><span class="p" data-group-id="4790650563-5">)</span><span class="w">
+    </span><span class="p" data-group-id="4790650563-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="4790650563-6">}</span><span class="w">
+  </span><span class="k" data-group-id="4790650563-2">end</span><span class="p" data-group-id="4790650563-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4790650563-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4790650563-8">%{</span><span class="p" data-group-id="4790650563-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="4790650563-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0468431</span><span class="w"> </span><span class="n">my</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">metric</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">5.7462921</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5812531940-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-3">#</span><span class="nc" data-group-id="5812531940-3">Nx.Tensor</span><span class="p" data-group-id="5812531940-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5812531940-4">[</span><span class="mi">8</span><span class="p" data-group-id="5812531940-4">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-5">[</span><span class="mf">0.011475208215415478</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23035769164562225</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01538881566375494</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08167446404695511</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23642019927501678</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10298296064138412</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20279639959335327</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18916435539722443</span><span class="p" data-group-id="5812531940-5">]</span><span class="w">
+    </span><span class="p" data-group-id="5812531940-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-6">#</span><span class="nc" data-group-id="5812531940-6">Nx.Tensor</span><span class="p" data-group-id="5812531940-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5812531940-7">[</span><span class="mi">1</span><span class="p" data-group-id="5812531940-7">]</span><span class="p" data-group-id="5812531940-8">[</span><span class="mi">8</span><span class="p" data-group-id="5812531940-8">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-9">[</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-10">[</span><span class="mf">0.7426201105117798</span><span class="p">,</span><span class="w"> </span><span class="mf">0.734136700630188</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5648708343505859</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5230435132980347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3056533932685852</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3383721709251404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3518844544887543</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19460521638393402</span><span class="p" data-group-id="5812531940-10">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-9">]</span><span class="w">
+    </span><span class="p" data-group-id="5812531940-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5812531940-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-12">#</span><span class="nc" data-group-id="5812531940-12">Nx.Tensor</span><span class="p" data-group-id="5812531940-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5812531940-13">[</span><span class="mi">4</span><span class="p" data-group-id="5812531940-13">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-14">[</span><span class="mf">0.2185358852148056</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23043134808540344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2650437355041504</span><span class="p" data-group-id="5812531940-14">]</span><span class="w">
+    </span><span class="p" data-group-id="5812531940-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-15">#</span><span class="nc" data-group-id="5812531940-15">Nx.Tensor</span><span class="p" data-group-id="5812531940-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5812531940-16">[</span><span class="mi">8</span><span class="p" data-group-id="5812531940-16">]</span><span class="p" data-group-id="5812531940-17">[</span><span class="mi">4</span><span class="p" data-group-id="5812531940-17">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-18">[</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-19">[</span><span class="mf">0.19164204597473145</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26440876722335815</span><span class="p">,</span><span class="w"> </span><span class="mf">0.060297321528196335</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004777891095727682</span><span class="p" data-group-id="5812531940-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-20">[</span><span class="mf">0.019263261929154396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6267783045768738</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33454063534736633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33268266916275024</span><span class="p" data-group-id="5812531940-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-21">[</span><span class="o">-</span><span class="mf">0.18489953875541687</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4653063714504242</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6056118607521057</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046012550592422485</span><span class="p" data-group-id="5812531940-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-22">[</span><span class="mf">0.5975558161735535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.237883061170578</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6522921919822693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.019332828000187874</span><span class="p" data-group-id="5812531940-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-23">[</span><span class="o">-</span><span class="mf">0.7424253225326538</span><span class="p">,</span><span class="w"> </span><span class="mf">0.593705952167511</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2551117241382599</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26270362734794617</span><span class="p" data-group-id="5812531940-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-24">[</span><span class="mf">0.018434584140777588</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15290242433547974</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08793036639690399</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1839984804391861</span><span class="p" data-group-id="5812531940-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-25">[</span><span class="mf">0.6048195958137512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20294713973999023</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.694927990436554</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45577046275138855</span><span class="p" data-group-id="5812531940-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-26">[</span><span class="o">-</span><span class="mf">0.628790020942688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21741150319576263</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08936657756567001</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6170362234115601</span><span class="p" data-group-id="5812531940-26">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-18">]</span><span class="w">
+    </span><span class="p" data-group-id="5812531940-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5812531940-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-28">#</span><span class="nc" data-group-id="5812531940-28">Nx.Tensor</span><span class="p" data-group-id="5812531940-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5812531940-29">[</span><span class="mi">1</span><span class="p" data-group-id="5812531940-29">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-30">[</span><span class="o">-</span><span class="mf">0.03722470998764038</span><span class="p" data-group-id="5812531940-30">]</span><span class="w">
+    </span><span class="p" data-group-id="5812531940-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5812531940-31">#</span><span class="nc" data-group-id="5812531940-31">Nx.Tensor</span><span class="p" data-group-id="5812531940-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5812531940-32">[</span><span class="mi">4</span><span class="p" data-group-id="5812531940-32">]</span><span class="p" data-group-id="5812531940-33">[</span><span class="mi">1</span><span class="p" data-group-id="5812531940-33">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-34">[</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-35">[</span><span class="o">-</span><span class="mf">0.7919473648071289</span><span class="p" data-group-id="5812531940-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-36">[</span><span class="o">-</span><span class="mf">0.4341854751110077</span><span class="p" data-group-id="5812531940-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-37">[</span><span class="o">-</span><span class="mf">0.39114490151405334</span><span class="p" data-group-id="5812531940-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5812531940-38">[</span><span class="mf">0.9605273008346558</span><span class="p" data-group-id="5812531940-38">]</span><span class="w">
+      </span><span class="p" data-group-id="5812531940-34">]</span><span class="w">
+    </span><span class="p" data-group-id="5812531940-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5812531940-27">}</span><span class="w">
+</span><span class="p" data-group-id="5812531940-1">}</span></code></pre><p>While the metric defaults are designed with supervised training loops in mind, they can be used for much more flexible purposes. By default, metrics look for the fields <code class="inline">:y_true</code> and <code class="inline">:y_pred</code> in the given loop's step state. They then apply the given metric function on those inputs. You can also define metrics which work on other fields. For example you can track the running average of a given parameter with a metric just by defining a custom output transform:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2377715075-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="2377715075-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2377715075-2">(</span><span class="mi">8</span><span class="p" data-group-id="2377715075-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2377715075-3">(</span><span class="p" data-group-id="2377715075-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2377715075-4">(</span><span class="mi">4</span><span class="p" data-group-id="2377715075-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2377715075-5">(</span><span class="p" data-group-id="2377715075-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2377715075-6">(</span><span class="mi">1</span><span class="p" data-group-id="2377715075-6">)</span><span class="w">
+
+</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2377715075-7">fn</span><span class="w"> </span><span class="p" data-group-id="2377715075-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="2377715075-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2377715075-9">[</span><span class="n">model_state</span><span class="p" data-group-id="2377715075-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="2377715075-10">]</span><span class="p" data-group-id="2377715075-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="2377715075-11">]</span><span class="p" data-group-id="2377715075-9">]</span><span class="w">
+</span><span class="k" data-group-id="2377715075-7">end</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6071340345-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="6071340345-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6071340345-13">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="6071340345-13">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6071340345-14">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="6071340345-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4141118554-1">#</span><span class="nc" data-group-id="4141118554-1">Axon.Loop</span><span class="p" data-group-id="4141118554-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-3">[</span><span class="p" data-group-id="4141118554-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-4">[</span><span class="w">
-      </span><span class="p" data-group-id="4141118554-5">{</span><span class="p" data-group-id="4141118554-6">#</span><span class="nc" data-group-id="4141118554-6">Function</span><span class="p" data-group-id="4141118554-6">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4141118554-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4141118554-7">#</span><span class="nc" data-group-id="4141118554-7">Function</span><span class="p" data-group-id="4141118554-7">&lt;</span><span class="mf">5.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-7">&gt;</span><span class="p" data-group-id="4141118554-5">}</span><span class="w">
-    </span><span class="p" data-group-id="4141118554-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-8">[</span><span class="p" data-group-id="4141118554-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-9">[</span><span class="p" data-group-id="4141118554-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-10">[</span><span class="p" data-group-id="4141118554-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-11">[</span><span class="w">
-      </span><span class="p" data-group-id="4141118554-12">{</span><span class="p" data-group-id="4141118554-13">#</span><span class="nc" data-group-id="4141118554-13">Function</span><span class="p" data-group-id="4141118554-13">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4141118554-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4141118554-14">#</span><span class="nc" data-group-id="4141118554-14">Function</span><span class="p" data-group-id="4141118554-14">&lt;</span><span class="mf">3.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-14">&gt;</span><span class="p" data-group-id="4141118554-12">}</span><span class="w">
-    </span><span class="p" data-group-id="4141118554-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-15">[</span><span class="p" data-group-id="4141118554-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-16">[</span><span class="p" data-group-id="4141118554-16">]</span><span class="w">
-  </span><span class="p" data-group-id="4141118554-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4141118554-17">%{</span><span class="w">
-    </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4141118554-18">{</span><span class="p" data-group-id="4141118554-19">#</span><span class="nc" data-group-id="4141118554-19">Function</span><span class="p" data-group-id="4141118554-19">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-18">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4141118554-20">{</span><span class="p" data-group-id="4141118554-21">#</span><span class="nc" data-group-id="4141118554-21">Function</span><span class="p" data-group-id="4141118554-21">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-21">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-20">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4141118554-22">{</span><span class="p" data-group-id="4141118554-23">#</span><span class="nc" data-group-id="4141118554-23">Function</span><span class="p" data-group-id="4141118554-23">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-23">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="4141118554-24">#</span><span class="nc" data-group-id="4141118554-24">Function</span><span class="p" data-group-id="4141118554-24">&lt;</span><span class="mf">6.77614421</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4141118554-24">&gt;</span><span class="p" data-group-id="4141118554-22">}</span><span class="w">
-  </span><span class="p" data-group-id="4141118554-17">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2377715075-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2377715075-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="2377715075-13">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="2377715075-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="2377715075-14">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="2377715075-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3691924521-1">#</span><span class="nc" data-group-id="3691924521-1">Axon.Loop</span><span class="p" data-group-id="3691924521-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-3">[</span><span class="p" data-group-id="3691924521-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-4">[</span><span class="w">
+      </span><span class="p" data-group-id="3691924521-5">{</span><span class="p" data-group-id="3691924521-6">#</span><span class="nc" data-group-id="3691924521-6">Function</span><span class="p" data-group-id="3691924521-6">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3691924521-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="3691924521-7">#</span><span class="nc" data-group-id="3691924521-7">Function</span><span class="p" data-group-id="3691924521-7">&lt;</span><span class="mf">5.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-7">&gt;</span><span class="p" data-group-id="3691924521-5">}</span><span class="w">
+    </span><span class="p" data-group-id="3691924521-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-8">[</span><span class="p" data-group-id="3691924521-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-9">[</span><span class="p" data-group-id="3691924521-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-10">[</span><span class="p" data-group-id="3691924521-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-11">[</span><span class="w">
+      </span><span class="p" data-group-id="3691924521-12">{</span><span class="p" data-group-id="3691924521-13">#</span><span class="nc" data-group-id="3691924521-13">Function</span><span class="p" data-group-id="3691924521-13">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3691924521-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="3691924521-14">#</span><span class="nc" data-group-id="3691924521-14">Function</span><span class="p" data-group-id="3691924521-14">&lt;</span><span class="mf">3.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-14">&gt;</span><span class="p" data-group-id="3691924521-12">}</span><span class="w">
+    </span><span class="p" data-group-id="3691924521-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-15">[</span><span class="p" data-group-id="3691924521-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-16">[</span><span class="p" data-group-id="3691924521-16">]</span><span class="w">
+  </span><span class="p" data-group-id="3691924521-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3691924521-17">%{</span><span class="w">
+    </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3691924521-18">{</span><span class="p" data-group-id="3691924521-19">#</span><span class="nc" data-group-id="3691924521-19">Function</span><span class="p" data-group-id="3691924521-19">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-18">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3691924521-20">{</span><span class="p" data-group-id="3691924521-21">#</span><span class="nc" data-group-id="3691924521-21">Function</span><span class="p" data-group-id="3691924521-21">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-21">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-20">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3691924521-22">{</span><span class="p" data-group-id="3691924521-23">#</span><span class="nc" data-group-id="3691924521-23">Function</span><span class="p" data-group-id="3691924521-23">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-23">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="3691924521-24">#</span><span class="nc" data-group-id="3691924521-24">Function</span><span class="p" data-group-id="3691924521-24">&lt;</span><span class="mf">6.77614421</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3691924521-24">&gt;</span><span class="p" data-group-id="3691924521-22">}</span><span class="w">
+  </span><span class="p" data-group-id="3691924521-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="4141118554-1">&gt;</span></code></pre><p>Axon will apply your custom output transform to the loop's step state and forward the result to your custom metric function:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="6087261467-1">(</span><span class="k" data-group-id="6087261467-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="6087261467-3">(</span><span class="p" data-group-id="6087261467-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6087261467-4">}</span><span class="p" data-group-id="6087261467-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="6087261467-5">(</span><span class="n">xs</span><span class="p" data-group-id="6087261467-5">)</span><span class="w">
-    </span><span class="p" data-group-id="6087261467-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="6087261467-6">}</span><span class="w">
-  </span><span class="k" data-group-id="6087261467-2">end</span><span class="p" data-group-id="6087261467-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6087261467-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6087261467-8">%{</span><span class="p" data-group-id="6087261467-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="6087261467-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_mean</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0807205</span><span class="w"> </span><span class="ss">dense_0_kernel_var</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1448047</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0626600</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2308443796-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-3">#</span><span class="nc" data-group-id="2308443796-3">Nx.Tensor</span><span class="p" data-group-id="2308443796-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2308443796-4">[</span><span class="mi">8</span><span class="p" data-group-id="2308443796-4">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-5">[</span><span class="o">-</span><span class="mf">0.14429236948490143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3176318109035492</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0036036474630236626</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01434470433741808</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21225003898143768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1406097412109375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32469284534454346</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18893203139305115</span><span class="p" data-group-id="2308443796-5">]</span><span class="w">
-    </span><span class="p" data-group-id="2308443796-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-6">#</span><span class="nc" data-group-id="2308443796-6">Nx.Tensor</span><span class="p" data-group-id="2308443796-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2308443796-7">[</span><span class="mi">1</span><span class="p" data-group-id="2308443796-7">]</span><span class="p" data-group-id="2308443796-8">[</span><span class="mi">8</span><span class="p" data-group-id="2308443796-8">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-9">[</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-10">[</span><span class="mf">0.2918722331523895</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44978663325309753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28219935297966003</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10681337863206863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5192054510116577</span><span class="p">,</span><span class="w"> </span><span class="mf">0.312747985124588</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15127503871917725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5638187527656555</span><span class="p" data-group-id="2308443796-10">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-9">]</span><span class="w">
-    </span><span class="p" data-group-id="2308443796-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2308443796-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-12">#</span><span class="nc" data-group-id="2308443796-12">Nx.Tensor</span><span class="p" data-group-id="2308443796-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2308443796-13">[</span><span class="mi">4</span><span class="p" data-group-id="2308443796-13">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.003864143043756485</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5194356441497803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.028363214805722237</span><span class="p" data-group-id="2308443796-14">]</span><span class="w">
-    </span><span class="p" data-group-id="2308443796-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-15">#</span><span class="nc" data-group-id="2308443796-15">Nx.Tensor</span><span class="p" data-group-id="2308443796-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2308443796-16">[</span><span class="mi">8</span><span class="p" data-group-id="2308443796-16">]</span><span class="p" data-group-id="2308443796-17">[</span><span class="mi">4</span><span class="p" data-group-id="2308443796-17">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-18">[</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-19">[</span><span class="o">-</span><span class="mf">0.6123268008232117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22753892838954926</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12077417969703674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4875330626964569</span><span class="p" data-group-id="2308443796-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-20">[</span><span class="o">-</span><span class="mf">0.5840837359428406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2259720116853714</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4917944371700287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22638437151908875</span><span class="p" data-group-id="2308443796-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-21">[</span><span class="o">-</span><span class="mf">0.22699439525604248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6744257807731628</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2907045781612396</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35300591588020325</span><span class="p" data-group-id="2308443796-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-22">[</span><span class="o">-</span><span class="mf">0.16367988288402557</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5971682071685791</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39346548914909363</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5823913812637329</span><span class="p" data-group-id="2308443796-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-23">[</span><span class="o">-</span><span class="mf">0.5512545704841614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6812713742256165</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5777145624160767</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.653957188129425</span><span class="p" data-group-id="2308443796-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-24">[</span><span class="o">-</span><span class="mf">0.23620283603668213</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47966212034225464</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.273225873708725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3827615976333618</span><span class="p" data-group-id="2308443796-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-25">[</span><span class="o">-</span><span class="mf">0.5591338276863098</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1730434000492096</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25726518034935</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7179149389266968</span><span class="p" data-group-id="2308443796-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-26">[</span><span class="mf">0.3902169167995453</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6351881623268127</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.602277398109436</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40137141942977905</span><span class="p" data-group-id="2308443796-26">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-18">]</span><span class="w">
-    </span><span class="p" data-group-id="2308443796-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2308443796-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-28">#</span><span class="nc" data-group-id="2308443796-28">Nx.Tensor</span><span class="p" data-group-id="2308443796-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2308443796-29">[</span><span class="mi">1</span><span class="p" data-group-id="2308443796-29">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-30">[</span><span class="mf">0.824558675289154</span><span class="p" data-group-id="2308443796-30">]</span><span class="w">
-    </span><span class="p" data-group-id="2308443796-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2308443796-31">#</span><span class="nc" data-group-id="2308443796-31">Nx.Tensor</span><span class="p" data-group-id="2308443796-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2308443796-32">[</span><span class="mi">4</span><span class="p" data-group-id="2308443796-32">]</span><span class="p" data-group-id="2308443796-33">[</span><span class="mi">1</span><span class="p" data-group-id="2308443796-33">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-34">[</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-35">[</span><span class="mf">0.9618374109268188</span><span class="p" data-group-id="2308443796-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-36">[</span><span class="o">-</span><span class="mf">0.028266794979572296</span><span class="p" data-group-id="2308443796-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-37">[</span><span class="o">-</span><span class="mf">1.1059081554412842</span><span class="p" data-group-id="2308443796-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2308443796-38">[</span><span class="o">-</span><span class="mf">0.7398673892021179</span><span class="p" data-group-id="2308443796-38">]</span><span class="w">
-      </span><span class="p" data-group-id="2308443796-34">]</span><span class="w">
-    </span><span class="p" data-group-id="2308443796-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2308443796-27">}</span><span class="w">
-</span><span class="p" data-group-id="2308443796-1">}</span></code></pre><p>You can also define custom accumulation functions. Axon has definitions for computing running averages and running sums; however, you might find you need something like an exponential moving average:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="w"> </span><span class="k" data-group-id="8003512165-1">do</span><span class="w">
+</span><span class="p" data-group-id="3691924521-1">&gt;</span></code></pre><p>Axon will apply your custom output transform to the loop's step state and forward the result to your custom metric function:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5864051840-1">(</span><span class="k" data-group-id="5864051840-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5864051840-3">(</span><span class="p" data-group-id="5864051840-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5864051840-4">}</span><span class="p" data-group-id="5864051840-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5864051840-5">(</span><span class="n">xs</span><span class="p" data-group-id="5864051840-5">)</span><span class="w">
+    </span><span class="p" data-group-id="5864051840-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="5864051840-6">}</span><span class="w">
+  </span><span class="k" data-group-id="5864051840-2">end</span><span class="p" data-group-id="5864051840-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5864051840-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5864051840-8">%{</span><span class="p" data-group-id="5864051840-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="5864051840-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_mean</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0807205</span><span class="w"> </span><span class="ss">dense_0_kernel_var</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1448047</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0626600</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4168587481-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-3">#</span><span class="nc" data-group-id="4168587481-3">Nx.Tensor</span><span class="p" data-group-id="4168587481-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4168587481-4">[</span><span class="mi">8</span><span class="p" data-group-id="4168587481-4">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-5">[</span><span class="o">-</span><span class="mf">0.14429236948490143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3176318109035492</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0036036474630236626</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01434470433741808</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21225003898143768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1406097412109375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32469284534454346</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18893203139305115</span><span class="p" data-group-id="4168587481-5">]</span><span class="w">
+    </span><span class="p" data-group-id="4168587481-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-6">#</span><span class="nc" data-group-id="4168587481-6">Nx.Tensor</span><span class="p" data-group-id="4168587481-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4168587481-7">[</span><span class="mi">1</span><span class="p" data-group-id="4168587481-7">]</span><span class="p" data-group-id="4168587481-8">[</span><span class="mi">8</span><span class="p" data-group-id="4168587481-8">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-9">[</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-10">[</span><span class="mf">0.2918722331523895</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44978663325309753</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28219935297966003</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10681337863206863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5192054510116577</span><span class="p">,</span><span class="w"> </span><span class="mf">0.312747985124588</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15127503871917725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5638187527656555</span><span class="p" data-group-id="4168587481-10">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-9">]</span><span class="w">
+    </span><span class="p" data-group-id="4168587481-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4168587481-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-12">#</span><span class="nc" data-group-id="4168587481-12">Nx.Tensor</span><span class="p" data-group-id="4168587481-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4168587481-13">[</span><span class="mi">4</span><span class="p" data-group-id="4168587481-13">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.003864143043756485</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5194356441497803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.028363214805722237</span><span class="p" data-group-id="4168587481-14">]</span><span class="w">
+    </span><span class="p" data-group-id="4168587481-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-15">#</span><span class="nc" data-group-id="4168587481-15">Nx.Tensor</span><span class="p" data-group-id="4168587481-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4168587481-16">[</span><span class="mi">8</span><span class="p" data-group-id="4168587481-16">]</span><span class="p" data-group-id="4168587481-17">[</span><span class="mi">4</span><span class="p" data-group-id="4168587481-17">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-18">[</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-19">[</span><span class="o">-</span><span class="mf">0.6123268008232117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22753892838954926</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12077417969703674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4875330626964569</span><span class="p" data-group-id="4168587481-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-20">[</span><span class="o">-</span><span class="mf">0.5840837359428406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2259720116853714</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4917944371700287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22638437151908875</span><span class="p" data-group-id="4168587481-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-21">[</span><span class="o">-</span><span class="mf">0.22699439525604248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6744257807731628</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2907045781612396</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35300591588020325</span><span class="p" data-group-id="4168587481-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-22">[</span><span class="o">-</span><span class="mf">0.16367988288402557</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5971682071685791</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39346548914909363</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5823913812637329</span><span class="p" data-group-id="4168587481-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-23">[</span><span class="o">-</span><span class="mf">0.5512545704841614</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6812713742256165</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5777145624160767</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.653957188129425</span><span class="p" data-group-id="4168587481-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-24">[</span><span class="o">-</span><span class="mf">0.23620283603668213</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47966212034225464</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.273225873708725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3827615976333618</span><span class="p" data-group-id="4168587481-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-25">[</span><span class="o">-</span><span class="mf">0.5591338276863098</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1730434000492096</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25726518034935</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7179149389266968</span><span class="p" data-group-id="4168587481-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-26">[</span><span class="mf">0.3902169167995453</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6351881623268127</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.602277398109436</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40137141942977905</span><span class="p" data-group-id="4168587481-26">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-18">]</span><span class="w">
+    </span><span class="p" data-group-id="4168587481-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4168587481-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-28">#</span><span class="nc" data-group-id="4168587481-28">Nx.Tensor</span><span class="p" data-group-id="4168587481-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4168587481-29">[</span><span class="mi">1</span><span class="p" data-group-id="4168587481-29">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-30">[</span><span class="mf">0.824558675289154</span><span class="p" data-group-id="4168587481-30">]</span><span class="w">
+    </span><span class="p" data-group-id="4168587481-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4168587481-31">#</span><span class="nc" data-group-id="4168587481-31">Nx.Tensor</span><span class="p" data-group-id="4168587481-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4168587481-32">[</span><span class="mi">4</span><span class="p" data-group-id="4168587481-32">]</span><span class="p" data-group-id="4168587481-33">[</span><span class="mi">1</span><span class="p" data-group-id="4168587481-33">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-34">[</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-35">[</span><span class="mf">0.9618374109268188</span><span class="p" data-group-id="4168587481-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-36">[</span><span class="o">-</span><span class="mf">0.028266794979572296</span><span class="p" data-group-id="4168587481-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-37">[</span><span class="o">-</span><span class="mf">1.1059081554412842</span><span class="p" data-group-id="4168587481-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4168587481-38">[</span><span class="o">-</span><span class="mf">0.7398673892021179</span><span class="p" data-group-id="4168587481-38">]</span><span class="w">
+      </span><span class="p" data-group-id="4168587481-34">]</span><span class="w">
+    </span><span class="p" data-group-id="4168587481-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4168587481-27">}</span><span class="w">
+</span><span class="p" data-group-id="4168587481-1">}</span></code></pre><p>You can also define custom accumulation functions. Axon has definitions for computing running averages and running sums; however, you might find you need something like an exponential moving average:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="w"> </span><span class="k" data-group-id="1525990284-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">running_ema</span><span class="p" data-group-id="8003512165-2">(</span><span class="n">acc</span><span class="p">,</span><span class="w"> </span><span class="n">obs</span><span class="p">,</span><span class="w"> </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="8003512165-3">[</span><span class="p" data-group-id="8003512165-3">]</span><span class="p" data-group-id="8003512165-2">)</span><span class="w"> </span><span class="k" data-group-id="8003512165-4">do</span><span class="w">
-    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="8003512165-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.9</span><span class="p" data-group-id="8003512165-5">)</span><span class="w">
-    </span><span class="n">obs</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="8003512165-6">[</span><span class="ss">:alpha</span><span class="p" data-group-id="8003512165-6">]</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="8003512165-7">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="8003512165-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="8003512165-8">]</span><span class="p" data-group-id="8003512165-7">)</span><span class="w">
-  </span><span class="k" data-group-id="8003512165-4">end</span><span class="w">
-</span><span class="k" data-group-id="8003512165-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5127967702-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5127967702-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5127967702-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5127967702-3">{</span><span class="ss">:running_ema</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="5127967702-3">}</span><span class="p" data-group-id="5127967702-1">}</span></code></pre><p>Your accumulator must be an arity-3 function which accepts the current accumulated value, the current observation, and the current iteration and returns the aggregated metric. You can pass a function direct as an accumulator in your metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7593712219-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7593712219-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7593712219-2">(</span><span class="mi">8</span><span class="p" data-group-id="7593712219-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7593712219-3">(</span><span class="p" data-group-id="7593712219-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7593712219-4">(</span><span class="mi">4</span><span class="p" data-group-id="7593712219-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7593712219-5">(</span><span class="p" data-group-id="7593712219-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7593712219-6">(</span><span class="mi">1</span><span class="p" data-group-id="7593712219-6">)</span><span class="w">
-
-</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7593712219-7">fn</span><span class="w"> </span><span class="p" data-group-id="7593712219-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="7593712219-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7593712219-9">[</span><span class="n">model_state</span><span class="p" data-group-id="7593712219-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="7593712219-10">]</span><span class="p" data-group-id="7593712219-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="7593712219-11">]</span><span class="p" data-group-id="7593712219-9">]</span><span class="w">
-</span><span class="k" data-group-id="7593712219-7">end</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">running_ema</span><span class="p" data-group-id="1525990284-2">(</span><span class="n">acc</span><span class="p">,</span><span class="w"> </span><span class="n">obs</span><span class="p">,</span><span class="w"> </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1525990284-3">[</span><span class="p" data-group-id="1525990284-3">]</span><span class="p" data-group-id="1525990284-2">)</span><span class="w"> </span><span class="k" data-group-id="1525990284-4">do</span><span class="w">
+    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="1525990284-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.9</span><span class="p" data-group-id="1525990284-5">)</span><span class="w">
+    </span><span class="n">obs</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="1525990284-6">[</span><span class="ss">:alpha</span><span class="p" data-group-id="1525990284-6">]</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="1525990284-7">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="1525990284-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="1525990284-8">]</span><span class="p" data-group-id="1525990284-7">)</span><span class="w">
+  </span><span class="k" data-group-id="1525990284-4">end</span><span class="w">
+</span><span class="k" data-group-id="1525990284-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0597371918-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0597371918-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0597371918-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0597371918-3">{</span><span class="ss">:running_ema</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="0597371918-3">}</span><span class="p" data-group-id="0597371918-1">}</span></code></pre><p>Your accumulator must be an arity-3 function which accepts the current accumulated value, the current observation, and the current iteration and returns the aggregated metric. You can pass a function direct as an accumulator in your metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7236753554-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7236753554-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7236753554-2">(</span><span class="mi">8</span><span class="p" data-group-id="7236753554-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7236753554-3">(</span><span class="p" data-group-id="7236753554-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7236753554-4">(</span><span class="mi">4</span><span class="p" data-group-id="7236753554-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7236753554-5">(</span><span class="p" data-group-id="7236753554-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7236753554-6">(</span><span class="mi">1</span><span class="p" data-group-id="7236753554-6">)</span><span class="w">
+
+</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7236753554-7">fn</span><span class="w"> </span><span class="p" data-group-id="7236753554-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="7236753554-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7236753554-9">[</span><span class="n">model_state</span><span class="p" data-group-id="7236753554-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="7236753554-10">]</span><span class="p" data-group-id="7236753554-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="7236753554-11">]</span><span class="p" data-group-id="7236753554-9">]</span><span class="w">
+</span><span class="k" data-group-id="7236753554-7">end</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7593712219-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7593712219-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7593712219-13">(</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7236753554-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7236753554-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7236753554-13">(</span><span class="w">
     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w">
     </span><span class="s">&quot;dense_0_kernel_ema_mean&quot;</span><span class="p">,</span><span class="w">
     </span><span class="o">&amp;</span><span class="nc">CustomAccumulator</span><span class="o">.</span><span class="n">running_ema</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w">
     </span><span class="n">output_transform</span><span class="w">
-  </span><span class="p" data-group-id="7593712219-13">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5432705970-1">#</span><span class="nc" data-group-id="5432705970-1">Axon.Loop</span><span class="p" data-group-id="5432705970-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-3">[</span><span class="p" data-group-id="5432705970-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-4">[</span><span class="w">
-      </span><span class="p" data-group-id="5432705970-5">{</span><span class="p" data-group-id="5432705970-6">#</span><span class="nc" data-group-id="5432705970-6">Function</span><span class="p" data-group-id="5432705970-6">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="5432705970-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="5432705970-7">#</span><span class="nc" data-group-id="5432705970-7">Function</span><span class="p" data-group-id="5432705970-7">&lt;</span><span class="mf">5.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5432705970-7">&gt;</span><span class="p" data-group-id="5432705970-5">}</span><span class="w">
-    </span><span class="p" data-group-id="5432705970-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-8">[</span><span class="p" data-group-id="5432705970-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-9">[</span><span class="p" data-group-id="5432705970-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-10">[</span><span class="p" data-group-id="5432705970-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-11">[</span><span class="w">
-      </span><span class="p" data-group-id="5432705970-12">{</span><span class="p" data-group-id="5432705970-13">#</span><span class="nc" data-group-id="5432705970-13">Function</span><span class="p" data-group-id="5432705970-13">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="5432705970-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="5432705970-14">#</span><span class="nc" data-group-id="5432705970-14">Function</span><span class="p" data-group-id="5432705970-14">&lt;</span><span class="mf">3.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5432705970-14">&gt;</span><span class="p" data-group-id="5432705970-12">}</span><span class="w">
-    </span><span class="p" data-group-id="5432705970-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-15">[</span><span class="p" data-group-id="5432705970-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-16">[</span><span class="p" data-group-id="5432705970-16">]</span><span class="w">
-  </span><span class="p" data-group-id="5432705970-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5432705970-17">%{</span><span class="w">
-    </span><span class="s">&quot;dense_0_kernel_ema_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5432705970-18">{</span><span class="p" data-group-id="5432705970-19">#</span><span class="nc" data-group-id="5432705970-19">Function</span><span class="p" data-group-id="5432705970-19">&lt;</span><span class="mf">12.77614421</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_metric_fn</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5432705970-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5432705970-18">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5432705970-20">{</span><span class="p" data-group-id="5432705970-21">#</span><span class="nc" data-group-id="5432705970-21">Function</span><span class="p" data-group-id="5432705970-21">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5432705970-21">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="5432705970-22">#</span><span class="nc" data-group-id="5432705970-22">Function</span><span class="p" data-group-id="5432705970-22">&lt;</span><span class="mf">6.77614421</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5432705970-22">&gt;</span><span class="p" data-group-id="5432705970-20">}</span><span class="w">
-  </span><span class="p" data-group-id="5432705970-17">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7236753554-13">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1421794208-1">#</span><span class="nc" data-group-id="1421794208-1">Axon.Loop</span><span class="p" data-group-id="1421794208-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-3">[</span><span class="p" data-group-id="1421794208-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-4">[</span><span class="w">
+      </span><span class="p" data-group-id="1421794208-5">{</span><span class="p" data-group-id="1421794208-6">#</span><span class="nc" data-group-id="1421794208-6">Function</span><span class="p" data-group-id="1421794208-6">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="1421794208-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="1421794208-7">#</span><span class="nc" data-group-id="1421794208-7">Function</span><span class="p" data-group-id="1421794208-7">&lt;</span><span class="mf">5.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1421794208-7">&gt;</span><span class="p" data-group-id="1421794208-5">}</span><span class="w">
+    </span><span class="p" data-group-id="1421794208-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-8">[</span><span class="p" data-group-id="1421794208-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-9">[</span><span class="p" data-group-id="1421794208-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-10">[</span><span class="p" data-group-id="1421794208-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-11">[</span><span class="w">
+      </span><span class="p" data-group-id="1421794208-12">{</span><span class="p" data-group-id="1421794208-13">#</span><span class="nc" data-group-id="1421794208-13">Function</span><span class="p" data-group-id="1421794208-13">&lt;</span><span class="mf">23.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="1421794208-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="1421794208-14">#</span><span class="nc" data-group-id="1421794208-14">Function</span><span class="p" data-group-id="1421794208-14">&lt;</span><span class="mf">3.77614421</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1421794208-14">&gt;</span><span class="p" data-group-id="1421794208-12">}</span><span class="w">
+    </span><span class="p" data-group-id="1421794208-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-15">[</span><span class="p" data-group-id="1421794208-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-16">[</span><span class="p" data-group-id="1421794208-16">]</span><span class="w">
+  </span><span class="p" data-group-id="1421794208-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1421794208-17">%{</span><span class="w">
+    </span><span class="s">&quot;dense_0_kernel_ema_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1421794208-18">{</span><span class="p" data-group-id="1421794208-19">#</span><span class="nc" data-group-id="1421794208-19">Function</span><span class="p" data-group-id="1421794208-19">&lt;</span><span class="mf">12.77614421</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_metric_fn</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="1421794208-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1421794208-18">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1421794208-20">{</span><span class="p" data-group-id="1421794208-21">#</span><span class="nc" data-group-id="1421794208-21">Function</span><span class="p" data-group-id="1421794208-21">&lt;</span><span class="mf">12.46375131</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1421794208-21">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="1421794208-22">#</span><span class="nc" data-group-id="1421794208-22">Function</span><span class="p" data-group-id="1421794208-22">&lt;</span><span class="mf">6.77614421</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1421794208-22">&gt;</span><span class="p" data-group-id="1421794208-20">}</span><span class="w">
+  </span><span class="p" data-group-id="1421794208-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="5432705970-1">&gt;</span></code></pre><p>Then when you run the loop, Axon will use your custom accumulator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="0081590004-1">(</span><span class="k" data-group-id="0081590004-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="0081590004-3">(</span><span class="p" data-group-id="0081590004-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0081590004-4">}</span><span class="p" data-group-id="0081590004-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="0081590004-5">(</span><span class="n">xs</span><span class="p" data-group-id="0081590004-5">)</span><span class="w">
-    </span><span class="p" data-group-id="0081590004-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="0081590004-6">}</span><span class="w">
-  </span><span class="k" data-group-id="0081590004-2">end</span><span class="p" data-group-id="0081590004-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0081590004-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0081590004-8">%{</span><span class="p" data-group-id="0081590004-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="0081590004-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_ema_mean</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2137861</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0709054</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0626918053-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-3">#</span><span class="nc" data-group-id="0626918053-3">Nx.Tensor</span><span class="p" data-group-id="0626918053-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0626918053-4">[</span><span class="mi">8</span><span class="p" data-group-id="0626918053-4">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-5">[</span><span class="mf">0.08160790055990219</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21322371065616608</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1431925743818283</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2848915755748749</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.007875560782849789</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3923396170139313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04444991424679756</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23083189129829407</span><span class="p" data-group-id="0626918053-5">]</span><span class="w">
-    </span><span class="p" data-group-id="0626918053-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-6">#</span><span class="nc" data-group-id="0626918053-6">Nx.Tensor</span><span class="p" data-group-id="0626918053-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0626918053-7">[</span><span class="mi">1</span><span class="p" data-group-id="0626918053-7">]</span><span class="p" data-group-id="0626918053-8">[</span><span class="mi">8</span><span class="p" data-group-id="0626918053-8">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-9">[</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-10">[</span><span class="o">-</span><span class="mf">0.6269387006759644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3289071023464203</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19450749456882477</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7400281429290771</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23878233134746552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36140456795692444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10503113269805908</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3685782253742218</span><span class="p" data-group-id="0626918053-10">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-9">]</span><span class="w">
-    </span><span class="p" data-group-id="0626918053-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0626918053-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-12">#</span><span class="nc" data-group-id="0626918053-12">Nx.Tensor</span><span class="p" data-group-id="0626918053-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0626918053-13">[</span><span class="mi">4</span><span class="p" data-group-id="0626918053-13">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-14">[</span><span class="mf">0.2350393682718277</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06712433695793152</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03675961494445801</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06366443634033203</span><span class="p" data-group-id="0626918053-14">]</span><span class="w">
-    </span><span class="p" data-group-id="0626918053-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-15">#</span><span class="nc" data-group-id="0626918053-15">Nx.Tensor</span><span class="p" data-group-id="0626918053-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0626918053-16">[</span><span class="mi">8</span><span class="p" data-group-id="0626918053-16">]</span><span class="p" data-group-id="0626918053-17">[</span><span class="mi">4</span><span class="p" data-group-id="0626918053-17">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-18">[</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-19">[</span><span class="o">-</span><span class="mf">0.35826751589775085</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10699580609798431</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3681609034538269</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08517063409090042</span><span class="p" data-group-id="0626918053-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-20">[</span><span class="o">-</span><span class="mf">0.7694831490516663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13644370436668396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2390032261610031</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6069303154945374</span><span class="p" data-group-id="0626918053-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-21">[</span><span class="o">-</span><span class="mf">0.6424086689949036</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13374455273151398</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35404452681541443</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6343701481819153</span><span class="p" data-group-id="0626918053-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-22">[</span><span class="o">-</span><span class="mf">0.09528166800737381</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7048070430755615</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13699916005134583</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6482889652252197</span><span class="p" data-group-id="0626918053-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-23">[</span><span class="o">-</span><span class="mf">0.08044164627790451</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010588583536446095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11140558868646622</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33911004662513733</span><span class="p" data-group-id="0626918053-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-24">[</span><span class="mf">0.7361723780632019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.757600724697113</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0011848200811073184</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2799053192138672</span><span class="p" data-group-id="0626918053-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-25">[</span><span class="mf">0.3472788631916046</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5225644111633301</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04859891161322594</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4931156039237976</span><span class="p" data-group-id="0626918053-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-26">[</span><span class="mf">0.09371320903301239</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5478940606117249</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5831385254859924</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21019525825977325</span><span class="p" data-group-id="0626918053-26">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-18">]</span><span class="w">
-    </span><span class="p" data-group-id="0626918053-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0626918053-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-28">#</span><span class="nc" data-group-id="0626918053-28">Nx.Tensor</span><span class="p" data-group-id="0626918053-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0626918053-29">[</span><span class="mi">1</span><span class="p" data-group-id="0626918053-29">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-30">[</span><span class="o">-</span><span class="mf">0.835706889629364</span><span class="p" data-group-id="0626918053-30">]</span><span class="w">
-    </span><span class="p" data-group-id="0626918053-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0626918053-31">#</span><span class="nc" data-group-id="0626918053-31">Nx.Tensor</span><span class="p" data-group-id="0626918053-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0626918053-32">[</span><span class="mi">4</span><span class="p" data-group-id="0626918053-32">]</span><span class="p" data-group-id="0626918053-33">[</span><span class="mi">1</span><span class="p" data-group-id="0626918053-33">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-34">[</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-35">[</span><span class="mf">1.0109968185424805</span><span class="p" data-group-id="0626918053-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-36">[</span><span class="mf">0.574639618396759</span><span class="p" data-group-id="0626918053-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-37">[</span><span class="o">-</span><span class="mf">0.01302765030413866</span><span class="p" data-group-id="0626918053-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0626918053-38">[</span><span class="o">-</span><span class="mf">0.008134203962981701</span><span class="p" data-group-id="0626918053-38">]</span><span class="w">
-      </span><span class="p" data-group-id="0626918053-34">]</span><span class="w">
-    </span><span class="p" data-group-id="0626918053-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0626918053-27">}</span><span class="w">
-</span><span class="p" data-group-id="0626918053-1">}</span></code></pre>
+</span><span class="p" data-group-id="1421794208-1">&gt;</span></code></pre><p>Then when you run the loop, Axon will use your custom accumulator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="7301146946-1">(</span><span class="k" data-group-id="7301146946-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="7301146946-3">(</span><span class="p" data-group-id="7301146946-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7301146946-4">}</span><span class="p" data-group-id="7301146946-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="7301146946-5">(</span><span class="n">xs</span><span class="p" data-group-id="7301146946-5">)</span><span class="w">
+    </span><span class="p" data-group-id="7301146946-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="7301146946-6">}</span><span class="w">
+  </span><span class="k" data-group-id="7301146946-2">end</span><span class="p" data-group-id="7301146946-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7301146946-7">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7301146946-8">%{</span><span class="p" data-group-id="7301146946-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="7301146946-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_ema_mean</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2137861</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0709054</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1398370192-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-3">#</span><span class="nc" data-group-id="1398370192-3">Nx.Tensor</span><span class="p" data-group-id="1398370192-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1398370192-4">[</span><span class="mi">8</span><span class="p" data-group-id="1398370192-4">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-5">[</span><span class="mf">0.08160790055990219</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21322371065616608</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1431925743818283</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2848915755748749</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.007875560782849789</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3923396170139313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04444991424679756</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23083189129829407</span><span class="p" data-group-id="1398370192-5">]</span><span class="w">
+    </span><span class="p" data-group-id="1398370192-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-6">#</span><span class="nc" data-group-id="1398370192-6">Nx.Tensor</span><span class="p" data-group-id="1398370192-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1398370192-7">[</span><span class="mi">1</span><span class="p" data-group-id="1398370192-7">]</span><span class="p" data-group-id="1398370192-8">[</span><span class="mi">8</span><span class="p" data-group-id="1398370192-8">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-9">[</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-10">[</span><span class="o">-</span><span class="mf">0.6269387006759644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3289071023464203</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19450749456882477</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7400281429290771</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23878233134746552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36140456795692444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10503113269805908</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3685782253742218</span><span class="p" data-group-id="1398370192-10">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-9">]</span><span class="w">
+    </span><span class="p" data-group-id="1398370192-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1398370192-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-12">#</span><span class="nc" data-group-id="1398370192-12">Nx.Tensor</span><span class="p" data-group-id="1398370192-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1398370192-13">[</span><span class="mi">4</span><span class="p" data-group-id="1398370192-13">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-14">[</span><span class="mf">0.2350393682718277</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06712433695793152</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03675961494445801</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06366443634033203</span><span class="p" data-group-id="1398370192-14">]</span><span class="w">
+    </span><span class="p" data-group-id="1398370192-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-15">#</span><span class="nc" data-group-id="1398370192-15">Nx.Tensor</span><span class="p" data-group-id="1398370192-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1398370192-16">[</span><span class="mi">8</span><span class="p" data-group-id="1398370192-16">]</span><span class="p" data-group-id="1398370192-17">[</span><span class="mi">4</span><span class="p" data-group-id="1398370192-17">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-18">[</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-19">[</span><span class="o">-</span><span class="mf">0.35826751589775085</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10699580609798431</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3681609034538269</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08517063409090042</span><span class="p" data-group-id="1398370192-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-20">[</span><span class="o">-</span><span class="mf">0.7694831490516663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13644370436668396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2390032261610031</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6069303154945374</span><span class="p" data-group-id="1398370192-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-21">[</span><span class="o">-</span><span class="mf">0.6424086689949036</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13374455273151398</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35404452681541443</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6343701481819153</span><span class="p" data-group-id="1398370192-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-22">[</span><span class="o">-</span><span class="mf">0.09528166800737381</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7048070430755615</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13699916005134583</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6482889652252197</span><span class="p" data-group-id="1398370192-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-23">[</span><span class="o">-</span><span class="mf">0.08044164627790451</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010588583536446095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11140558868646622</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33911004662513733</span><span class="p" data-group-id="1398370192-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-24">[</span><span class="mf">0.7361723780632019</span><span class="p">,</span><span class="w"> </span><span class="mf">0.757600724697113</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0011848200811073184</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2799053192138672</span><span class="p" data-group-id="1398370192-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-25">[</span><span class="mf">0.3472788631916046</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5225644111633301</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04859891161322594</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4931156039237976</span><span class="p" data-group-id="1398370192-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-26">[</span><span class="mf">0.09371320903301239</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5478940606117249</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5831385254859924</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21019525825977325</span><span class="p" data-group-id="1398370192-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-18">]</span><span class="w">
+    </span><span class="p" data-group-id="1398370192-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1398370192-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-28">#</span><span class="nc" data-group-id="1398370192-28">Nx.Tensor</span><span class="p" data-group-id="1398370192-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1398370192-29">[</span><span class="mi">1</span><span class="p" data-group-id="1398370192-29">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-30">[</span><span class="o">-</span><span class="mf">0.835706889629364</span><span class="p" data-group-id="1398370192-30">]</span><span class="w">
+    </span><span class="p" data-group-id="1398370192-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1398370192-31">#</span><span class="nc" data-group-id="1398370192-31">Nx.Tensor</span><span class="p" data-group-id="1398370192-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1398370192-32">[</span><span class="mi">4</span><span class="p" data-group-id="1398370192-32">]</span><span class="p" data-group-id="1398370192-33">[</span><span class="mi">1</span><span class="p" data-group-id="1398370192-33">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-34">[</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-35">[</span><span class="mf">1.0109968185424805</span><span class="p" data-group-id="1398370192-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-36">[</span><span class="mf">0.574639618396759</span><span class="p" data-group-id="1398370192-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-37">[</span><span class="o">-</span><span class="mf">0.01302765030413866</span><span class="p" data-group-id="1398370192-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1398370192-38">[</span><span class="o">-</span><span class="mf">0.008134203962981701</span><span class="p" data-group-id="1398370192-38">]</span><span class="w">
+      </span><span class="p" data-group-id="1398370192-34">]</span><span class="w">
+    </span><span class="p" data-group-id="1398370192-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1398370192-27">}</span><span class="w">
+</span><span class="p" data-group-id="1398370192-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/xor.html b/xor.html
index 84ca2d5e..1df7ab92 100644
--- a/xor.html
+++ b/xor.html
@@ -115,14 +115,14 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2881372322-1">(</span><span class="p" data-group-id="2881372322-2">[</span><span class="w">
-  </span><span class="p" data-group-id="2881372322-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="2881372322-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="2881372322-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2881372322-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="2881372322-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="2881372322-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="2881372322-6">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="2881372322-6">}</span><span class="w">
-</span><span class="p" data-group-id="2881372322-2">]</span><span class="p" data-group-id="2881372322-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9090635080-1">(</span><span class="p" data-group-id="9090635080-2">[</span><span class="w">
+  </span><span class="p" data-group-id="9090635080-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="9090635080-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9090635080-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9090635080-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9090635080-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="9090635080-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9090635080-6">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="9090635080-6">}</span><span class="w">
+</span><span class="p" data-group-id="9090635080-2">]</span><span class="p" data-group-id="9090635080-1">)</span><span class="w">
 
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="2881372322-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2881372322-7">)</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="9090635080-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9090635080-7">)</span><span class="w">
 
 </span><span class="kn">alias</span><span class="w"> </span><span class="nc">VegaLite</span><span class="p">,</span><span class="w"> </span><span class="ss">as</span><span class="p">:</span><span class="w"> </span><span class="nc">Vl</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
@@ -136,14 +136,14 @@ <h1>
   </a>
   The model
 </h2>
-<p>Let's start with the model. We need two inputs, since XOR has two operands. We then concatenate them into a single input vector with <a href="Axon.html#concatenate/3"><code class="inline">Axon.concatenate/3</code></a>. Then we have one hidden layer and one output layer, both of them dense.</p><p>Note: the model is a sequential neural network. In Axon, we can conveniently create such a model by using the pipe operator (<code class="inline">|&gt;</code>) to add layers one by one.</p><pre><code class="makeup elixir" translate="no"><span class="n">x1_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4350069090-1">(</span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4350069090-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4350069090-2">}</span><span class="p" data-group-id="4350069090-1">)</span><span class="w">
-</span><span class="n">x2_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4350069090-3">(</span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4350069090-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4350069090-4">}</span><span class="p" data-group-id="4350069090-3">)</span><span class="w">
+<p>Let's start with the model. We need two inputs, since XOR has two operands. We then concatenate them into a single input vector with <a href="Axon.html#concatenate/3"><code class="inline">Axon.concatenate/3</code></a>. Then we have one hidden layer and one output layer, both of them dense.</p><p>Note: the model is a sequential neural network. In Axon, we can conveniently create such a model by using the pipe operator (<code class="inline">|&gt;</code>) to add layers one by one.</p><pre><code class="makeup elixir" translate="no"><span class="n">x1_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8838011408-1">(</span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8838011408-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8838011408-2">}</span><span class="p" data-group-id="8838011408-1">)</span><span class="w">
+</span><span class="n">x2_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8838011408-3">(</span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8838011408-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8838011408-4">}</span><span class="p" data-group-id="8838011408-3">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">x1_input</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="4350069090-5">(</span><span class="n">x2_input</span><span class="p" data-group-id="4350069090-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4350069090-6">(</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:tanh</span><span class="p" data-group-id="4350069090-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4350069090-7">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="4350069090-7">)</span></code></pre><h2 id="training-data" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="8838011408-5">(</span><span class="n">x2_input</span><span class="p" data-group-id="8838011408-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8838011408-6">(</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:tanh</span><span class="p" data-group-id="8838011408-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8838011408-7">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="8838011408-7">)</span></code></pre><h2 id="training-data" class="section-heading">
   <a href="#training-data" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training-data</p>
   </a>
@@ -152,13 +152,13 @@ <h1>
 <p>The next step is to prepare training data. Since we are modeling a well-defined operation, we can just generate random operands and compute the expected XOR result for them.</p><p>The training works with batches of examples, so we <em>repeatedly</em> generate a whole batch of inputs and the expected result.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">32</span><span class="w">
 
 </span><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="7359898223-1">(</span><span class="k" data-group-id="7359898223-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="7359898223-3">(</span><span class="p" data-group-id="7359898223-4">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7359898223-4">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7359898223-3">)</span><span class="w">
-    </span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="7359898223-5">(</span><span class="p" data-group-id="7359898223-6">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7359898223-6">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7359898223-5">)</span><span class="w">
-    </span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">logical_xor</span><span class="p" data-group-id="7359898223-7">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="7359898223-7">)</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5708117167-1">(</span><span class="k" data-group-id="5708117167-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="5708117167-3">(</span><span class="p" data-group-id="5708117167-4">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5708117167-4">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5708117167-3">)</span><span class="w">
+    </span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="5708117167-5">(</span><span class="p" data-group-id="5708117167-6">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5708117167-6">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5708117167-5">)</span><span class="w">
+    </span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">logical_xor</span><span class="p" data-group-id="5708117167-7">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="5708117167-7">)</span><span class="w">
 
-    </span><span class="p" data-group-id="7359898223-8">{</span><span class="p" data-group-id="7359898223-9">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="7359898223-9">}</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="7359898223-8">}</span><span class="w">
-  </span><span class="k" data-group-id="7359898223-2">end</span><span class="p" data-group-id="7359898223-1">)</span></code></pre><p>Here's how a sample batch looks:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="1756695831-1">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1756695831-1">)</span></code></pre><h2 id="training" class="section-heading">
+    </span><span class="p" data-group-id="5708117167-8">{</span><span class="p" data-group-id="5708117167-9">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="5708117167-9">}</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="5708117167-8">}</span><span class="w">
+  </span><span class="k" data-group-id="5708117167-2">end</span><span class="p" data-group-id="5708117167-1">)</span></code></pre><p>Here's how a sample batch looks:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="2934502442-1">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2934502442-1">)</span></code></pre><h2 id="training" class="section-heading">
   <a href="#training" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">training</p>
   </a>
@@ -168,17 +168,17 @@ <h1>
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2386581398-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2386581398-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2386581398-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2386581398-3">%{</span><span class="p" data-group-id="2386581398-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="2386581398-2">)</span></code></pre><h2 id="trying-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8551470203-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8551470203-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8551470203-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8551470203-3">%{</span><span class="p" data-group-id="8551470203-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="8551470203-2">)</span></code></pre><h2 id="trying-the-model" class="section-heading">
   <a href="#trying-the-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">trying-the-model</p>
   </a>
   Trying the model
 </h2>
-<p>Finally, we can test our model on sample data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6258286918-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6258286918-2">%{</span><span class="w">
-  </span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6258286918-3">(</span><span class="p" data-group-id="6258286918-4">[</span><span class="p" data-group-id="6258286918-5">[</span><span class="mi">0</span><span class="p" data-group-id="6258286918-5">]</span><span class="p" data-group-id="6258286918-4">]</span><span class="p" data-group-id="6258286918-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6258286918-6">(</span><span class="p" data-group-id="6258286918-7">[</span><span class="p" data-group-id="6258286918-8">[</span><span class="mi">1</span><span class="p" data-group-id="6258286918-8">]</span><span class="p" data-group-id="6258286918-7">]</span><span class="p" data-group-id="6258286918-6">)</span><span class="w">
-</span><span class="p" data-group-id="6258286918-2">}</span><span class="p" data-group-id="6258286918-1">)</span></code></pre><p>Try other combinations of $x_1$ and $x_2$ and see what the output is. To improve the model performance, you can increase the number of training epochs.</p><h2 id="visualizing-the-model-predictions" class="section-heading">
+<p>Finally, we can test our model on sample data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="9332264876-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9332264876-2">%{</span><span class="w">
+  </span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9332264876-3">(</span><span class="p" data-group-id="9332264876-4">[</span><span class="p" data-group-id="9332264876-5">[</span><span class="mi">0</span><span class="p" data-group-id="9332264876-5">]</span><span class="p" data-group-id="9332264876-4">]</span><span class="p" data-group-id="9332264876-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9332264876-6">(</span><span class="p" data-group-id="9332264876-7">[</span><span class="p" data-group-id="9332264876-8">[</span><span class="mi">1</span><span class="p" data-group-id="9332264876-8">]</span><span class="p" data-group-id="9332264876-7">]</span><span class="p" data-group-id="9332264876-6">)</span><span class="w">
+</span><span class="p" data-group-id="9332264876-2">}</span><span class="p" data-group-id="9332264876-1">)</span></code></pre><p>Try other combinations of $x_1$ and $x_2$ and see what the output is. To improve the model performance, you can increase the number of training epochs.</p><h2 id="visualizing-the-model-predictions" class="section-heading">
   <a href="#visualizing-the-model-predictions" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">visualizing-the-model-predictions</p>
   </a>
@@ -188,22 +188,22 @@ <h1>
 </span><span class="n">n</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">50</span><span class="w">
 
 </span><span class="c1"># We generate coordinates of in the (n x n) grid</span><span class="w">
-</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2706368371-1">(</span><span class="p" data-group-id="2706368371-2">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="2706368371-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2706368371-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="2706368371-3">(</span><span class="n">n</span><span class="p" data-group-id="2706368371-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2706368371-4">(</span><span class="p" data-group-id="2706368371-5">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2706368371-5">}</span><span class="p" data-group-id="2706368371-4">)</span><span class="w">
-</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2706368371-6">(</span><span class="p" data-group-id="2706368371-7">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="2706368371-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2706368371-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="2706368371-8">(</span><span class="n">n</span><span class="p" data-group-id="2706368371-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2706368371-9">(</span><span class="p" data-group-id="2706368371-10">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2706368371-10">}</span><span class="p" data-group-id="2706368371-9">)</span><span class="w">
+</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5605020875-1">(</span><span class="p" data-group-id="5605020875-2">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="5605020875-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5605020875-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5605020875-3">(</span><span class="n">n</span><span class="p" data-group-id="5605020875-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5605020875-4">(</span><span class="p" data-group-id="5605020875-5">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5605020875-5">}</span><span class="p" data-group-id="5605020875-4">)</span><span class="w">
+</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5605020875-6">(</span><span class="p" data-group-id="5605020875-7">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="5605020875-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5605020875-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5605020875-8">(</span><span class="n">n</span><span class="p" data-group-id="5605020875-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5605020875-9">(</span><span class="p" data-group-id="5605020875-10">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5605020875-10">}</span><span class="p" data-group-id="5605020875-9">)</span><span class="w">
 
 </span><span class="c1"># The output is also a real number, but we round it into one of the two classes</span><span class="w">
-</span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="2706368371-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2706368371-12">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="2706368371-12">}</span><span class="p" data-group-id="2706368371-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">round</span><span class="p" data-group-id="2706368371-13">(</span><span class="p" data-group-id="2706368371-13">)</span><span class="w">
-
-</span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2706368371-14">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p" data-group-id="2706368371-14">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">data_from_values</span><span class="p" data-group-id="2706368371-15">(</span><span class="w">
-  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="2706368371-16">(</span><span class="n">x1</span><span class="p" data-group-id="2706368371-16">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="2706368371-17">(</span><span class="n">x2</span><span class="p" data-group-id="2706368371-17">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">y</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="2706368371-18">(</span><span class="n">y</span><span class="p" data-group-id="2706368371-18">)</span><span class="w">
-</span><span class="p" data-group-id="2706368371-15">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="2706368371-19">(</span><span class="ss">:circle</span><span class="p" data-group-id="2706368371-19">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2706368371-20">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="2706368371-20">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2706368371-21">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="2706368371-21">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2706368371-22">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;y&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="2706368371-22">)</span></code></pre><p>From the plot we can clearly see that during training our model learnt two clean boundaries to separate $(0,0)$, $(1,1)$ from $(0,1)$, $(1,0)$.</p>
+</span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5605020875-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5605020875-12">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="5605020875-12">}</span><span class="p" data-group-id="5605020875-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">round</span><span class="p" data-group-id="5605020875-13">(</span><span class="p" data-group-id="5605020875-13">)</span><span class="w">
+
+</span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="5605020875-14">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p" data-group-id="5605020875-14">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">data_from_values</span><span class="p" data-group-id="5605020875-15">(</span><span class="w">
+  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="5605020875-16">(</span><span class="n">x1</span><span class="p" data-group-id="5605020875-16">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="5605020875-17">(</span><span class="n">x2</span><span class="p" data-group-id="5605020875-17">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">y</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="5605020875-18">(</span><span class="n">y</span><span class="p" data-group-id="5605020875-18">)</span><span class="w">
+</span><span class="p" data-group-id="5605020875-15">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="5605020875-19">(</span><span class="ss">:circle</span><span class="p" data-group-id="5605020875-19">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="5605020875-20">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="5605020875-20">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="5605020875-21">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="5605020875-21">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="5605020875-22">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;y&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="5605020875-22">)</span></code></pre><p>From the plot we can clearly see that during training our model learnt two clean boundaries to separate $(0,0)$, $(1,1)$ from $(0,1)$, $(1,0)$.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/your_first_axon_model.html b/your_first_axon_model.html
index a707fd02..21c577c4 100644
--- a/your_first_axon_model.html
+++ b/your_first_axon_model.html
@@ -115,30 +115,30 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0783039926-1">(</span><span class="p" data-group-id="0783039926-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0783039926-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="0783039926-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0783039926-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0783039926-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0783039926-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="0783039926-5">}</span><span class="w">
-</span><span class="p" data-group-id="0783039926-2">]</span><span class="p" data-group-id="0783039926-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="your-first-model" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8360961689-1">(</span><span class="p" data-group-id="8360961689-2">[</span><span class="w">
+  </span><span class="p" data-group-id="8360961689-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="8360961689-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8360961689-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8360961689-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8360961689-5">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="8360961689-5">}</span><span class="w">
+</span><span class="p" data-group-id="8360961689-2">]</span><span class="p" data-group-id="8360961689-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="your-first-model" class="section-heading">
   <a href="#your-first-model" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">your-first-model</p>
   </a>
   Your first model
 </h2>
-<p>Axon is a library for creating and training neural networks in Elixir. Everything in Axon centers around the <code class="inline">%Axon{}</code> struct which represents an instance of an Axon model.</p><p>Models are just graphs which represent the transformation and flow of input data to a desired output. Really, you can think of models as representing a single computation or function. An Axon model, when executed, takes data as input and returns transformed data as output.</p><p>All Axon models start with a declaration of input nodes. These are the root nodes of your computation graph, and correspond to the actual input data you want to send to Axon:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9420724085-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9420724085-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4912954356-1">#</span><span class="nc" data-group-id="4912954356-1">Axon</span><span class="p" data-group-id="4912954356-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4912954356-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="4912954356-2">}</span><span class="w">
+<p>Axon is a library for creating and training neural networks in Elixir. Everything in Axon centers around the <code class="inline">%Axon{}</code> struct which represents an instance of an Axon model.</p><p>Models are just graphs which represent the transformation and flow of input data to a desired output. Really, you can think of models as representing a single computation or function. An Axon model, when executed, takes data as input and returns transformed data as output.</p><p>All Axon models start with a declaration of input nodes. These are the root nodes of your computation graph, and correspond to the actual input data you want to send to Axon:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7449421074-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7449421074-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0264127208-1">#</span><span class="nc" data-group-id="0264127208-1">Axon</span><span class="p" data-group-id="0264127208-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0264127208-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="0264127208-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;data&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w">
-</span><span class="p" data-group-id="4912954356-1">&gt;</span></code></pre><p>Technically speaking, <code class="inline">input</code> is now a valid Axon model which you can inspect, execute, and initialize. You can visualize how data flows through the graph using <a href="Axon.Display.html#as_graph/2"><code class="inline">Axon.Display.as_graph/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1344453960-1">(</span><span class="p" data-group-id="1344453960-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1344453960-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1344453960-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="1344453960-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="1344453960-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="0264127208-1">&gt;</span></code></pre><p>Technically speaking, <code class="inline">input</code> is now a valid Axon model which you can inspect, execute, and initialize. You can visualize how data flows through the graph using <a href="Axon.Display.html#as_graph/2"><code class="inline">Axon.Display.as_graph/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="6861709098-1">(</span><span class="p" data-group-id="6861709098-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6861709098-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6861709098-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="6861709098-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="6861709098-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
-;</code></pre><p>Notice the execution flow is just a single node, because your graph only consists of an input node! You pass data in and the model spits the same data back out, without any intermediate transformations.</p><p>You can see this in action by actually executing your model. You can build the <code class="inline">%Axon{}</code> struct into it's <code class="inline">initialization</code> and <code class="inline">forward</code> functions by calling <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>. This pattern of &quot;lowering&quot; or transforming the <code class="inline">%Axon{}</code> data structure into other functions or representations is very common in Axon. By simply traversing the data structure, you can create useful functions, execution visualizations, and more!</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8671186534-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8671186534-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8671186534-2">(</span><span class="n">input</span><span class="p" data-group-id="8671186534-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2417088065-1">{</span><span class="p" data-group-id="2417088065-2">#</span><span class="nc" data-group-id="2417088065-2">Function</span><span class="p" data-group-id="2417088065-2">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2417088065-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="2417088065-3">#</span><span class="nc" data-group-id="2417088065-3">Function</span><span class="p" data-group-id="2417088065-3">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2417088065-3">&gt;</span><span class="p" data-group-id="2417088065-1">}</span></code></pre><p>Notice that <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> returns a tuple of <code class="inline">{init_fn, predict_fn}</code>. <code class="inline">init_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8022602542-1">(</span><span class="n">template</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8022602542-2">(</span><span class="n">tensor</span><span class="p" data-group-id="8022602542-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p">,</span><span class="w"> </span><span class="n">initial_params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8022602542-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8022602542-3">(</span><span class="n">tensor</span><span class="p" data-group-id="8022602542-3">)</span></code></pre><p>while <code class="inline">predict_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7611057185-1">(</span><span class="n">params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="7611057185-2">(</span><span class="n">tensor</span><span class="p" data-group-id="7611057185-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="7611057185-3">(</span><span class="n">tensor</span><span class="p" data-group-id="7611057185-3">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="7611057185-1">)</span></code></pre><p><code class="inline">init_fn</code> returns all of your model's trainable parameters and state. You need to pass a template of the expected inputs because the shape of certain model parameters often depend on the shape of model inputs. You also need to pass any initial parameters you want your model to start with. This is useful for things like transfer learning, which you can read about in another guide.</p><p><code class="inline">predict_fn</code> returns transformed inputs from your model's trainable parameters and the given inputs.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4601578146-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4601578146-2">(</span><span class="p" data-group-id="4601578146-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4601578146-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4601578146-2">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4601578146-4">%{</span><span class="p" data-group-id="4601578146-4">}</span><span class="p" data-group-id="4601578146-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2797529578-1">%{</span><span class="p" data-group-id="2797529578-1">}</span></code></pre><p>In this example, you use <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#template/2"><code class="inline">Nx.template/2</code></a> to create a <em>template tensor</em>, which is a placeholder that does not actually consume any memory. Templates are useful for initialization because you don't actually need to know anything about your inputs other than their shape and type.</p><p>Notice <code class="inline">init_fn</code> returned an empty map because your model does not have any trainable parameters. This should make sense because it's just an input layer.</p><p>Now you can pass these trainable parameters to <code class="inline">predict_fn</code> along with some input to actually execute your model:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8249254041-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="8249254041-2">(</span><span class="p" data-group-id="8249254041-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="8249254041-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8249254041-2">)</span><span class="p" data-group-id="8249254041-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2948564316-1">#</span><span class="nc" data-group-id="2948564316-1">Nx.Tensor</span><span class="p" data-group-id="2948564316-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2948564316-2">[</span><span class="mi">1</span><span class="p" data-group-id="2948564316-2">]</span><span class="p" data-group-id="2948564316-3">[</span><span class="mi">8</span><span class="p" data-group-id="2948564316-3">]</span><span class="w">
-  </span><span class="p" data-group-id="2948564316-4">[</span><span class="w">
-    </span><span class="p" data-group-id="2948564316-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="2948564316-5">]</span><span class="w">
-  </span><span class="p" data-group-id="2948564316-4">]</span><span class="w">
-</span><span class="p" data-group-id="2948564316-1">&gt;</span></code></pre><p>And your model just returned the given input, as expected!</p>
+;</code></pre><p>Notice the execution flow is just a single node, because your graph only consists of an input node! You pass data in and the model spits the same data back out, without any intermediate transformations.</p><p>You can see this in action by actually executing your model. You can build the <code class="inline">%Axon{}</code> struct into it's <code class="inline">initialization</code> and <code class="inline">forward</code> functions by calling <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>. This pattern of &quot;lowering&quot; or transforming the <code class="inline">%Axon{}</code> data structure into other functions or representations is very common in Axon. By simply traversing the data structure, you can create useful functions, execution visualizations, and more!</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3849641694-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3849641694-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3849641694-2">(</span><span class="n">input</span><span class="p" data-group-id="3849641694-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1822658717-1">{</span><span class="p" data-group-id="1822658717-2">#</span><span class="nc" data-group-id="1822658717-2">Function</span><span class="p" data-group-id="1822658717-2">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="1822658717-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="1822658717-3">#</span><span class="nc" data-group-id="1822658717-3">Function</span><span class="p" data-group-id="1822658717-3">&lt;</span><span class="mf">137.55749718</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">wrap_arity</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="1822658717-3">&gt;</span><span class="p" data-group-id="1822658717-1">}</span></code></pre><p>Notice that <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> returns a tuple of <code class="inline">{init_fn, predict_fn}</code>. <code class="inline">init_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8336407903-1">(</span><span class="n">template</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8336407903-2">(</span><span class="n">tensor</span><span class="p" data-group-id="8336407903-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p">,</span><span class="w"> </span><span class="n">initial_params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8336407903-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8336407903-3">(</span><span class="n">tensor</span><span class="p" data-group-id="8336407903-3">)</span></code></pre><p>while <code class="inline">predict_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0742693209-1">(</span><span class="n">params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0742693209-2">(</span><span class="n">tensor</span><span class="p" data-group-id="0742693209-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0742693209-3">(</span><span class="n">tensor</span><span class="p" data-group-id="0742693209-3">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="0742693209-1">)</span></code></pre><p><code class="inline">init_fn</code> returns all of your model's trainable parameters and state. You need to pass a template of the expected inputs because the shape of certain model parameters often depend on the shape of model inputs. You also need to pass any initial parameters you want your model to start with. This is useful for things like transfer learning, which you can read about in another guide.</p><p><code class="inline">predict_fn</code> returns transformed inputs from your model's trainable parameters and the given inputs.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1736733706-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1736733706-2">(</span><span class="p" data-group-id="1736733706-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1736733706-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1736733706-2">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1736733706-4">%{</span><span class="p" data-group-id="1736733706-4">}</span><span class="p" data-group-id="1736733706-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2228768556-1">%{</span><span class="p" data-group-id="2228768556-1">}</span></code></pre><p>In this example, you use <a href="https://hexdocs.pm/nx/0.5.1/Nx.html#template/2"><code class="inline">Nx.template/2</code></a> to create a <em>template tensor</em>, which is a placeholder that does not actually consume any memory. Templates are useful for initialization because you don't actually need to know anything about your inputs other than their shape and type.</p><p>Notice <code class="inline">init_fn</code> returned an empty map because your model does not have any trainable parameters. This should make sense because it's just an input layer.</p><p>Now you can pass these trainable parameters to <code class="inline">predict_fn</code> along with some input to actually execute your model:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3076156032-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3076156032-2">(</span><span class="p" data-group-id="3076156032-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3076156032-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3076156032-2">)</span><span class="p" data-group-id="3076156032-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9391352878-1">#</span><span class="nc" data-group-id="9391352878-1">Nx.Tensor</span><span class="p" data-group-id="9391352878-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9391352878-2">[</span><span class="mi">1</span><span class="p" data-group-id="9391352878-2">]</span><span class="p" data-group-id="9391352878-3">[</span><span class="mi">8</span><span class="p" data-group-id="9391352878-3">]</span><span class="w">
+  </span><span class="p" data-group-id="9391352878-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9391352878-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="9391352878-5">]</span><span class="w">
+  </span><span class="p" data-group-id="9391352878-4">]</span><span class="w">
+</span><span class="p" data-group-id="9391352878-1">&gt;</span></code></pre><p>And your model just returned the given input, as expected!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/your_first_evaluation_loop.html b/your_first_evaluation_loop.html
index fcd6b7cf..3104bb81 100644
--- a/your_first_evaluation_loop.html
+++ b/your_first_evaluation_loop.html
@@ -115,122 +115,122 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9474179071-1">(</span><span class="p" data-group-id="9474179071-2">[</span><span class="w">
-  </span><span class="p" data-group-id="9474179071-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="9474179071-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="9474179071-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9474179071-4">}</span><span class="w">
-</span><span class="p" data-group-id="9474179071-2">]</span><span class="p" data-group-id="9474179071-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-evaluation-loop" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2380774686-1">(</span><span class="p" data-group-id="2380774686-2">[</span><span class="w">
+  </span><span class="p" data-group-id="2380774686-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="2380774686-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2380774686-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2380774686-4">}</span><span class="w">
+</span><span class="p" data-group-id="2380774686-2">]</span><span class="p" data-group-id="2380774686-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-evaluation-loop" class="section-heading">
   <a href="#creating-an-axon-evaluation-loop" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-an-axon-evaluation-loop</p>
   </a>
   Creating an Axon evaluation loop
 </h2>
 <p>Once you have a trained model, it's necessary to test the trained model on some test data. Axon's loop abstraction is general enough to work for both training and evaluating models. Just as Axon implements a canned <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> factory, it also implements a canned <a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> factory.</p><p><a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> creates an evaluation loop which you can instrument with metrics to measure the performance of a trained model on test data. First, you need a trained model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7279320630-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7279320630-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7279320630-2">(</span><span class="mi">8</span><span class="p" data-group-id="7279320630-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7279320630-3">(</span><span class="p" data-group-id="7279320630-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7279320630-4">(</span><span class="mi">4</span><span class="p" data-group-id="7279320630-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7279320630-5">(</span><span class="p" data-group-id="7279320630-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7279320630-6">(</span><span class="mi">1</span><span class="p" data-group-id="7279320630-6">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0092615982-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0092615982-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0092615982-2">(</span><span class="mi">8</span><span class="p" data-group-id="0092615982-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0092615982-3">(</span><span class="p" data-group-id="0092615982-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0092615982-4">(</span><span class="mi">4</span><span class="p" data-group-id="0092615982-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0092615982-5">(</span><span class="p" data-group-id="0092615982-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0092615982-6">(</span><span class="mi">1</span><span class="p" data-group-id="0092615982-6">)</span><span class="w">
 
-</span><span class="n">train_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7279320630-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7279320630-7">)</span><span class="w">
+</span><span class="n">train_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0092615982-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0092615982-7">)</span><span class="w">
 
 </span><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="7279320630-8">(</span><span class="k" data-group-id="7279320630-9">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="7279320630-10">(</span><span class="p" data-group-id="7279320630-11">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7279320630-11">}</span><span class="p" data-group-id="7279320630-10">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="7279320630-12">(</span><span class="n">xs</span><span class="p" data-group-id="7279320630-12">)</span><span class="w">
-    </span><span class="p" data-group-id="7279320630-13">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="7279320630-13">}</span><span class="w">
-  </span><span class="k" data-group-id="7279320630-9">end</span><span class="p" data-group-id="7279320630-8">)</span><span class="w">
-
-</span><span class="n">trained_model_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7279320630-14">(</span><span class="n">train_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7279320630-15">%{</span><span class="p" data-group-id="7279320630-15">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="7279320630-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0348526</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6735239746-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-3">#</span><span class="nc" data-group-id="6735239746-3">Nx.Tensor</span><span class="p" data-group-id="6735239746-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6735239746-4">[</span><span class="mi">8</span><span class="p" data-group-id="6735239746-4">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-5">[</span><span class="mf">0.12334823608398438</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23830991983413696</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07463178038597107</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18479900062084198</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2544017434120178</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1100262850522995</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04137010499835014</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22781872749328613</span><span class="p" data-group-id="6735239746-5">]</span><span class="w">
-    </span><span class="p" data-group-id="6735239746-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-6">#</span><span class="nc" data-group-id="6735239746-6">Nx.Tensor</span><span class="p" data-group-id="6735239746-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6735239746-7">[</span><span class="mi">1</span><span class="p" data-group-id="6735239746-7">]</span><span class="p" data-group-id="6735239746-8">[</span><span class="mi">8</span><span class="p" data-group-id="6735239746-8">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-9">[</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-10">[</span><span class="o">-</span><span class="mf">0.7397015690803528</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8709579110145569</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33129510283470154</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4521639347076416</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5752679109573364</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5516160726547241</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1265108585357666</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5665484666824341</span><span class="p" data-group-id="6735239746-10">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-9">]</span><span class="w">
-    </span><span class="p" data-group-id="6735239746-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6735239746-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-12">#</span><span class="nc" data-group-id="6735239746-12">Nx.Tensor</span><span class="p" data-group-id="6735239746-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6735239746-13">[</span><span class="mi">4</span><span class="p" data-group-id="6735239746-13">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-14">[</span><span class="mf">7.311657827813178e-5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027584673836827278</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20344746112823486</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1330498605966568</span><span class="p" data-group-id="6735239746-14">]</span><span class="w">
-    </span><span class="p" data-group-id="6735239746-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-15">#</span><span class="nc" data-group-id="6735239746-15">Nx.Tensor</span><span class="p" data-group-id="6735239746-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6735239746-16">[</span><span class="mi">8</span><span class="p" data-group-id="6735239746-16">]</span><span class="p" data-group-id="6735239746-17">[</span><span class="mi">4</span><span class="p" data-group-id="6735239746-17">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-18">[</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-19">[</span><span class="o">-</span><span class="mf">0.19199007749557495</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15660767257213593</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5446576476097107</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07457015663385391</span><span class="p" data-group-id="6735239746-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-20">[</span><span class="mf">0.034533075988292694</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10262273252010345</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05103863775730133</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5708968639373779</span><span class="p" data-group-id="6735239746-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-21">[</span><span class="o">-</span><span class="mf">0.4212855398654938</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47742989659309387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18940746784210205</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.40659299492836</span><span class="p" data-group-id="6735239746-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-22">[</span><span class="mf">0.2127801775932312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07477620989084244</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11274989694356918</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4552466869354248</span><span class="p" data-group-id="6735239746-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-23">[</span><span class="o">-</span><span class="mf">0.13839538395404816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09832656383514404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16157560050487518</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7074514627456665</span><span class="p" data-group-id="6735239746-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-24">[</span><span class="o">-</span><span class="mf">0.6366024017333984</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3754875361919403</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6808919906616211</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.209626242518425</span><span class="p" data-group-id="6735239746-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-25">[</span><span class="mf">0.595952033996582</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6973875164985657</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4453340172767639</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6247327327728271</span><span class="p" data-group-id="6735239746-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-26">[</span><span class="o">-</span><span class="mf">0.6312451958656311</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33275362849235535</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5079866051673889</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2508215010166168</span><span class="p" data-group-id="6735239746-26">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-18">]</span><span class="w">
-    </span><span class="p" data-group-id="6735239746-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6735239746-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-28">#</span><span class="nc" data-group-id="6735239746-28">Nx.Tensor</span><span class="p" data-group-id="6735239746-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6735239746-29">[</span><span class="mi">1</span><span class="p" data-group-id="6735239746-29">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-30">[</span><span class="mf">0.17476916313171387</span><span class="p" data-group-id="6735239746-30">]</span><span class="w">
-    </span><span class="p" data-group-id="6735239746-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6735239746-31">#</span><span class="nc" data-group-id="6735239746-31">Nx.Tensor</span><span class="p" data-group-id="6735239746-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6735239746-32">[</span><span class="mi">4</span><span class="p" data-group-id="6735239746-32">]</span><span class="p" data-group-id="6735239746-33">[</span><span class="mi">1</span><span class="p" data-group-id="6735239746-33">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-34">[</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-35">[</span><span class="mf">0.8893225193023682</span><span class="p" data-group-id="6735239746-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-36">[</span><span class="o">-</span><span class="mf">0.4548797905445099</span><span class="p" data-group-id="6735239746-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-37">[</span><span class="o">-</span><span class="mf">0.8288624286651611</span><span class="p" data-group-id="6735239746-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6735239746-38">[</span><span class="mf">0.8321414589881897</span><span class="p" data-group-id="6735239746-38">]</span><span class="w">
-      </span><span class="p" data-group-id="6735239746-34">]</span><span class="w">
-    </span><span class="p" data-group-id="6735239746-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6735239746-27">}</span><span class="w">
-</span><span class="p" data-group-id="6735239746-1">}</span></code></pre><p>Running loops with <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns a trained model state which you can use to evaluate your model. To construct an evaluation loop, you just call <a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> with your pre-trained model:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="7910367656-1">(</span><span class="n">model</span><span class="p" data-group-id="7910367656-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0406879780-1">#</span><span class="nc" data-group-id="0406879780-1">Axon.Loop</span><span class="p" data-group-id="0406879780-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-3">[</span><span class="p" data-group-id="0406879780-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-4">[</span><span class="p" data-group-id="0406879780-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-5">[</span><span class="p" data-group-id="0406879780-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-6">[</span><span class="p" data-group-id="0406879780-6">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-7">[</span><span class="p" data-group-id="0406879780-7">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-8">[</span><span class="w">
-      </span><span class="p" data-group-id="0406879780-9">{</span><span class="p" data-group-id="0406879780-10">#</span><span class="nc" data-group-id="0406879780-10">Function</span><span class="p" data-group-id="0406879780-10">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="0406879780-10">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="0406879780-11">#</span><span class="nc" data-group-id="0406879780-11">Function</span><span class="p" data-group-id="0406879780-11">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0406879780-11">&gt;</span><span class="p" data-group-id="0406879780-9">}</span><span class="w">
-    </span><span class="p" data-group-id="0406879780-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-12">[</span><span class="p" data-group-id="0406879780-12">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-13">[</span><span class="p" data-group-id="0406879780-13">]</span><span class="w">
-  </span><span class="p" data-group-id="0406879780-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0406879780-14">%{</span><span class="p" data-group-id="0406879780-14">}</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="0092615982-8">(</span><span class="k" data-group-id="0092615982-9">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="0092615982-10">(</span><span class="p" data-group-id="0092615982-11">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0092615982-11">}</span><span class="p" data-group-id="0092615982-10">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="0092615982-12">(</span><span class="n">xs</span><span class="p" data-group-id="0092615982-12">)</span><span class="w">
+    </span><span class="p" data-group-id="0092615982-13">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="0092615982-13">}</span><span class="w">
+  </span><span class="k" data-group-id="0092615982-9">end</span><span class="p" data-group-id="0092615982-8">)</span><span class="w">
+
+</span><span class="n">trained_model_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0092615982-14">(</span><span class="n">train_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0092615982-15">%{</span><span class="p" data-group-id="0092615982-15">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="0092615982-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0348526</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0036952163-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-3">#</span><span class="nc" data-group-id="0036952163-3">Nx.Tensor</span><span class="p" data-group-id="0036952163-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0036952163-4">[</span><span class="mi">8</span><span class="p" data-group-id="0036952163-4">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-5">[</span><span class="mf">0.12334823608398438</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23830991983413696</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07463178038597107</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18479900062084198</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2544017434120178</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1100262850522995</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04137010499835014</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22781872749328613</span><span class="p" data-group-id="0036952163-5">]</span><span class="w">
+    </span><span class="p" data-group-id="0036952163-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-6">#</span><span class="nc" data-group-id="0036952163-6">Nx.Tensor</span><span class="p" data-group-id="0036952163-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0036952163-7">[</span><span class="mi">1</span><span class="p" data-group-id="0036952163-7">]</span><span class="p" data-group-id="0036952163-8">[</span><span class="mi">8</span><span class="p" data-group-id="0036952163-8">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-9">[</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-10">[</span><span class="o">-</span><span class="mf">0.7397015690803528</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8709579110145569</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33129510283470154</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4521639347076416</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5752679109573364</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5516160726547241</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1265108585357666</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5665484666824341</span><span class="p" data-group-id="0036952163-10">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-9">]</span><span class="w">
+    </span><span class="p" data-group-id="0036952163-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0036952163-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-12">#</span><span class="nc" data-group-id="0036952163-12">Nx.Tensor</span><span class="p" data-group-id="0036952163-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0036952163-13">[</span><span class="mi">4</span><span class="p" data-group-id="0036952163-13">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-14">[</span><span class="mf">7.311657827813178e-5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027584673836827278</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20344746112823486</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1330498605966568</span><span class="p" data-group-id="0036952163-14">]</span><span class="w">
+    </span><span class="p" data-group-id="0036952163-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-15">#</span><span class="nc" data-group-id="0036952163-15">Nx.Tensor</span><span class="p" data-group-id="0036952163-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0036952163-16">[</span><span class="mi">8</span><span class="p" data-group-id="0036952163-16">]</span><span class="p" data-group-id="0036952163-17">[</span><span class="mi">4</span><span class="p" data-group-id="0036952163-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-18">[</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-19">[</span><span class="o">-</span><span class="mf">0.19199007749557495</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15660767257213593</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5446576476097107</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07457015663385391</span><span class="p" data-group-id="0036952163-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-20">[</span><span class="mf">0.034533075988292694</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10262273252010345</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05103863775730133</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5708968639373779</span><span class="p" data-group-id="0036952163-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-21">[</span><span class="o">-</span><span class="mf">0.4212855398654938</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47742989659309387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18940746784210205</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.40659299492836</span><span class="p" data-group-id="0036952163-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-22">[</span><span class="mf">0.2127801775932312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07477620989084244</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11274989694356918</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4552466869354248</span><span class="p" data-group-id="0036952163-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-23">[</span><span class="o">-</span><span class="mf">0.13839538395404816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09832656383514404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16157560050487518</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7074514627456665</span><span class="p" data-group-id="0036952163-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-24">[</span><span class="o">-</span><span class="mf">0.6366024017333984</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3754875361919403</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6808919906616211</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.209626242518425</span><span class="p" data-group-id="0036952163-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-25">[</span><span class="mf">0.595952033996582</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6973875164985657</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4453340172767639</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6247327327728271</span><span class="p" data-group-id="0036952163-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-26">[</span><span class="o">-</span><span class="mf">0.6312451958656311</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33275362849235535</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5079866051673889</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2508215010166168</span><span class="p" data-group-id="0036952163-26">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-18">]</span><span class="w">
+    </span><span class="p" data-group-id="0036952163-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0036952163-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-28">#</span><span class="nc" data-group-id="0036952163-28">Nx.Tensor</span><span class="p" data-group-id="0036952163-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0036952163-29">[</span><span class="mi">1</span><span class="p" data-group-id="0036952163-29">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-30">[</span><span class="mf">0.17476916313171387</span><span class="p" data-group-id="0036952163-30">]</span><span class="w">
+    </span><span class="p" data-group-id="0036952163-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0036952163-31">#</span><span class="nc" data-group-id="0036952163-31">Nx.Tensor</span><span class="p" data-group-id="0036952163-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0036952163-32">[</span><span class="mi">4</span><span class="p" data-group-id="0036952163-32">]</span><span class="p" data-group-id="0036952163-33">[</span><span class="mi">1</span><span class="p" data-group-id="0036952163-33">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-34">[</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-35">[</span><span class="mf">0.8893225193023682</span><span class="p" data-group-id="0036952163-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-36">[</span><span class="o">-</span><span class="mf">0.4548797905445099</span><span class="p" data-group-id="0036952163-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-37">[</span><span class="o">-</span><span class="mf">0.8288624286651611</span><span class="p" data-group-id="0036952163-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0036952163-38">[</span><span class="mf">0.8321414589881897</span><span class="p" data-group-id="0036952163-38">]</span><span class="w">
+      </span><span class="p" data-group-id="0036952163-34">]</span><span class="w">
+    </span><span class="p" data-group-id="0036952163-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0036952163-27">}</span><span class="w">
+</span><span class="p" data-group-id="0036952163-1">}</span></code></pre><p>Running loops with <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns a trained model state which you can use to evaluate your model. To construct an evaluation loop, you just call <a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> with your pre-trained model:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="4221189040-1">(</span><span class="n">model</span><span class="p" data-group-id="4221189040-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7410298739-1">#</span><span class="nc" data-group-id="7410298739-1">Axon.Loop</span><span class="p" data-group-id="7410298739-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-3">[</span><span class="p" data-group-id="7410298739-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-4">[</span><span class="p" data-group-id="7410298739-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-5">[</span><span class="p" data-group-id="7410298739-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-6">[</span><span class="p" data-group-id="7410298739-6">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-7">[</span><span class="p" data-group-id="7410298739-7">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-8">[</span><span class="w">
+      </span><span class="p" data-group-id="7410298739-9">{</span><span class="p" data-group-id="7410298739-10">#</span><span class="nc" data-group-id="7410298739-10">Function</span><span class="p" data-group-id="7410298739-10">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="7410298739-10">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="7410298739-11">#</span><span class="nc" data-group-id="7410298739-11">Function</span><span class="p" data-group-id="7410298739-11">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7410298739-11">&gt;</span><span class="p" data-group-id="7410298739-9">}</span><span class="w">
+    </span><span class="p" data-group-id="7410298739-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-12">[</span><span class="p" data-group-id="7410298739-12">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-13">[</span><span class="p" data-group-id="7410298739-13">]</span><span class="w">
+  </span><span class="p" data-group-id="7410298739-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7410298739-14">%{</span><span class="p" data-group-id="7410298739-14">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="0406879780-1">&gt;</span></code></pre><p>Next, you'll need to instrument your test loop with the metrics you'd like to aggregate:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_loop</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="4156103236-1">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="4156103236-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6722179017-1">#</span><span class="nc" data-group-id="6722179017-1">Axon.Loop</span><span class="p" data-group-id="6722179017-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-3">[</span><span class="p" data-group-id="6722179017-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-4">[</span><span class="p" data-group-id="6722179017-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-5">[</span><span class="p" data-group-id="6722179017-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-6">[</span><span class="p" data-group-id="6722179017-6">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-7">[</span><span class="p" data-group-id="6722179017-7">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-8">[</span><span class="w">
-      </span><span class="p" data-group-id="6722179017-9">{</span><span class="p" data-group-id="6722179017-10">#</span><span class="nc" data-group-id="6722179017-10">Function</span><span class="p" data-group-id="6722179017-10">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="6722179017-10">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="6722179017-11">#</span><span class="nc" data-group-id="6722179017-11">Function</span><span class="p" data-group-id="6722179017-11">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6722179017-11">&gt;</span><span class="p" data-group-id="6722179017-9">}</span><span class="w">
-    </span><span class="p" data-group-id="6722179017-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-12">[</span><span class="p" data-group-id="6722179017-12">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-13">[</span><span class="p" data-group-id="6722179017-13">]</span><span class="w">
-  </span><span class="p" data-group-id="6722179017-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6722179017-14">%{</span><span class="w">
-    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6722179017-15">{</span><span class="p" data-group-id="6722179017-16">#</span><span class="nc" data-group-id="6722179017-16">Function</span><span class="p" data-group-id="6722179017-16">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6722179017-16">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="6722179017-15">}</span><span class="w">
-  </span><span class="p" data-group-id="6722179017-14">}</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="7410298739-1">&gt;</span></code></pre><p>Next, you'll need to instrument your test loop with the metrics you'd like to aggregate:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_loop</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="4543042312-1">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="4543042312-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5937724971-1">#</span><span class="nc" data-group-id="5937724971-1">Axon.Loop</span><span class="p" data-group-id="5937724971-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-3">[</span><span class="p" data-group-id="5937724971-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-4">[</span><span class="p" data-group-id="5937724971-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-5">[</span><span class="p" data-group-id="5937724971-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-6">[</span><span class="p" data-group-id="5937724971-6">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-7">[</span><span class="p" data-group-id="5937724971-7">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-8">[</span><span class="w">
+      </span><span class="p" data-group-id="5937724971-9">{</span><span class="p" data-group-id="5937724971-10">#</span><span class="nc" data-group-id="5937724971-10">Function</span><span class="p" data-group-id="5937724971-10">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="5937724971-10">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="5937724971-11">#</span><span class="nc" data-group-id="5937724971-11">Function</span><span class="p" data-group-id="5937724971-11">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5937724971-11">&gt;</span><span class="p" data-group-id="5937724971-9">}</span><span class="w">
+    </span><span class="p" data-group-id="5937724971-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-12">[</span><span class="p" data-group-id="5937724971-12">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-13">[</span><span class="p" data-group-id="5937724971-13">]</span><span class="w">
+  </span><span class="p" data-group-id="5937724971-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937724971-14">%{</span><span class="w">
+    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5937724971-15">{</span><span class="p" data-group-id="5937724971-16">#</span><span class="nc" data-group-id="5937724971-16">Function</span><span class="p" data-group-id="5937724971-16">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5937724971-16">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="5937724971-15">}</span><span class="w">
+  </span><span class="p" data-group-id="5937724971-14">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="6722179017-1">&gt;</span></code></pre><p>Finally, you can run your loop on test data. Because you want to test your trained model, you need to provide your model's initial state to the test loop:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5197742100-1">(</span><span class="n">test_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="5197742100-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0955574</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6486044111-1">%{</span><span class="w">
-  </span><span class="mi">0</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6486044111-2">%{</span><span class="w">
-    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6486044111-3">#</span><span class="nc" data-group-id="6486044111-3">Nx.Tensor</span><span class="p" data-group-id="6486044111-3">&lt;</span><span class="w">
+</span><span class="p" data-group-id="5937724971-1">&gt;</span></code></pre><p>Finally, you can run your loop on test data. Because you want to test your trained model, you need to provide your model's initial state to the test loop:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3761629025-1">(</span><span class="n">test_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3761629025-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0955574</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9797325631-1">%{</span><span class="w">
+  </span><span class="mi">0</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9797325631-2">%{</span><span class="w">
+    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9797325631-3">#</span><span class="nc" data-group-id="9797325631-3">Nx.Tensor</span><span class="p" data-group-id="9797325631-3">&lt;</span><span class="w">
       </span><span class="n">f32</span><span class="w">
       </span><span class="mf">0.09555738419294357</span><span class="w">
-    </span><span class="p" data-group-id="6486044111-3">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6486044111-2">}</span><span class="w">
-</span><span class="p" data-group-id="6486044111-1">}</span></code></pre>
+    </span><span class="p" data-group-id="9797325631-3">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9797325631-2">}</span><span class="w">
+</span><span class="p" data-group-id="9797325631-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/your_first_training_loop.html b/your_first_training_loop.html
index 26f9dea5..e3810554 100644
--- a/your_first_training_loop.html
+++ b/your_first_training_loop.html
@@ -115,198 +115,198 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6455527661-1">(</span><span class="p" data-group-id="6455527661-2">[</span><span class="w">
-  </span><span class="p" data-group-id="6455527661-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="6455527661-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6455527661-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6455527661-4">}</span><span class="w">
-</span><span class="p" data-group-id="6455527661-2">]</span><span class="p" data-group-id="6455527661-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-training-loop" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8720745079-1">(</span><span class="p" data-group-id="8720745079-2">[</span><span class="w">
+  </span><span class="p" data-group-id="8720745079-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="8720745079-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8720745079-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8720745079-4">}</span><span class="w">
+</span><span class="p" data-group-id="8720745079-2">]</span><span class="p" data-group-id="8720745079-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-training-loop" class="section-heading">
   <a href="#creating-an-axon-training-loop" class="hover-link"><i class="ri-link-m" aria-hidden="true"></i>
   <p class="sr-only">creating-an-axon-training-loop</p>
   </a>
   Creating an Axon training loop
 </h2>
 <p>Axon generalizes the concept of training, evaluation, hyperparameter optimization, and more into the <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> API. Axon loops are a instrumented reductions over Elixir Streams - that basically means you can accumulate some state over an Elixir <a href="https://hexdocs.pm/elixir/Stream.html"><code class="inline">Stream</code></a> and control different points in the loop execution.</p><p>With Axon, you'll most commonly implement and work with supervised training loops. Because supervised training loops are so common in deep learning, Axon has a loop factory function which takes care of most of the boilerplate of creating a supervised training loop for you. In the beginning of your deep learning journey, you'll almost exclusively use Axon's loop factories to create and run loops.</p><p>Axon's supervised training loop assumes you have an input stream of data with entries that look like:</p><p><code class="inline">{batch_inputs, batch_labels}</code></p><p>Each entry is a batch of input data with a corresponding batch of labels. You can simulate some real training data by constructing an Elixir stream:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="6796371400-1">(</span><span class="k" data-group-id="6796371400-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="6796371400-3">(</span><span class="p" data-group-id="6796371400-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6796371400-4">}</span><span class="p" data-group-id="6796371400-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="6796371400-5">(</span><span class="n">xs</span><span class="p" data-group-id="6796371400-5">)</span><span class="w">
-    </span><span class="p" data-group-id="6796371400-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="6796371400-6">}</span><span class="w">
-  </span><span class="k" data-group-id="6796371400-2">end</span><span class="p" data-group-id="6796371400-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8839145749-1">#</span><span class="nc" data-group-id="8839145749-1">Function</span><span class="p" data-group-id="8839145749-1">&lt;</span><span class="mf">50.127921642</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8839145749-1">&gt;</span></code></pre><p>The most basic supervised training loop in Axon requires 3 things:</p><ol><li>An Axon model</li><li>A loss function</li><li>An optimizer</li></ol><p>You can construct an Axon model using the knowledge you've gained from going through the model creation guides:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6443017692-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6443017692-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6443017692-2">(</span><span class="mi">8</span><span class="p" data-group-id="6443017692-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6443017692-3">(</span><span class="p" data-group-id="6443017692-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6443017692-4">(</span><span class="mi">4</span><span class="p" data-group-id="6443017692-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6443017692-5">(</span><span class="p" data-group-id="6443017692-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6443017692-6">(</span><span class="mi">1</span><span class="p" data-group-id="6443017692-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4654619571-1">#</span><span class="nc" data-group-id="4654619571-1">Axon</span><span class="p" data-group-id="4654619571-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4654619571-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="4654619571-2">}</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="3720079595-1">(</span><span class="k" data-group-id="3720079595-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="3720079595-3">(</span><span class="p" data-group-id="3720079595-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3720079595-4">}</span><span class="p" data-group-id="3720079595-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="3720079595-5">(</span><span class="n">xs</span><span class="p" data-group-id="3720079595-5">)</span><span class="w">
+    </span><span class="p" data-group-id="3720079595-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="3720079595-6">}</span><span class="w">
+  </span><span class="k" data-group-id="3720079595-2">end</span><span class="p" data-group-id="3720079595-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5214462322-1">#</span><span class="nc" data-group-id="5214462322-1">Function</span><span class="p" data-group-id="5214462322-1">&lt;</span><span class="mf">50.127921642</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5214462322-1">&gt;</span></code></pre><p>The most basic supervised training loop in Axon requires 3 things:</p><ol><li>An Axon model</li><li>A loss function</li><li>An optimizer</li></ol><p>You can construct an Axon model using the knowledge you've gained from going through the model creation guides:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8039204424-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8039204424-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8039204424-2">(</span><span class="mi">8</span><span class="p" data-group-id="8039204424-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8039204424-3">(</span><span class="p" data-group-id="8039204424-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8039204424-4">(</span><span class="mi">4</span><span class="p" data-group-id="8039204424-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8039204424-5">(</span><span class="p" data-group-id="8039204424-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8039204424-6">(</span><span class="mi">1</span><span class="p" data-group-id="8039204424-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6572882309-1">#</span><span class="nc" data-group-id="6572882309-1">Axon</span><span class="p" data-group-id="6572882309-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6572882309-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6572882309-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;dense_2&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="4654619571-1">&gt;</span></code></pre><p>Axon comes with built-in loss functions and optimizers which you can use directly when constructing your training loop. To construct your training loop, you use <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4959359541-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4959359541-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2858747993-1">#</span><span class="nc" data-group-id="2858747993-1">Axon.Loop</span><span class="p" data-group-id="2858747993-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-3">[</span><span class="p" data-group-id="2858747993-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-4">[</span><span class="w">
-      </span><span class="p" data-group-id="2858747993-5">{</span><span class="p" data-group-id="2858747993-6">#</span><span class="nc" data-group-id="2858747993-6">Function</span><span class="p" data-group-id="2858747993-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="2858747993-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="2858747993-7">#</span><span class="nc" data-group-id="2858747993-7">Function</span><span class="p" data-group-id="2858747993-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2858747993-7">&gt;</span><span class="p" data-group-id="2858747993-5">}</span><span class="w">
-    </span><span class="p" data-group-id="2858747993-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-8">[</span><span class="p" data-group-id="2858747993-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-9">[</span><span class="p" data-group-id="2858747993-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-10">[</span><span class="p" data-group-id="2858747993-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-11">[</span><span class="w">
-      </span><span class="p" data-group-id="2858747993-12">{</span><span class="p" data-group-id="2858747993-13">#</span><span class="nc" data-group-id="2858747993-13">Function</span><span class="p" data-group-id="2858747993-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="2858747993-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="2858747993-14">#</span><span class="nc" data-group-id="2858747993-14">Function</span><span class="p" data-group-id="2858747993-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2858747993-14">&gt;</span><span class="p" data-group-id="2858747993-12">}</span><span class="w">
-    </span><span class="p" data-group-id="2858747993-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-15">[</span><span class="p" data-group-id="2858747993-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-16">[</span><span class="p" data-group-id="2858747993-16">]</span><span class="w">
-  </span><span class="p" data-group-id="2858747993-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2858747993-17">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2858747993-18">{</span><span class="p" data-group-id="2858747993-19">#</span><span class="nc" data-group-id="2858747993-19">Function</span><span class="p" data-group-id="2858747993-19">&lt;</span><span class="mf">12.17233431</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2858747993-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="2858747993-20">#</span><span class="nc" data-group-id="2858747993-20">Function</span><span class="p" data-group-id="2858747993-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2858747993-20">&gt;</span><span class="p" data-group-id="2858747993-18">}</span><span class="w">
-  </span><span class="p" data-group-id="2858747993-17">}</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="6572882309-1">&gt;</span></code></pre><p>Axon comes with built-in loss functions and optimizers which you can use directly when constructing your training loop. To construct your training loop, you use <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5803050548-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5803050548-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2211140709-1">#</span><span class="nc" data-group-id="2211140709-1">Axon.Loop</span><span class="p" data-group-id="2211140709-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-3">[</span><span class="p" data-group-id="2211140709-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-4">[</span><span class="w">
+      </span><span class="p" data-group-id="2211140709-5">{</span><span class="p" data-group-id="2211140709-6">#</span><span class="nc" data-group-id="2211140709-6">Function</span><span class="p" data-group-id="2211140709-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="2211140709-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="2211140709-7">#</span><span class="nc" data-group-id="2211140709-7">Function</span><span class="p" data-group-id="2211140709-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2211140709-7">&gt;</span><span class="p" data-group-id="2211140709-5">}</span><span class="w">
+    </span><span class="p" data-group-id="2211140709-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-8">[</span><span class="p" data-group-id="2211140709-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-9">[</span><span class="p" data-group-id="2211140709-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-10">[</span><span class="p" data-group-id="2211140709-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-11">[</span><span class="w">
+      </span><span class="p" data-group-id="2211140709-12">{</span><span class="p" data-group-id="2211140709-13">#</span><span class="nc" data-group-id="2211140709-13">Function</span><span class="p" data-group-id="2211140709-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="2211140709-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="2211140709-14">#</span><span class="nc" data-group-id="2211140709-14">Function</span><span class="p" data-group-id="2211140709-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2211140709-14">&gt;</span><span class="p" data-group-id="2211140709-12">}</span><span class="w">
+    </span><span class="p" data-group-id="2211140709-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-15">[</span><span class="p" data-group-id="2211140709-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-16">[</span><span class="p" data-group-id="2211140709-16">]</span><span class="w">
+  </span><span class="p" data-group-id="2211140709-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2211140709-17">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2211140709-18">{</span><span class="p" data-group-id="2211140709-19">#</span><span class="nc" data-group-id="2211140709-19">Function</span><span class="p" data-group-id="2211140709-19">&lt;</span><span class="mf">12.17233431</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2211140709-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="2211140709-20">#</span><span class="nc" data-group-id="2211140709-20">Function</span><span class="p" data-group-id="2211140709-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2211140709-20">&gt;</span><span class="p" data-group-id="2211140709-18">}</span><span class="w">
+  </span><span class="p" data-group-id="2211140709-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="2858747993-1">&gt;</span></code></pre><p>You'll notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns an <code class="inline">%Axon.Loop{}</code> data structure. This data structure contains information which Axon uses to control the execution of the loop. In order to run the loop, you need to explicitly pass it to <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3946486796-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3946486796-2">%{</span><span class="p" data-group-id="3946486796-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3946486796-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0421094</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1981390648-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-3">#</span><span class="nc" data-group-id="1981390648-3">Nx.Tensor</span><span class="p" data-group-id="1981390648-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1981390648-4">[</span><span class="mi">8</span><span class="p" data-group-id="1981390648-4">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-5">[</span><span class="mf">0.18567155301570892</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24138866364955902</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13732704520225525</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2081741988658905</span><span class="p">,</span><span class="w"> </span><span class="mf">0.013805730268359184</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18336650729179382</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07754829525947571</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12579604983329773</span><span class="p" data-group-id="1981390648-5">]</span><span class="w">
-    </span><span class="p" data-group-id="1981390648-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-6">#</span><span class="nc" data-group-id="1981390648-6">Nx.Tensor</span><span class="p" data-group-id="1981390648-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1981390648-7">[</span><span class="mi">1</span><span class="p" data-group-id="1981390648-7">]</span><span class="p" data-group-id="1981390648-8">[</span><span class="mi">8</span><span class="p" data-group-id="1981390648-8">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-9">[</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-10">[</span><span class="mf">0.06517036259174347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7166120409965515</span><span class="p">,</span><span class="w"> </span><span class="mf">0.649202823638916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3636767566204071</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33472830057144165</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6622008681297302</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6205887198448181</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1951046586036682</span><span class="p" data-group-id="1981390648-10">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-9">]</span><span class="w">
-    </span><span class="p" data-group-id="1981390648-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1981390648-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-12">#</span><span class="nc" data-group-id="1981390648-12">Nx.Tensor</span><span class="p" data-group-id="1981390648-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1981390648-13">[</span><span class="mi">4</span><span class="p" data-group-id="1981390648-13">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-14">[</span><span class="mf">0.2652607262134552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1563350260257721</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12963515520095825</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15289783477783203</span><span class="p" data-group-id="1981390648-14">]</span><span class="w">
-    </span><span class="p" data-group-id="1981390648-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-15">#</span><span class="nc" data-group-id="1981390648-15">Nx.Tensor</span><span class="p" data-group-id="1981390648-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1981390648-16">[</span><span class="mi">8</span><span class="p" data-group-id="1981390648-16">]</span><span class="p" data-group-id="1981390648-17">[</span><span class="mi">4</span><span class="p" data-group-id="1981390648-17">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-18">[</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-19">[</span><span class="mf">0.5483533143997192</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16270962357521057</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29001912474632263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16584330797195435</span><span class="p" data-group-id="1981390648-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-20">[</span><span class="o">-</span><span class="mf">0.3257339596748352</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6900827884674072</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17480286955833435</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5176011323928833</span><span class="p" data-group-id="1981390648-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-21">[</span><span class="o">-</span><span class="mf">0.5791758298873901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7136418223381042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2863248288631439</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2406335324048996</span><span class="p" data-group-id="1981390648-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-22">[</span><span class="mf">0.5999854803085327</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09972921013832092</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16846133768558502</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21690420806407928</span><span class="p" data-group-id="1981390648-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-23">[</span><span class="mf">0.10213596373796463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01878557913005352</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03252492845058441</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25937923789024353</span><span class="p" data-group-id="1981390648-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-24">[</span><span class="mf">0.4094444811344147</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48399242758750916</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18455447256565094</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40939682722091675</span><span class="p" data-group-id="1981390648-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-25">[</span><span class="mf">0.2809498906135559</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7121831178665161</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42944926023483276</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4959437847137451</span><span class="p" data-group-id="1981390648-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-26">[</span><span class="o">-</span><span class="mf">0.21076196432113647</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3021833896636963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46126121282577515</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5571116805076599</span><span class="p" data-group-id="1981390648-26">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-18">]</span><span class="w">
-    </span><span class="p" data-group-id="1981390648-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1981390648-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-28">#</span><span class="nc" data-group-id="1981390648-28">Nx.Tensor</span><span class="p" data-group-id="1981390648-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1981390648-29">[</span><span class="mi">1</span><span class="p" data-group-id="1981390648-29">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-30">[</span><span class="mf">0.3293934762477875</span><span class="p" data-group-id="1981390648-30">]</span><span class="w">
-    </span><span class="p" data-group-id="1981390648-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1981390648-31">#</span><span class="nc" data-group-id="1981390648-31">Nx.Tensor</span><span class="p" data-group-id="1981390648-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1981390648-32">[</span><span class="mi">4</span><span class="p" data-group-id="1981390648-32">]</span><span class="p" data-group-id="1981390648-33">[</span><span class="mi">1</span><span class="p" data-group-id="1981390648-33">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-34">[</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-35">[</span><span class="o">-</span><span class="mf">1.041453242301941</span><span class="p" data-group-id="1981390648-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-36">[</span><span class="mf">0.6521084308624268</span><span class="p" data-group-id="1981390648-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-37">[</span><span class="o">-</span><span class="mf">0.5688052773475647</span><span class="p" data-group-id="1981390648-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1981390648-38">[</span><span class="o">-</span><span class="mf">0.5789349675178528</span><span class="p" data-group-id="1981390648-38">]</span><span class="w">
-      </span><span class="p" data-group-id="1981390648-34">]</span><span class="w">
-    </span><span class="p" data-group-id="1981390648-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1981390648-27">}</span><span class="w">
-</span><span class="p" data-group-id="1981390648-1">}</span></code></pre><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> expects a loop to execute, some data to loop over, and any initial state you explicitly want your loop to start with. <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> will then iterate over your data, executing a step function on each batch, and accumulating some generic loop state. In the case of a supervised training loop, this generic loop state actually represents training state including your model's trained parameters.</p><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> also accepts options which control the loops execution. This includes <code class="inline">:iterations</code> which controls the number of iterations per epoch a loop should execute for, and <code class="inline">:epochs</code> which controls the number of epochs a loop should execute for:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4837524168-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4837524168-2">%{</span><span class="p" data-group-id="4837524168-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="4837524168-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0376754</span><span class="w">
+</span><span class="p" data-group-id="2211140709-1">&gt;</span></code></pre><p>You'll notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns an <code class="inline">%Axon.Loop{}</code> data structure. This data structure contains information which Axon uses to control the execution of the loop. In order to run the loop, you need to explicitly pass it to <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9725456727-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9725456727-2">%{</span><span class="p" data-group-id="9725456727-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="9725456727-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0421094</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8703795891-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-3">#</span><span class="nc" data-group-id="8703795891-3">Nx.Tensor</span><span class="p" data-group-id="8703795891-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8703795891-4">[</span><span class="mi">8</span><span class="p" data-group-id="8703795891-4">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-5">[</span><span class="mf">0.18567155301570892</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24138866364955902</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13732704520225525</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2081741988658905</span><span class="p">,</span><span class="w"> </span><span class="mf">0.013805730268359184</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18336650729179382</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07754829525947571</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12579604983329773</span><span class="p" data-group-id="8703795891-5">]</span><span class="w">
+    </span><span class="p" data-group-id="8703795891-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-6">#</span><span class="nc" data-group-id="8703795891-6">Nx.Tensor</span><span class="p" data-group-id="8703795891-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8703795891-7">[</span><span class="mi">1</span><span class="p" data-group-id="8703795891-7">]</span><span class="p" data-group-id="8703795891-8">[</span><span class="mi">8</span><span class="p" data-group-id="8703795891-8">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-9">[</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-10">[</span><span class="mf">0.06517036259174347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7166120409965515</span><span class="p">,</span><span class="w"> </span><span class="mf">0.649202823638916</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3636767566204071</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33472830057144165</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6622008681297302</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6205887198448181</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1951046586036682</span><span class="p" data-group-id="8703795891-10">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-9">]</span><span class="w">
+    </span><span class="p" data-group-id="8703795891-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8703795891-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-12">#</span><span class="nc" data-group-id="8703795891-12">Nx.Tensor</span><span class="p" data-group-id="8703795891-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8703795891-13">[</span><span class="mi">4</span><span class="p" data-group-id="8703795891-13">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-14">[</span><span class="mf">0.2652607262134552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1563350260257721</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12963515520095825</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15289783477783203</span><span class="p" data-group-id="8703795891-14">]</span><span class="w">
+    </span><span class="p" data-group-id="8703795891-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-15">#</span><span class="nc" data-group-id="8703795891-15">Nx.Tensor</span><span class="p" data-group-id="8703795891-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8703795891-16">[</span><span class="mi">8</span><span class="p" data-group-id="8703795891-16">]</span><span class="p" data-group-id="8703795891-17">[</span><span class="mi">4</span><span class="p" data-group-id="8703795891-17">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-18">[</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-19">[</span><span class="mf">0.5483533143997192</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16270962357521057</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29001912474632263</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16584330797195435</span><span class="p" data-group-id="8703795891-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-20">[</span><span class="o">-</span><span class="mf">0.3257339596748352</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6900827884674072</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17480286955833435</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5176011323928833</span><span class="p" data-group-id="8703795891-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-21">[</span><span class="o">-</span><span class="mf">0.5791758298873901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7136418223381042</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2863248288631439</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2406335324048996</span><span class="p" data-group-id="8703795891-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-22">[</span><span class="mf">0.5999854803085327</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09972921013832092</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16846133768558502</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21690420806407928</span><span class="p" data-group-id="8703795891-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-23">[</span><span class="mf">0.10213596373796463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01878557913005352</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03252492845058441</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25937923789024353</span><span class="p" data-group-id="8703795891-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-24">[</span><span class="mf">0.4094444811344147</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48399242758750916</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18455447256565094</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40939682722091675</span><span class="p" data-group-id="8703795891-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-25">[</span><span class="mf">0.2809498906135559</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7121831178665161</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42944926023483276</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4959437847137451</span><span class="p" data-group-id="8703795891-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-26">[</span><span class="o">-</span><span class="mf">0.21076196432113647</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3021833896636963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46126121282577515</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5571116805076599</span><span class="p" data-group-id="8703795891-26">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-18">]</span><span class="w">
+    </span><span class="p" data-group-id="8703795891-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8703795891-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-28">#</span><span class="nc" data-group-id="8703795891-28">Nx.Tensor</span><span class="p" data-group-id="8703795891-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8703795891-29">[</span><span class="mi">1</span><span class="p" data-group-id="8703795891-29">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-30">[</span><span class="mf">0.3293934762477875</span><span class="p" data-group-id="8703795891-30">]</span><span class="w">
+    </span><span class="p" data-group-id="8703795891-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8703795891-31">#</span><span class="nc" data-group-id="8703795891-31">Nx.Tensor</span><span class="p" data-group-id="8703795891-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8703795891-32">[</span><span class="mi">4</span><span class="p" data-group-id="8703795891-32">]</span><span class="p" data-group-id="8703795891-33">[</span><span class="mi">1</span><span class="p" data-group-id="8703795891-33">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-34">[</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-35">[</span><span class="o">-</span><span class="mf">1.041453242301941</span><span class="p" data-group-id="8703795891-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-36">[</span><span class="mf">0.6521084308624268</span><span class="p" data-group-id="8703795891-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-37">[</span><span class="o">-</span><span class="mf">0.5688052773475647</span><span class="p" data-group-id="8703795891-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8703795891-38">[</span><span class="o">-</span><span class="mf">0.5789349675178528</span><span class="p" data-group-id="8703795891-38">]</span><span class="w">
+      </span><span class="p" data-group-id="8703795891-34">]</span><span class="w">
+    </span><span class="p" data-group-id="8703795891-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8703795891-27">}</span><span class="w">
+</span><span class="p" data-group-id="8703795891-1">}</span></code></pre><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> expects a loop to execute, some data to loop over, and any initial state you explicitly want your loop to start with. <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> will then iterate over your data, executing a step function on each batch, and accumulating some generic loop state. In the case of a supervised training loop, this generic loop state actually represents training state including your model's trained parameters.</p><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> also accepts options which control the loops execution. This includes <code class="inline">:iterations</code> which controls the number of iterations per epoch a loop should execute for, and <code class="inline">:epochs</code> which controls the number of epochs a loop should execute for:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3820769907-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3820769907-2">%{</span><span class="p" data-group-id="3820769907-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="3820769907-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0376754</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0300909</span><span class="w">
-</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0260511</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4095811137-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-3">#</span><span class="nc" data-group-id="4095811137-3">Nx.Tensor</span><span class="p" data-group-id="4095811137-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4095811137-4">[</span><span class="mi">8</span><span class="p" data-group-id="4095811137-4">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-5">[</span><span class="o">-</span><span class="mf">0.09743800014257431</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36350908875465393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23338767886161804</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21299506723880768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04753172770142555</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03144805133342743</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0230794008821249</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17029045522212982</span><span class="p" data-group-id="4095811137-5">]</span><span class="w">
-    </span><span class="p" data-group-id="4095811137-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-6">#</span><span class="nc" data-group-id="4095811137-6">Nx.Tensor</span><span class="p" data-group-id="4095811137-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4095811137-7">[</span><span class="mi">1</span><span class="p" data-group-id="4095811137-7">]</span><span class="p" data-group-id="4095811137-8">[</span><span class="mi">8</span><span class="p" data-group-id="4095811137-8">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-9">[</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-10">[</span><span class="o">-</span><span class="mf">0.14422392845153809</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3840259611606598</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7611677050590515</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1216919794678688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4270862638950348</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43146076798439026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3569082021713257</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4051334857940674</span><span class="p" data-group-id="4095811137-10">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-9">]</span><span class="w">
-    </span><span class="p" data-group-id="4095811137-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4095811137-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-12">#</span><span class="nc" data-group-id="4095811137-12">Nx.Tensor</span><span class="p" data-group-id="4095811137-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4095811137-13">[</span><span class="mi">4</span><span class="p" data-group-id="4095811137-13">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-14">[</span><span class="mf">0.21392156183719635</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02405611053109169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2970339059829712</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02390623465180397</span><span class="p" data-group-id="4095811137-14">]</span><span class="w">
-    </span><span class="p" data-group-id="4095811137-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-15">#</span><span class="nc" data-group-id="4095811137-15">Nx.Tensor</span><span class="p" data-group-id="4095811137-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4095811137-16">[</span><span class="mi">8</span><span class="p" data-group-id="4095811137-16">]</span><span class="p" data-group-id="4095811137-17">[</span><span class="mi">4</span><span class="p" data-group-id="4095811137-17">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-18">[</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-19">[</span><span class="o">-</span><span class="mf">0.12441369146108627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44625332951545715</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2095455527305603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28127536177635193</span><span class="p" data-group-id="4095811137-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-20">[</span><span class="mf">0.6052687764167786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1358352154493332</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24579593539237976</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6278529167175293</span><span class="p" data-group-id="4095811137-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-21">[</span><span class="o">-</span><span class="mf">0.5855410695075989</span><span class="p">,</span><span class="w"> </span><span class="mf">0.014370989985764027</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4479483664035797</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07460466772317886</span><span class="p" data-group-id="4095811137-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-22">[</span><span class="mf">0.5286814570426941</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6323351263999939</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4167028069496155</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4724753797054291</span><span class="p" data-group-id="4095811137-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-23">[</span><span class="o">-</span><span class="mf">0.3705250918865204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41602230072021484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.626926600933075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03850430250167847</span><span class="p" data-group-id="4095811137-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-24">[</span><span class="mf">0.22140666842460632</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6492624878883362</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09525017440319061</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3179352283477783</span><span class="p" data-group-id="4095811137-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-25">[</span><span class="o">-</span><span class="mf">0.27787405252456665</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43634578585624695</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2430884689092636</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18133315443992615</span><span class="p" data-group-id="4095811137-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-26">[</span><span class="mf">0.4248749911785126</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059922583401203156</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09462974965572357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.57406085729599</span><span class="p" data-group-id="4095811137-26">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-18">]</span><span class="w">
-    </span><span class="p" data-group-id="4095811137-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4095811137-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-28">#</span><span class="nc" data-group-id="4095811137-28">Nx.Tensor</span><span class="p" data-group-id="4095811137-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4095811137-29">[</span><span class="mi">1</span><span class="p" data-group-id="4095811137-29">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-30">[</span><span class="mf">0.015223611146211624</span><span class="p" data-group-id="4095811137-30">]</span><span class="w">
-    </span><span class="p" data-group-id="4095811137-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4095811137-31">#</span><span class="nc" data-group-id="4095811137-31">Nx.Tensor</span><span class="p" data-group-id="4095811137-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4095811137-32">[</span><span class="mi">4</span><span class="p" data-group-id="4095811137-32">]</span><span class="p" data-group-id="4095811137-33">[</span><span class="mi">1</span><span class="p" data-group-id="4095811137-33">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-34">[</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-35">[</span><span class="o">-</span><span class="mf">0.6736029386520386</span><span class="p" data-group-id="4095811137-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-36">[</span><span class="o">-</span><span class="mf">0.019722800701856613</span><span class="p" data-group-id="4095811137-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-37">[</span><span class="mf">0.932664692401886</span><span class="p" data-group-id="4095811137-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4095811137-38">[</span><span class="o">-</span><span class="mf">0.9208926558494568</span><span class="p" data-group-id="4095811137-38">]</span><span class="w">
-      </span><span class="p" data-group-id="4095811137-34">]</span><span class="w">
-    </span><span class="p" data-group-id="4095811137-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4095811137-27">}</span><span class="w">
-</span><span class="p" data-group-id="4095811137-1">}</span></code></pre><p>You may have noticed that by default <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> configures your loop to log information about training progress every 50 iterations. You can control this when constructing your supervised training loop with the <code class="inline">:log</code> option:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0994399250-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="0994399250-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0994399250-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0994399250-3">%{</span><span class="p" data-group-id="0994399250-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="0994399250-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0700251</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8279294228-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-3">#</span><span class="nc" data-group-id="8279294228-3">Nx.Tensor</span><span class="p" data-group-id="8279294228-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8279294228-4">[</span><span class="mi">8</span><span class="p" data-group-id="8279294228-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-5">[</span><span class="o">-</span><span class="mf">0.10562735795974731</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3525764048099518</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0731351301074028</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3316117525100708</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08621923625469208</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15377338230609894</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02795499749481678</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19813594222068787</span><span class="p" data-group-id="8279294228-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8279294228-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-6">#</span><span class="nc" data-group-id="8279294228-6">Nx.Tensor</span><span class="p" data-group-id="8279294228-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8279294228-7">[</span><span class="mi">1</span><span class="p" data-group-id="8279294228-7">]</span><span class="p" data-group-id="8279294228-8">[</span><span class="mi">8</span><span class="p" data-group-id="8279294228-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-10">[</span><span class="mf">0.46547073125839233</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3838779926300049</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06413891166448593</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6604263186454773</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09603694081306458</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3142688274383545</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0673874095082283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1551232486963272</span><span class="p" data-group-id="8279294228-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8279294228-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8279294228-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-12">#</span><span class="nc" data-group-id="8279294228-12">Nx.Tensor</span><span class="p" data-group-id="8279294228-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8279294228-13">[</span><span class="mi">4</span><span class="p" data-group-id="8279294228-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-14">[</span><span class="mf">0.16770508885383606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11785938590765</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08730955421924591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18854482471942902</span><span class="p" data-group-id="8279294228-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8279294228-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-15">#</span><span class="nc" data-group-id="8279294228-15">Nx.Tensor</span><span class="p" data-group-id="8279294228-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8279294228-16">[</span><span class="mi">8</span><span class="p" data-group-id="8279294228-16">]</span><span class="p" data-group-id="8279294228-17">[</span><span class="mi">4</span><span class="p" data-group-id="8279294228-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-19">[</span><span class="o">-</span><span class="mf">0.32443270087242126</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33927711844444275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5110990405082703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34353166818618774</span><span class="p" data-group-id="8279294228-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-20">[</span><span class="mf">0.6843343377113342</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09189904481172562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4550926983356476</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27025723457336426</span><span class="p" data-group-id="8279294228-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-21">[</span><span class="mf">0.029612643644213676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3680649697780609</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5105444192886353</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1120513379573822</span><span class="p" data-group-id="8279294228-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-22">[</span><span class="o">-</span><span class="mf">0.12359219789505005</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2177252620458603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2753210961818695</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7462171912193298</span><span class="p" data-group-id="8279294228-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-23">[</span><span class="mf">0.2723115086555481</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39580288529396057</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41799622774124146</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003858723910525441</span><span class="p" data-group-id="8279294228-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-24">[</span><span class="mf">0.21861012279987335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37737029790878296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5444738268852234</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12978340685367584</span><span class="p" data-group-id="8279294228-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-25">[</span><span class="mf">0.12569139897823334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09505560994148254</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13603702187538147</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20154744386672974</span><span class="p" data-group-id="8279294228-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-26">[</span><span class="mf">0.4721740484237671</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27258655428886414</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6905713677406311</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09732398390769958</span><span class="p" data-group-id="8279294228-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8279294228-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8279294228-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-28">#</span><span class="nc" data-group-id="8279294228-28">Nx.Tensor</span><span class="p" data-group-id="8279294228-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8279294228-29">[</span><span class="mi">1</span><span class="p" data-group-id="8279294228-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-30">[</span><span class="mf">0.2536466121673584</span><span class="p" data-group-id="8279294228-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8279294228-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8279294228-31">#</span><span class="nc" data-group-id="8279294228-31">Nx.Tensor</span><span class="p" data-group-id="8279294228-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8279294228-32">[</span><span class="mi">4</span><span class="p" data-group-id="8279294228-32">]</span><span class="p" data-group-id="8279294228-33">[</span><span class="mi">1</span><span class="p" data-group-id="8279294228-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-35">[</span><span class="o">-</span><span class="mf">0.9850672483444214</span><span class="p" data-group-id="8279294228-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-36">[</span><span class="o">-</span><span class="mf">0.5319440960884094</span><span class="p" data-group-id="8279294228-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-37">[</span><span class="o">-</span><span class="mf">0.8099393844604492</span><span class="p" data-group-id="8279294228-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8279294228-38">[</span><span class="mf">0.6502916216850281</span><span class="p" data-group-id="8279294228-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8279294228-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8279294228-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8279294228-27">}</span><span class="w">
-</span><span class="p" data-group-id="8279294228-1">}</span></code></pre>
+</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0260511</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0530171144-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-3">#</span><span class="nc" data-group-id="0530171144-3">Nx.Tensor</span><span class="p" data-group-id="0530171144-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0530171144-4">[</span><span class="mi">8</span><span class="p" data-group-id="0530171144-4">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-5">[</span><span class="o">-</span><span class="mf">0.09743800014257431</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36350908875465393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23338767886161804</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21299506723880768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04753172770142555</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03144805133342743</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0230794008821249</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17029045522212982</span><span class="p" data-group-id="0530171144-5">]</span><span class="w">
+    </span><span class="p" data-group-id="0530171144-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-6">#</span><span class="nc" data-group-id="0530171144-6">Nx.Tensor</span><span class="p" data-group-id="0530171144-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0530171144-7">[</span><span class="mi">1</span><span class="p" data-group-id="0530171144-7">]</span><span class="p" data-group-id="0530171144-8">[</span><span class="mi">8</span><span class="p" data-group-id="0530171144-8">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-9">[</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-10">[</span><span class="o">-</span><span class="mf">0.14422392845153809</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3840259611606598</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7611677050590515</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1216919794678688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4270862638950348</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43146076798439026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3569082021713257</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4051334857940674</span><span class="p" data-group-id="0530171144-10">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-9">]</span><span class="w">
+    </span><span class="p" data-group-id="0530171144-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0530171144-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-12">#</span><span class="nc" data-group-id="0530171144-12">Nx.Tensor</span><span class="p" data-group-id="0530171144-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0530171144-13">[</span><span class="mi">4</span><span class="p" data-group-id="0530171144-13">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-14">[</span><span class="mf">0.21392156183719635</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02405611053109169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2970339059829712</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02390623465180397</span><span class="p" data-group-id="0530171144-14">]</span><span class="w">
+    </span><span class="p" data-group-id="0530171144-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-15">#</span><span class="nc" data-group-id="0530171144-15">Nx.Tensor</span><span class="p" data-group-id="0530171144-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0530171144-16">[</span><span class="mi">8</span><span class="p" data-group-id="0530171144-16">]</span><span class="p" data-group-id="0530171144-17">[</span><span class="mi">4</span><span class="p" data-group-id="0530171144-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-18">[</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-19">[</span><span class="o">-</span><span class="mf">0.12441369146108627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44625332951545715</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2095455527305603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28127536177635193</span><span class="p" data-group-id="0530171144-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-20">[</span><span class="mf">0.6052687764167786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1358352154493332</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24579593539237976</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6278529167175293</span><span class="p" data-group-id="0530171144-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-21">[</span><span class="o">-</span><span class="mf">0.5855410695075989</span><span class="p">,</span><span class="w"> </span><span class="mf">0.014370989985764027</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4479483664035797</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07460466772317886</span><span class="p" data-group-id="0530171144-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-22">[</span><span class="mf">0.5286814570426941</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6323351263999939</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4167028069496155</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4724753797054291</span><span class="p" data-group-id="0530171144-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-23">[</span><span class="o">-</span><span class="mf">0.3705250918865204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41602230072021484</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.626926600933075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03850430250167847</span><span class="p" data-group-id="0530171144-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-24">[</span><span class="mf">0.22140666842460632</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6492624878883362</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09525017440319061</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3179352283477783</span><span class="p" data-group-id="0530171144-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-25">[</span><span class="o">-</span><span class="mf">0.27787405252456665</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43634578585624695</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2430884689092636</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18133315443992615</span><span class="p" data-group-id="0530171144-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-26">[</span><span class="mf">0.4248749911785126</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059922583401203156</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09462974965572357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.57406085729599</span><span class="p" data-group-id="0530171144-26">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-18">]</span><span class="w">
+    </span><span class="p" data-group-id="0530171144-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0530171144-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-28">#</span><span class="nc" data-group-id="0530171144-28">Nx.Tensor</span><span class="p" data-group-id="0530171144-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0530171144-29">[</span><span class="mi">1</span><span class="p" data-group-id="0530171144-29">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-30">[</span><span class="mf">0.015223611146211624</span><span class="p" data-group-id="0530171144-30">]</span><span class="w">
+    </span><span class="p" data-group-id="0530171144-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0530171144-31">#</span><span class="nc" data-group-id="0530171144-31">Nx.Tensor</span><span class="p" data-group-id="0530171144-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0530171144-32">[</span><span class="mi">4</span><span class="p" data-group-id="0530171144-32">]</span><span class="p" data-group-id="0530171144-33">[</span><span class="mi">1</span><span class="p" data-group-id="0530171144-33">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-34">[</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-35">[</span><span class="o">-</span><span class="mf">0.6736029386520386</span><span class="p" data-group-id="0530171144-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-36">[</span><span class="o">-</span><span class="mf">0.019722800701856613</span><span class="p" data-group-id="0530171144-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-37">[</span><span class="mf">0.932664692401886</span><span class="p" data-group-id="0530171144-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0530171144-38">[</span><span class="o">-</span><span class="mf">0.9208926558494568</span><span class="p" data-group-id="0530171144-38">]</span><span class="w">
+      </span><span class="p" data-group-id="0530171144-34">]</span><span class="w">
+    </span><span class="p" data-group-id="0530171144-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0530171144-27">}</span><span class="w">
+</span><span class="p" data-group-id="0530171144-1">}</span></code></pre><p>You may have noticed that by default <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> configures your loop to log information about training progress every 50 iterations. You can control this when constructing your supervised training loop with the <code class="inline">:log</code> option:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7191382838-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="7191382838-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7191382838-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7191382838-3">%{</span><span class="p" data-group-id="7191382838-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="7191382838-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0700251</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1043279699-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-3">#</span><span class="nc" data-group-id="1043279699-3">Nx.Tensor</span><span class="p" data-group-id="1043279699-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1043279699-4">[</span><span class="mi">8</span><span class="p" data-group-id="1043279699-4">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-5">[</span><span class="o">-</span><span class="mf">0.10562735795974731</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3525764048099518</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0731351301074028</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3316117525100708</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08621923625469208</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15377338230609894</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02795499749481678</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19813594222068787</span><span class="p" data-group-id="1043279699-5">]</span><span class="w">
+    </span><span class="p" data-group-id="1043279699-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-6">#</span><span class="nc" data-group-id="1043279699-6">Nx.Tensor</span><span class="p" data-group-id="1043279699-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1043279699-7">[</span><span class="mi">1</span><span class="p" data-group-id="1043279699-7">]</span><span class="p" data-group-id="1043279699-8">[</span><span class="mi">8</span><span class="p" data-group-id="1043279699-8">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-9">[</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-10">[</span><span class="mf">0.46547073125839233</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3838779926300049</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06413891166448593</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6604263186454773</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09603694081306458</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3142688274383545</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0673874095082283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1551232486963272</span><span class="p" data-group-id="1043279699-10">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-9">]</span><span class="w">
+    </span><span class="p" data-group-id="1043279699-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1043279699-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-12">#</span><span class="nc" data-group-id="1043279699-12">Nx.Tensor</span><span class="p" data-group-id="1043279699-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1043279699-13">[</span><span class="mi">4</span><span class="p" data-group-id="1043279699-13">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-14">[</span><span class="mf">0.16770508885383606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11785938590765</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08730955421924591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18854482471942902</span><span class="p" data-group-id="1043279699-14">]</span><span class="w">
+    </span><span class="p" data-group-id="1043279699-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-15">#</span><span class="nc" data-group-id="1043279699-15">Nx.Tensor</span><span class="p" data-group-id="1043279699-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1043279699-16">[</span><span class="mi">8</span><span class="p" data-group-id="1043279699-16">]</span><span class="p" data-group-id="1043279699-17">[</span><span class="mi">4</span><span class="p" data-group-id="1043279699-17">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-18">[</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-19">[</span><span class="o">-</span><span class="mf">0.32443270087242126</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33927711844444275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5110990405082703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34353166818618774</span><span class="p" data-group-id="1043279699-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-20">[</span><span class="mf">0.6843343377113342</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09189904481172562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4550926983356476</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27025723457336426</span><span class="p" data-group-id="1043279699-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-21">[</span><span class="mf">0.029612643644213676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3680649697780609</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5105444192886353</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1120513379573822</span><span class="p" data-group-id="1043279699-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-22">[</span><span class="o">-</span><span class="mf">0.12359219789505005</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2177252620458603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2753210961818695</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7462171912193298</span><span class="p" data-group-id="1043279699-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-23">[</span><span class="mf">0.2723115086555481</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39580288529396057</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41799622774124146</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003858723910525441</span><span class="p" data-group-id="1043279699-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-24">[</span><span class="mf">0.21861012279987335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37737029790878296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5444738268852234</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12978340685367584</span><span class="p" data-group-id="1043279699-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-25">[</span><span class="mf">0.12569139897823334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09505560994148254</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13603702187538147</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20154744386672974</span><span class="p" data-group-id="1043279699-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-26">[</span><span class="mf">0.4721740484237671</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27258655428886414</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6905713677406311</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09732398390769958</span><span class="p" data-group-id="1043279699-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-18">]</span><span class="w">
+    </span><span class="p" data-group-id="1043279699-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1043279699-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-28">#</span><span class="nc" data-group-id="1043279699-28">Nx.Tensor</span><span class="p" data-group-id="1043279699-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1043279699-29">[</span><span class="mi">1</span><span class="p" data-group-id="1043279699-29">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-30">[</span><span class="mf">0.2536466121673584</span><span class="p" data-group-id="1043279699-30">]</span><span class="w">
+    </span><span class="p" data-group-id="1043279699-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1043279699-31">#</span><span class="nc" data-group-id="1043279699-31">Nx.Tensor</span><span class="p" data-group-id="1043279699-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1043279699-32">[</span><span class="mi">4</span><span class="p" data-group-id="1043279699-32">]</span><span class="p" data-group-id="1043279699-33">[</span><span class="mi">1</span><span class="p" data-group-id="1043279699-33">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-34">[</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-35">[</span><span class="o">-</span><span class="mf">0.9850672483444214</span><span class="p" data-group-id="1043279699-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-36">[</span><span class="o">-</span><span class="mf">0.5319440960884094</span><span class="p" data-group-id="1043279699-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-37">[</span><span class="o">-</span><span class="mf">0.8099393844604492</span><span class="p" data-group-id="1043279699-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1043279699-38">[</span><span class="mf">0.6502916216850281</span><span class="p" data-group-id="1043279699-38">]</span><span class="w">
+      </span><span class="p" data-group-id="1043279699-34">]</span><span class="w">
+    </span><span class="p" data-group-id="1043279699-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1043279699-27">}</span><span class="w">
+</span><span class="p" data-group-id="1043279699-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">